論文の概要: OMNIINPUT: A Model-centric Evaluation Framework through Output
Distribution
- arxiv url: http://arxiv.org/abs/2312.03291v1
- Date: Wed, 6 Dec 2023 04:53:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-07 16:07:15.586653
- Title: OMNIINPUT: A Model-centric Evaluation Framework through Output
Distribution
- Title(参考訳): OMNIINPUT:出力分布によるモデル中心評価フレームワーク
- Authors: Weitang Liu, Ying Wai Li, Tianle Wang, Yi-Zhuang You, Jingbo Shang
- Abstract要約: 我々は,AI/MLモデルの予測品質を,可能なすべての入力に対して評価するモデル中心評価フレームワークOmniInputを提案する。
提案手法では, 学習モデルの入力と出力分布を求めるために, 効率的なサンプリング器を用いる。
実験により,OmniInputはモデル間のよりきめ細かい比較を可能にした。
- 参考スコア(独自算出の注目度): 31.00645110294068
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a novel model-centric evaluation framework, OmniInput, to evaluate
the quality of an AI/ML model's predictions on all possible inputs (including
human-unrecognizable ones), which is crucial for AI safety and reliability.
Unlike traditional data-centric evaluation based on pre-defined test sets, the
test set in OmniInput is self-constructed by the model itself and the model
quality is evaluated by investigating its output distribution. We employ an
efficient sampler to obtain representative inputs and the output distribution
of the trained model, which, after selective annotation, can be used to
estimate the model's precision and recall at different output values and a
comprehensive precision-recall curve. Our experiments demonstrate that
OmniInput enables a more fine-grained comparison between models, especially
when their performance is almost the same on pre-defined datasets, leading to
new findings and insights for how to train more robust, generalizable models.
- Abstract(参考訳): 我々は,AIの安全性と信頼性に欠かせないすべての入力(人間の認識できない入力を含む)に対して,AI/MLモデルの予測品質を評価するために,新しいモデル中心評価フレームワークOmniInputを提案する。
事前定義されたテストセットに基づく従来のデータ中心評価とは異なり、OmniInputのテストセットはモデル自身で自己構築され、その出力分布を調査してモデル品質を評価する。
本研究では,モデルの精度を推定し,異なる出力値と包括的精度・リコール曲線を再現するために,訓練モデルの出力分布と代表入力を得る効率的なサンプリング器を用いる。
我々の実験は、OmniInputがモデル間のよりきめ細かい比較を可能にし、特に事前定義されたデータセットでパフォーマンスがほぼ同じである場合、より堅牢で一般化可能なモデルのトレーニング方法に関する新たな発見と洞察をもたらすことを実証している。
関連論文リスト
- Sparse Prototype Network for Explainable Pedestrian Behavior Prediction [60.80524827122901]
Sparse Prototype Network (SPN) は,歩行者の将来の行動,軌道,ポーズを同時に予測するための説明可能な手法である。
モノセマンティリティとクラスタリングの制約によって規則化されたプロトタイプは、一貫性と人間の理解可能な機能を学ぶ。
論文 参考訳(メタデータ) (2024-10-16T03:33:40Z) - missForestPredict -- Missing data imputation for prediction settings [2.8461446020965435]
missForestPredictは、MissForest命令アルゴリズムの高速でユーザフレンドリな適応である。
missForestPredictでは、命令で使用される変数のエラー監視と制御が拡張されている。
missForestPredictは、短い計算時間内で予測設定で競合する結果を提供する。
論文 参考訳(メタデータ) (2024-07-02T17:45:46Z) - Knockout: A simple way to handle missing inputs [8.05324050767023]
リッチなインプットを利用するモデルは、推論時にいくつかのインプットが欠落している可能性があるため、広くデプロイすることは困難である。
この問題に対する現在の一般的な解決策には、余剰化、計算、複数のモデルのトレーニングがある。
完全入力と限界分布を用いて条件分布を効率よく学習する方法を提案する。
論文 参考訳(メタデータ) (2024-05-30T19:47:34Z) - Measuring and Improving Attentiveness to Partial Inputs with Counterfactuals [91.59906995214209]
我々は,新しい評価手法であるCAT(Facterfactual Attentiveness Test)を提案する。
CATは、入力の一部を別の例から別の例に置き換えることで、予測を変更する注意深いモデルを期待することで、反事実を使用する。
実験データの精度が向上する一方, GPT3 は実演回数の増加により注意力の低下がみられた。
論文 参考訳(メタデータ) (2023-11-16T06:27:35Z) - Efficient Shapley Values Estimation by Amortization for Text
Classification [66.7725354593271]
我々は,各入力特徴のシェープ値を直接予測し,追加のモデル評価を行なわずに補正モデルを開発する。
2つのテキスト分類データセットの実験結果から、アモルタイズされたモデルでは、Shapley Valuesを最大60倍のスピードアップで正確に見積もっている。
論文 参考訳(メタデータ) (2023-05-31T16:19:13Z) - ASPEST: Bridging the Gap Between Active Learning and Selective
Prediction [56.001808843574395]
選択予測は、不確実な場合の予測を棄却する信頼性のあるモデルを学ぶことを目的としている。
アクティブラーニングは、最も有意義な例を問うことで、ラベリングの全体、すなわち人間の依存度を下げることを目的としている。
本研究では,移動対象領域からより情報のあるサンプルを検索することを目的とした,新たな学習パラダイムである能動的選択予測を導入する。
論文 参考訳(メタデータ) (2023-04-07T23:51:07Z) - PAMI: partition input and aggregate outputs for model interpretation [69.42924964776766]
本研究では、深層学習モデルが局所的な特徴を集約してモデル予測を行うという観察に基づいて、PAMIと呼ばれるシンプルで効果的な可視化フレームワークを提案する。
基本的な考え方は、入力の大多数を隠蔽し、元のモデル予測に対する保存された入力部の相対的な寄与として対応するモデル出力を使用することである。
複数のタスクに対する大規模な実験により,提案手法は,クラス固有の入力領域をより正確に見つけるために,既存の可視化手法よりも優れていることを確認した。
論文 参考訳(メタデータ) (2023-02-07T08:48:34Z) - Are Some Words Worth More than Others? [3.5598388686985354]
簡単な単語予測タスクの枠組み内での2つの本質的な評価手法を提案する。
提案手法を用いて,広く使用されている大規模英語モデルの評価を行った。
論文 参考訳(メタデータ) (2020-10-12T23:12:11Z) - Detecting unusual input to neural networks [0.48733623015338234]
本研究では,学習パラメータと比較して情報内容を評価することによって,入力の特異性を判定する手法を提案する。
この手法は、ある入力を処理するのにネットワークが適しているかどうかを判断し、予期せぬ振る舞いが先延ばしになるような赤い旗を掲げるために使用することができる。
論文 参考訳(メタデータ) (2020-06-15T10:48:43Z) - Parameter Space Factorization for Zero-Shot Learning across Tasks and
Languages [112.65994041398481]
本稿では,ニューラルパラメータの空間に対するベイズ生成モデルを提案する。
タスク言語の組み合わせから得られたデータに基づいて、そのような潜伏変数よりも後部を推測する。
我々のモデルは、最先端のゼロショットの言語間転送手法よりも、同等か良い結果が得られる。
論文 参考訳(メタデータ) (2020-01-30T16:58:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。