論文の概要: Evaluation of human-model prediction difference on the Internet Scale of Data
- arxiv url: http://arxiv.org/abs/2312.03291v2
- Date: Sun, 10 Nov 2024 06:12:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:05:39.392990
- Title: Evaluation of human-model prediction difference on the Internet Scale of Data
- Title(参考訳): インターネット・スケール・オブ・データにおける人間モデル予測差の評価
- Authors: Weitang Liu, Ying Wai Li, Yuelei Li, Zihan Wang, Yi-Zhuang You, Jingbo Shang,
- Abstract要約: データセットのモデルを評価することは、予期せぬ多様な入力に直面すると、その振る舞いを捉えるのに失敗することが多い。
入力空間のPRによってNNを評価し比較する新しい手法であるOmniInputを提案する。
- 参考スコア(独自算出の注目度): 32.7296837724399
- License:
- Abstract: Evaluating models on datasets often fails to capture their behavior when faced with unexpected and diverse types of inputs. It would be beneficial if we could evaluate the difference between human annotation and model prediction for an internet number of inputs, or more generally, for an input space that enumeration is computationally impractical. Traditional model evaluation methods rely on precision and recall (PR) as metrics, which are typically estimated by comparing human annotations with model predictions on a specific dataset. This is feasible because enumerating thousands of test inputs is manageable. However, estimating PR across a large input space is challenging because enumeration becomes computationally infeasible. We propose OmniInput, a novel approach to evaluate and compare NNs by the PR of an input space. OmniInput is distinctive from previous works as its estimated PR reflects the estimation of the differences between human annotation and model prediction in the input space which is usually too huge to be enumerated. We empirically validate our method within an enumerable input space, and our experiments demonstrate that OmniInput can effectively estimate and compare precision and recall for (large) language models within a broad input space that is not enumerable.
- Abstract(参考訳): データセット上のモデル評価は、予期せぬ多様な入力に直面すると、その振る舞いを捉えるのに失敗することが多い。
インターネットの入力数に対して、人間のアノテーションとモデル予測の違いを評価することができれば、より一般的には、列挙が計算的に非現実的な入力空間に対して有益である。
従来のモデル評価手法は精度とリコール(PR)を指標として用いており、一般的には人間のアノテーションと特定のデータセットのモデル予測を比較することによって推定される。
何千ものテスト入力を列挙することは管理可能であるため、これは実現可能である。
しかし、列挙化が計算不能になるため、大きな入力空間にわたってPRを推定することは困難である。
入力空間のPRによってNNを評価し比較する新しい手法であるOmniInputを提案する。
オムニインプットは、推定PRは、通常列挙するには大きすぎる入力空間における人間のアノテーションとモデル予測の違いを推定しているため、以前の作品とは異なる。
我々は,エヌマブルな入力空間内での手法の有効性を実証的に検証し,エヌマブルでない広い入力空間において,OmniInputが(より大きな)言語モデルの精度とリコールを効果的に推定し,比較できることを実証した。
関連論文リスト
- Prediction-Powered Inference with Imputed Covariates and Nonuniform Sampling [20.078602767179355]
機械学習予測におけるエラーを適切に説明できないことは、標準的な統計手順を無効にする。
我々は、完全なデータが一様でないサンプル(重み付け、成層化、クラスタ化)である場合に適用されるブートストラップの信頼区間と、任意の機能のサブセットが暗示される設定を紹介する。
これらの信頼区間は、機械学習モデルの品質を仮定せずに有効であり、機械学習予測を使用しない手法によって得られる区間よりも広くないことを示す。
論文 参考訳(メタデータ) (2025-01-30T18:46:43Z) - How to Select Datapoints for Efficient Human Evaluation of NLG Models? [57.60407340254572]
人間の評価に最も有用なデータポイントを得るためのセレクタ群を開発した。
本研究では,自動測定値の分散に基づくセレクタ,モデル出力の多様性,項目応答理論がランダム選択より優れていることを示す。
特に,情報源に基づく推定手法を導入し,情報源のテキストに基づいて人体評価に有用な項目を推定する。
論文 参考訳(メタデータ) (2025-01-30T10:33:26Z) - Model-diff: A Tool for Comparative Study of Language Models in the Input Space [34.680890752084004]
本稿では,ブルートフォース列挙が実現不可能な大入力空間を考慮した新しいモデル比較分析手法を提案する。
実験により、大規模な入力空間におけるLM間の定量的予測の違いが初めて明らかとなり、モデルプラジャリズムのような応用のためのモデル解析が促進される可能性がある。
論文 参考訳(メタデータ) (2024-12-13T00:06:25Z) - Sparse Prototype Network for Explainable Pedestrian Behavior Prediction [60.80524827122901]
Sparse Prototype Network (SPN) は,歩行者の将来の行動,軌道,ポーズを同時に予測するための説明可能な手法である。
モノセマンティリティとクラスタリングの制約によって規則化されたプロトタイプは、一貫性と人間の理解可能な機能を学ぶ。
論文 参考訳(メタデータ) (2024-10-16T03:33:40Z) - Knockout: A simple way to handle missing inputs [8.05324050767023]
リッチなインプットを利用するモデルは、推論時にいくつかのインプットが欠落している可能性があるため、広くデプロイすることは困難である。
この問題に対する現在の一般的な解決策には、余剰化、計算、複数のモデルのトレーニングがある。
完全入力と限界分布を用いて条件分布を効率よく学習する方法を提案する。
論文 参考訳(メタデータ) (2024-05-30T19:47:34Z) - Measuring and Improving Attentiveness to Partial Inputs with Counterfactuals [91.59906995214209]
我々は,新しい評価手法であるCAT(Facterfactual Attentiveness Test)を提案する。
CATは、入力の一部を別の例から別の例に置き換えることで、予測を変更する注意深いモデルを期待することで、反事実を使用する。
実験データの精度が向上する一方, GPT3 は実演回数の増加により注意力の低下がみられた。
論文 参考訳(メタデータ) (2023-11-16T06:27:35Z) - Efficient Shapley Values Estimation by Amortization for Text
Classification [66.7725354593271]
我々は,各入力特徴のシェープ値を直接予測し,追加のモデル評価を行なわずに補正モデルを開発する。
2つのテキスト分類データセットの実験結果から、アモルタイズされたモデルでは、Shapley Valuesを最大60倍のスピードアップで正確に見積もっている。
論文 参考訳(メタデータ) (2023-05-31T16:19:13Z) - ASPEST: Bridging the Gap Between Active Learning and Selective
Prediction [56.001808843574395]
選択予測は、不確実な場合の予測を棄却する信頼性のあるモデルを学ぶことを目的としている。
アクティブラーニングは、最も有意義な例を問うことで、ラベリングの全体、すなわち人間の依存度を下げることを目的としている。
本研究では,移動対象領域からより情報のあるサンプルを検索することを目的とした,新たな学習パラダイムである能動的選択予測を導入する。
論文 参考訳(メタデータ) (2023-04-07T23:51:07Z) - PAMI: partition input and aggregate outputs for model interpretation [69.42924964776766]
本研究では、深層学習モデルが局所的な特徴を集約してモデル予測を行うという観察に基づいて、PAMIと呼ばれるシンプルで効果的な可視化フレームワークを提案する。
基本的な考え方は、入力の大多数を隠蔽し、元のモデル予測に対する保存された入力部の相対的な寄与として対応するモデル出力を使用することである。
複数のタスクに対する大規模な実験により,提案手法は,クラス固有の入力領域をより正確に見つけるために,既存の可視化手法よりも優れていることを確認した。
論文 参考訳(メタデータ) (2023-02-07T08:48:34Z) - Are Some Words Worth More than Others? [3.5598388686985354]
簡単な単語予測タスクの枠組み内での2つの本質的な評価手法を提案する。
提案手法を用いて,広く使用されている大規模英語モデルの評価を行った。
論文 参考訳(メタデータ) (2020-10-12T23:12:11Z) - Detecting unusual input to neural networks [0.48733623015338234]
本研究では,学習パラメータと比較して情報内容を評価することによって,入力の特異性を判定する手法を提案する。
この手法は、ある入力を処理するのにネットワークが適しているかどうかを判断し、予期せぬ振る舞いが先延ばしになるような赤い旗を掲げるために使用することができる。
論文 参考訳(メタデータ) (2020-06-15T10:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。