論文の概要: Evaluation of human-model prediction difference on the Internet Scale of Data
- arxiv url: http://arxiv.org/abs/2312.03291v2
- Date: Sun, 10 Nov 2024 06:12:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:05:39.392990
- Title: Evaluation of human-model prediction difference on the Internet Scale of Data
- Title(参考訳): インターネット・スケール・オブ・データにおける人間モデル予測差の評価
- Authors: Weitang Liu, Ying Wai Li, Yuelei Li, Zihan Wang, Yi-Zhuang You, Jingbo Shang,
- Abstract要約: データセットのモデルを評価することは、予期せぬ多様な入力に直面すると、その振る舞いを捉えるのに失敗することが多い。
入力空間のPRによってNNを評価し比較する新しい手法であるOmniInputを提案する。
- 参考スコア(独自算出の注目度): 32.7296837724399
- License:
- Abstract: Evaluating models on datasets often fails to capture their behavior when faced with unexpected and diverse types of inputs. It would be beneficial if we could evaluate the difference between human annotation and model prediction for an internet number of inputs, or more generally, for an input space that enumeration is computationally impractical. Traditional model evaluation methods rely on precision and recall (PR) as metrics, which are typically estimated by comparing human annotations with model predictions on a specific dataset. This is feasible because enumerating thousands of test inputs is manageable. However, estimating PR across a large input space is challenging because enumeration becomes computationally infeasible. We propose OmniInput, a novel approach to evaluate and compare NNs by the PR of an input space. OmniInput is distinctive from previous works as its estimated PR reflects the estimation of the differences between human annotation and model prediction in the input space which is usually too huge to be enumerated. We empirically validate our method within an enumerable input space, and our experiments demonstrate that OmniInput can effectively estimate and compare precision and recall for (large) language models within a broad input space that is not enumerable.
- Abstract(参考訳): データセット上のモデル評価は、予期せぬ多様な入力に直面すると、その振る舞いを捉えるのに失敗することが多い。
インターネットの入力数に対して、人間のアノテーションとモデル予測の違いを評価することができれば、より一般的には、列挙が計算的に非現実的な入力空間に対して有益である。
従来のモデル評価手法は精度とリコール(PR)を指標として用いており、一般的には人間のアノテーションと特定のデータセットのモデル予測を比較することによって推定される。
何千ものテスト入力を列挙することは管理可能であるため、これは実現可能である。
しかし、列挙化が計算不能になるため、大きな入力空間にわたってPRを推定することは困難である。
入力空間のPRによってNNを評価し比較する新しい手法であるOmniInputを提案する。
オムニインプットは、推定PRは、通常列挙するには大きすぎる入力空間における人間のアノテーションとモデル予測の違いを推定しているため、以前の作品とは異なる。
我々は,エヌマブルな入力空間内での手法の有効性を実証的に検証し,エヌマブルでない広い入力空間において,OmniInputが(より大きな)言語モデルの精度とリコールを効果的に推定し,比較できることを実証した。
関連論文リスト
- Verifiable evaluations of machine learning models using zkSNARKs [40.538081946945596]
本研究は,zkSNARKによるモデル推論を用いたモデル評価の検証手法を提案する。
結果として得られたデータセット上のモデル出力のゼロ知識計算証明は、検証可能な評価証明にパッケージ化することができる。
実世界のモデルのサンプルでこれを初めてデモし、重要な課題と設計ソリューションを強調します。
論文 参考訳(メタデータ) (2024-02-05T02:21:11Z) - Preserving Knowledge Invariance: Rethinking Robustness Evaluation of
Open Information Extraction [50.62245481416744]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。
我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。
さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文 参考訳(メタデータ) (2023-05-23T12:05:09Z) - Provable Robustness for Streaming Models with a Sliding Window [51.85182389861261]
オンラインコンテンツレコメンデーションや株式市場分析のようなディープラーニングアプリケーションでは、モデルは過去のデータを使って予測を行う。
入力ストリーム上の固定サイズのスライディングウインドウを使用するモデルに対して、ロバスト性証明を導出する。
私たちの保証は、ストリーム全体の平均モデルパフォーマンスを保ち、ストリームサイズに依存しないので、大きなデータストリームに適しています。
論文 参考訳(メタデータ) (2023-03-28T21:02:35Z) - Evaluating Representations with Readout Model Switching [18.475866691786695]
本稿では,最小記述長(MDL)の原理を用いて評価指標を考案する。
我々は、読み出しモデルのためのハイブリッド離散および連続値モデル空間を設計し、それらの予測を組み合わせるために切替戦略を用いる。
提案手法はオンライン手法で効率的に計算でき,様々なアーキテクチャの事前学習された視覚エンコーダに対する結果を示す。
論文 参考訳(メタデータ) (2023-02-19T14:08:01Z) - PAMI: partition input and aggregate outputs for model interpretation [69.42924964776766]
本研究では、深層学習モデルが局所的な特徴を集約してモデル予測を行うという観察に基づいて、PAMIと呼ばれるシンプルで効果的な可視化フレームワークを提案する。
基本的な考え方は、入力の大多数を隠蔽し、元のモデル予測に対する保存された入力部の相対的な寄与として対応するモデル出力を使用することである。
複数のタスクに対する大規模な実験により,提案手法は,クラス固有の入力領域をより正確に見つけるために,既存の可視化手法よりも優れていることを確認した。
論文 参考訳(メタデータ) (2023-02-07T08:48:34Z) - Post-Selection Confidence Bounds for Prediction Performance [2.28438857884398]
機械学習では、潜在的に多くの競合モデルから有望なモデルを選択し、その一般化性能を評価することが重要な課題である。
本稿では,評価セットの予測性能に基づいて選択された複数のモデルに対して,有効な低信頼境界を求めるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-24T13:28:43Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - How Faithful is your Synthetic Data? Sample-level Metrics for Evaluating
and Auditing Generative Models [95.8037674226622]
ドメインに依存しない方法で生成モデルの忠実度,多様性,一般化性能を特徴付ける3次元評価指標を提案する。
当社のメトリクスは、精度リコール分析により統計的発散測定を統合し、モデル忠実度と多様性のサンプルおよび分布レベルの診断を可能にします。
論文 参考訳(メタデータ) (2021-02-17T18:25:30Z) - PSD2 Explainable AI Model for Credit Scoring [0.0]
本研究の目的は、信用リスクモデルの予測精度を向上させるための高度な分析手法の開発と試験である。
このプロジェクトは、銀行関連のデータベースに説明可能な機械学習モデルを適用することに焦点を当てている。
論文 参考訳(メタデータ) (2020-11-20T12:12:38Z) - VAE-LIME: Deep Generative Model Based Approach for Local Data-Driven
Model Interpretability Applied to the Ironmaking Industry [70.10343492784465]
モデル予測だけでなく、その解釈可能性も、プロセスエンジニアに公開する必要があります。
LIMEに基づくモデルに依存しない局所的解釈可能性ソリューションが最近出現し、元の手法が改良された。
本稿では, 燃焼炉で生成する高温金属の温度を推定するデータ駆動型モデルの局所的解釈可能性に関する新しいアプローチ, VAE-LIMEを提案する。
論文 参考訳(メタデータ) (2020-07-15T07:07:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。