論文の概要: Our Evaluation Metric Needs an Update to Encourage Generalization
- arxiv url: http://arxiv.org/abs/2007.06898v1
- Date: Tue, 14 Jul 2020 08:15:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 13:23:47.274822
- Title: Our Evaluation Metric Needs an Update to Encourage Generalization
- Title(参考訳): 評価基準は包括的一般化の更新を必要とします
- Authors: Swaroop Mishra, Anjana Arunkumar, Chris Bryan and Chitta Baral
- Abstract要約: 一般的なベンチマークで人的パフォーマンスを上回るモデルでは、Out of Distributionデータへの露出によるパフォーマンスの大幅な低下が示される。
本稿では,評価中の一般化を促す簡易で斬新な評価指標WOOD Scoreを提案する。
- 参考スコア(独自算出の注目度): 24.6240575061124
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Models that surpass human performance on several popular benchmarks display
significant degradation in performance on exposure to Out of Distribution (OOD)
data. Recent research has shown that models overfit to spurious biases and
`hack' datasets, in lieu of learning generalizable features like humans. In
order to stop the inflation in model performance -- and thus overestimation in
AI systems' capabilities -- we propose a simple and novel evaluation metric,
WOOD Score, that encourages generalization during evaluation.
- Abstract(参考訳): いくつかの人気のあるベンチマークで人的パフォーマンスを上回るモデルでは、out of Distribution(OOD)データに曝露した場合のパフォーマンスが著しく低下する。
最近の研究では、モデルが人間のような一般化可能な特徴を学習する代わりに、刺激的なバイアスや「ハック」データセットに過度に適合していることが示されている。
モデル性能のインフレーション(つまりAIシステムの能力の過大評価)を抑えるため、我々は、評価中の一般化を促進する単純で斬新な評価指標であるWOODスコアを提案する。
関連論文リスト
- Self-Taught Evaluators [77.92610887220594]
本稿では,人工的なトレーニングデータのみを用いて,人間のアノテーションを使わずに即興で証明することを目的としたアプローチを提案する。
我々の自己学習評価器は、RewardBench上で75.4から88.3までの強いLDMを改善することができる。
論文 参考訳(メタデータ) (2024-08-05T17:57:02Z) - Model Reprogramming Outperforms Fine-tuning on Out-of-distribution Data in Text-Image Encoders [56.47577824219207]
本稿では,侵入的微調整技術に関連する隠れたコストを明らかにする。
ファインチューニングのための新しいモデル再プログラミング手法を導入し、それをリプログラマと呼ぶ。
我々の経験的証拠は、Re Programmerは侵入力が少なく、より優れた下流モデルが得られることを示している。
論文 参考訳(メタデータ) (2024-03-16T04:19:48Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。
モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。
評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (2023-11-03T14:59:54Z) - From Static Benchmarks to Adaptive Testing: Psychometrics in AI Evaluation [60.14902811624433]
本稿では,静的評価手法から適応テストへのパラダイムシフトについて論じる。
これには、ベンチマークで各テスト項目の特性と価値を推定し、リアルタイムでアイテムを動的に調整することが含まれる。
我々は、AI評価にサイコメトリックを採用する現在のアプローチ、アドバンテージ、そして根底にある理由を分析します。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - GREAT Score: Global Robustness Evaluation of Adversarial Perturbation using Generative Models [60.48306899271866]
GREATスコア(GREAT Score)と呼ばれる新しいフレームワークを提案する。
我々は,ロバストベンチにおける攻撃ベースモデルと比較し,高い相関性を示し,GREATスコアのコストを大幅に削減した。
GREAT Scoreは、プライバシーに敏感なブラックボックスモデルのリモート監査に使用することができる。
論文 参考訳(メタデータ) (2023-04-19T14:58:27Z) - Towards Realistic Out-of-Distribution Detection: A Novel Evaluation
Framework for Improving Generalization in OOD Detection [14.541761912174799]
本稿では,OOD(Out-of-Distribution)検出のための新しい評価フレームワークを提案する。
より現実的な設定で機械学習モデルのパフォーマンスを評価することを目的としている。
論文 参考訳(メタデータ) (2022-11-20T07:30:15Z) - Rethinking Self-Supervision Objectives for Generalizable Coherence
Modeling [8.329870357145927]
機械生成テキストのコヒーレンス評価は、検討すべきコヒーレンスモデルの主要な応用の1つである。
タスク全体にわたってうまく一般化するモデルをもたらす訓練データと自己超越目標について検討する。
本研究では, 負サンプルの密度の増加が基本モデルを改善することを実証的に示し, 大域的負のキューを用いることで, 強負のサンプルを訓練しながらモデルをさらに改善・安定化する。
論文 参考訳(メタデータ) (2021-10-14T07:44:14Z) - BEDS-Bench: Behavior of EHR-models under Distributional Shift--A
Benchmark [21.040754460129854]
OOD設定下でのEHRデータ上でのMLモデルの振る舞いを定量化するベンチマークであるBEDS-Benchをリリースする。
BEDS-Bench の学習アルゴリズムを複数評価した結果,一般に分布シフト下での一般化性能の低下が判明した。
論文 参考訳(メタデータ) (2021-07-17T05:53:24Z) - Measuring Fairness in Generative Models [38.167419334780526]
近年、深層データの公平性への関心が高まっている。
公正データ生成の中心は、異なる生成モデルの評価と評価のための公正度指標である。
論文 参考訳(メタデータ) (2021-07-16T08:12:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。