論文の概要: From Static Benchmarks to Adaptive Testing: Psychometrics in AI Evaluation
- arxiv url: http://arxiv.org/abs/2306.10512v3
- Date: Tue, 6 Aug 2024 09:24:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-08-07 19:51:34.513397
- Title: From Static Benchmarks to Adaptive Testing: Psychometrics in AI Evaluation
- Title(参考訳): 静的ベンチマークから適応テストへ - AI評価における心理学的考察
- Authors: Yan Zhuang, Qi Liu, Yuting Ning, Weizhe Huang, Zachary A. Pardos, Patrick C. Kyllonen, Jiyun Zu, Qingyang Mao, Rui Lv, Zhenya Huang, Guanhao Zhao, Zheng Zhang, Shijin Wang, Enhong Chen,
- Abstract要約: 本稿では,静的評価手法から適応テストへのパラダイムシフトについて論じる。
これには、ベンチマークで各テスト項目の特性と価値を推定し、リアルタイムでアイテムを動的に調整することが含まれる。
我々は、AI評価にサイコメトリックを採用する現在のアプローチ、アドバンテージ、そして根底にある理由を分析します。
- 参考スコア(独自算出の注目度): 60.14902811624433
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As AI systems continue to grow, particularly generative models like Large Language Models (LLMs), their rigorous evaluation is crucial for development and deployment. To determine their adequacy, researchers have developed various large-scale benchmarks against a so-called gold-standard test set and report metrics averaged across all items. However, this static evaluation paradigm increasingly shows its limitations, including high computational costs, data contamination, and the impact of low-quality or erroneous items on evaluation reliability and efficiency. In this Perspective, drawing from human psychometrics, we discuss a paradigm shift from static evaluation methods to adaptive testing. This involves estimating the characteristics and value of each test item in the benchmark and dynamically adjusting items in real-time, tailoring the evaluation based on the model's ongoing performance instead of relying on a fixed test set. This paradigm not only provides a more robust ability estimation but also significantly reduces the number of test items required. We analyze the current approaches, advantages, and underlying reasons for adopting psychometrics in AI evaluation. We propose that adaptive testing will become the new norm in AI model evaluation, enhancing both the efficiency and effectiveness of assessing advanced intelligence systems.
- Abstract(参考訳): AIシステムは成長を続けており、特にLarge Language Models(LLMs)のような生成モデルでは、開発とデプロイメントにおいて厳格な評価が不可欠である。
それらの妥当性を判断するために、研究者は、いわゆるゴールドスタンダードテストセットに対する様々な大規模なベンチマークを開発し、すべての項目で平均されたメトリクスを報告した。
しかし、この静的評価パラダイムは、高い計算コスト、データ汚染、品質の低い項目や誤った項目が評価の信頼性と効率に与える影響など、その限界をますます示している。
本稿では,人間の心理指標から,静的評価法から適応テストへのパラダイムシフトを論じる。
これは、ベンチマークで各テスト項目の特性と値を推定し、リアルタイムでアイテムを動的に調整することを含み、固定されたテストセットに頼るのではなく、モデルの継続的なパフォーマンスに基づいて評価を調整します。
このパラダイムは、より堅牢な能力推定を提供するだけでなく、必要なテスト項目の数を大幅に削減します。
我々は、AI評価にサイコメトリックを採用する現在のアプローチ、アドバンテージ、そして根底にある理由を分析します。
本稿では,AIモデル評価における適応テストが新たな規範となり,高度な知能システム評価の効率性と有効性を高めることを提案する。
関連論文リスト
- Stop Evaluating AI with Human Tests, Develop Principled, AI-specific Tests instead [2.809966405091883]
我々は、ベンチマークのパフォーマンスを人間のような特性の測定として解釈することは、十分な理論的、実証的な正当化を欠いていると論じる。
私たちは、AIシステムに適した、原則化されたAI固有の評価フレームワークの開発を呼びかけます。
論文 参考訳(メタデータ) (2025-07-30T18:14:35Z) - On Benchmarking Human-Like Intelligence in Machines [77.55118048492021]
現在のAI評価パラダイムは、人間のような認知能力を評価するには不十分である、と我々は主張する。
人為的なラベルの欠如、人間の反応の多様性と不確実性の表現の不適切な表現、単純で生態学的に無意味なタスクへの依存。
論文 参考訳(メタデータ) (2025-02-27T20:21:36Z) - B-RIGHT: Benchmark Re-evaluation for Integrity in Generalized Human-Object Interaction Testing [18.822653709976784]
人間と物体の相互作用(HOI)は人工知能(AI)において不可欠な問題である
HICO-DETのような現在のベンチマークは以下の制限に直面している。
一般対象インタラクションテスト(B-RIGHT)における統合性のベンチマーク再評価という,新たなクラスバランスデータセットを提案する。
論文 参考訳(メタデータ) (2025-01-28T06:04:08Z) - Human-Calibrated Automated Testing and Validation of Generative Language Models [3.2855317710497633]
本稿では,ジェネレーティブ言語モデル(GLM)の評価と検証のための包括的枠組みを提案する。
銀行などの高額な領域に展開される検索・拡張世代(RAG)システムに焦点を当てている。
論文 参考訳(メタデータ) (2024-11-25T13:53:36Z) - Benchmarks as Microscopes: A Call for Model Metrology [76.64402390208576]
現代の言語モデル(LM)は、能力評価において新たな課題を提起する。
メトリクスに自信を持つためには、モデルミアロジの新たな規律が必要です。
論文 参考訳(メタデータ) (2024-07-22T17:52:12Z) - Aligning Model Evaluations with Human Preferences: Mitigating Token Count Bias in Language Model Assessments [2.1370543868467275]
本稿では,大規模言語モデルと人的評価を協調させる手法について検討する。
我々はこのバイアスを定量化するためにベイズ統計とt検定を用い、GPTScorerを調整するための再校正手順を開発した。
以上の結果から,再校正したLCM評価器と,複数のユースケースにおけるヒト評価との整合性は有意に改善した。
論文 参考訳(メタデータ) (2024-07-05T09:26:40Z) - ConSiDERS-The-Human Evaluation Framework: Rethinking Human Evaluation for Generative Large Language Models [53.00812898384698]
生成型大規模言語モデル(LLM)の人間による評価は多分野にわたる作業であるべきだと論じる。
認知バイアスが、流動的な情報や真理をいかに説明するか、そして、認識の不確実性が、Likertのような評価スコアの信頼性にどのように影響するかを強調します。
本稿では,ConSiDERS-The-Human評価フレームワークを提案する。一貫性,スコーリング基準,差別化,ユーザエクスペリエンス,責任,スケーラビリティの6つの柱からなる。
論文 参考訳(メタデータ) (2024-05-28T22:45:28Z) - Adaptive Testing Environment Generation for Connected and Automated
Vehicles with Dense Reinforcement Learning [7.6589102528398065]
複数のサロゲートモデルを組み込んだアダプティブテスト環境を構築する。
そこで本研究では,高効率な高密度強化学習手法を提案し,新しい適応政策を考案する。
論文 参考訳(メタデータ) (2024-02-29T15:42:33Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。
モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。
評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (2023-11-03T14:59:54Z) - Evaluating General-Purpose AI with Psychometrics [43.85432514910491]
本稿では,大規模言語モデルなどの汎用AIシステムの包括的かつ正確な評価の必要性について論じる。
現在の評価手法は、主に特定のタスクのベンチマークに基づいており、これらの汎用AIシステムを適切に評価するには不十分である。
これらの課題に対処するため,タスク指向評価から構成指向評価への移行を提案する。
論文 参考訳(メタデータ) (2023-10-25T05:38:38Z) - It HAS to be Subjective: Human Annotator Simulation via Zero-shot
Density Estimation [15.8765167340819]
人間アノテーションシミュレーション(Human Annotator Simulation, HAS)は、データアノテーションやシステムアセスメントなどの人的評価の代用として費用対効果がある。
人間の評価中の人間の知覚と行動は、多様な認知過程と主観的解釈による固有の多様性を示す。
本稿では,HASをゼロショット密度推定問題として扱うメタラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-30T20:54:59Z) - From Adversarial Arms Race to Model-centric Evaluation: Motivating a
Unified Automatic Robustness Evaluation Framework [91.94389491920309]
テキストの敵対攻撃は、セマンティック保存されているが、入力に誤解を招く摂動を加えることでモデルの弱点を発見することができる。
既存のロバストネス評価の実践は、包括的評価、非現実的評価プロトコル、無効な対人サンプルの問題を示す可能性がある。
我々は、敵攻撃の利点を活用するために、モデル中心の評価にシフトする統合された自動ロバストネス評価フレームワークを構築した。
論文 参考訳(メタデータ) (2023-05-29T14:55:20Z) - Revisiting the Gold Standard: Grounding Summarization Evaluation with
Robust Human Evaluation [136.16507050034755]
要約のための既存の人間の評価研究は、アノテータ間の合意が低かったり、スケールが不十分だったりしている。
細粒度セマンティック・ユニットをベースとした改良された要約サリエンス・プロトコルであるAtomic Content Units (ACUs)を提案する。
ロバスト・サムライゼーション・アセスメント(RoSE)ベンチマークは,28の上位性能システム上で22,000の要約レベルのアノテーションからなる大規模な人的評価データセットである。
論文 参考訳(メタデータ) (2022-12-15T17:26:05Z) - Uncertainty-Driven Action Quality Assessment [67.20617610820857]
本稿では,複数の判定スコアの多様性を捉えるために,不確実性駆動型AQA (UD-AQA) という新しい確率モデルを提案する。
我々は,AQA回帰損失の再重み付けに使用される各予測の不確かさを推定する。
提案手法は,オリンピックイベントMTL-AQAとFineDivingの3つのベンチマークと,手術スキルJIGSAWSデータセットの3つのベンチマークで比較結果を得た。
論文 参考訳(メタデータ) (2022-07-29T07:21:15Z) - Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy
Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。
ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。
実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-02-20T03:29:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。