論文の概要: Towards More Standardized AI Evaluation: From Models to Agents
- arxiv url: http://arxiv.org/abs/2602.18029v1
- Date: Fri, 20 Feb 2026 06:54:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-23 18:01:41.254945
- Title: Towards More Standardized AI Evaluation: From Models to Agents
- Title(参考訳): より標準化されたAI評価に向けて:モデルからエージェントへ
- Authors: Ali El Filali, Inès Bedar,
- Abstract要約: AIシステムが静的モデルから複雑なツール使用エージェントへと進化するにつれて、評価はコアコントロール機能となる。
ほとんどの評価プラクティスは、モデル中心の時代から受け継がれた仮定に固定されているままです。
本稿では,このようなアプローチが,システム行動の照らし方よりもあいまいになってきていることを論じる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluation is no longer a final checkpoint in the machine learning lifecycle. As AI systems evolve from static models to compound, tool-using agents, evaluation becomes a core control function. The question is no longer "How good is the model?" but "Can we trust the system to behave as intended, under change, at scale?". Yet most evaluation practices remain anchored in assumptions inherited from the model-centric era: static benchmarks, aggregate scores, and one-off success criteria. This paper argues that such approaches are increasingly obscure rather than illuminating system behavior. We examine how evaluation pipelines themselves introduce silent failure modes, why high benchmark scores routinely mislead teams, and how agentic systems fundamentally alter the meaning of performance measurement. Rather than proposing new metrics or harder benchmarks, we aim to clarify the role of evaluation in the AI era, and especially for agents: not as performance theater, but as a measurement discipline that conditions trust, iteration, and governance in non-deterministic systems.
- Abstract(参考訳): もはや、評価は機械学習ライフサイクルの最終チェックポイントではない。
AIシステムが静的モデルから複雑なツール使用エージェントへと進化するにつれて、評価はコアコントロール機能となる。
問題は、もはや“モデルがどれくらいよいのか?”という問題ではない。しかし、“システムを意図した、変化中の、大規模に振る舞うことを信頼しているか?
しかし、ほとんどの評価プラクティスは、静的ベンチマーク、アグリゲートスコア、ワンオフ成功基準といったモデル中心の時代から受け継がれた仮定に固定されています。
本稿では,このようなアプローチが,システム行動の照らし方よりもあいまいになってきていることを論じる。
評価パイプライン自体がサイレント障害モードをどのように導入するか、なぜ高いベンチマークスコアが定期的に誤解を招くのか、エージェントシステムがパフォーマンス測定の意味を根本的に変えるのかを検討する。
新しいメトリクスや厳しいベンチマークを提案するのではなく、AI時代、特にパフォーマンスシアターとしてではなく、非決定論的システムにおける信頼、イテレーション、ガバナンスを条件とする測定分野として、評価の役割を明確にすることを目的としています。
関連論文リスト
- The Necessity of a Unified Framework for LLM-Based Agent Evaluation [46.631678638677386]
汎用エージェントは基本的な進歩を見てきた。
これらのエージェントを評価すると、静的QAベンチマークと区別する固有の課題が提示される。
エージェント評価の厳格な向上には統一評価フレームワークが不可欠である。
論文 参考訳(メタデータ) (2026-02-03T08:18:37Z) - Large Language Models Often Know When They Are Being Evaluated [0.015534429177540245]
そこで本研究では,フロンティア言語モデルを用いて,評価や実世界の展開に起因した書き起こしを正確に分類できるかどうかを検討する。
我々は61の異なるデータセットから1000のプロンプトと書き起こしのベンチマークを構築した。
以上の結果から,フロンティアモデルにはまだ評価・認識レベルがかなり高いことが示唆された。
論文 参考訳(メタデータ) (2025-05-28T12:03:09Z) - Evaluation Faking: Unveiling Observer Effects in Safety Evaluation of Frontier AI Systems [24.81155882432305]
評価対象の高度なAIシステムが、推論や状況認識においてより高度である場合、評価のフェイキング行動がよりユビキタスになることを示す。
そこで我々は,フェーキング意図を検知し,その行動に相関した内部信号を明らかにするチェーンオブシントモニタリング手法を開発した。
論文 参考訳(メタデータ) (2025-05-23T12:31:29Z) - Benchmarks as Microscopes: A Call for Model Metrology [76.64402390208576]
現代の言語モデル(LM)は、能力評価において新たな課題を提起する。
メトリクスに自信を持つためには、モデルミアロジの新たな規律が必要です。
論文 参考訳(メタデータ) (2024-07-22T17:52:12Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - Position: AI Evaluation Should Learn from How We Test Humans [65.36614996495983]
人間の評価のための20世紀起源の理論である心理測定は、今日のAI評価における課題に対する強力な解決策になり得る、と我々は主張する。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - Evaluating Machine Unlearning via Epistemic Uncertainty [78.27542864367821]
本研究では,不確実性に基づく機械学習アルゴリズムの評価を行う。
これは私たちの最良の知識の一般的な評価の最初の定義です。
論文 参考訳(メタデータ) (2022-08-23T09:37:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。