論文の概要: The Evaluation Trap: Benchmark Design as Theoretical Commitment
- arxiv url: http://arxiv.org/abs/2605.14167v1
- Date: Wed, 13 May 2026 22:41:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.525444
- Title: The Evaluation Trap: Benchmark Design as Theoretical Commitment
- Title(参考訳): 評価トラップ:理論的コミットメントとしてのベンチマーク設計
- Authors: Theodore J Kalaitzidis,
- Abstract要約: 本稿では,技術能力主張から直接評価基準を導出する手法であるエピステマティクスを紹介する。
我々は,建築レベルでの支配的パラダイムの理論的仮定を改訂する提案であるDupoux et al. (2026)の実施監査を通じて,この手順を実証する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Every AI benchmark operationalizes theoretical assumptions about the capability it claims to assess. When assumptions function as unexamined commitments, benchmarks stabilize the dominant paradigm by narrowing what counts as progress. Over time, narrow evaluation reorganizes capability concepts: architectures and definitions are selected for benchmark legibility until evaluation ceases to track an independent object and instead produces a version of the target defined by its own operational assumptions. The result is a trap: evaluation frameworks treat self-reinforcing assessments as valid, both creating and obscuring structural limits on what the current paradigm can accomplish. We introduce Epistematics, a methodology for deriving evaluation criteria directly from technical capability claims and auditing whether proposed benchmarks can discriminate the claimed capability from proxy behaviors. The contribution is meta-evaluative: an audit procedure, a failure mode taxonomy, and benchmark-design criteria for evaluating capability-evaluation coherence. We demonstrate the procedure through a worked audit of Dupoux et al. (2026), a proposal that revises the dominant paradigm's theoretical assumptions at the architectural level while reproducing them in its evaluation criteria, thereby entrenching the constraint it seeks to overcome in a form the evaluation cannot detect.
- Abstract(参考訳): すべてのAIベンチマークは、評価する能力に関する理論的仮定を運用する。
仮定が未検討のコミットメントとして機能する場合、ベンチマークは進歩として数えられるものを絞り込むことで支配的なパラダイムを安定化する。
アーキテクチャと定義は、評価が独立したオブジェクトを追跡することを止めるまで、ベンチマークの正当性のために選択され、代わりに、自身の運用上の前提によって定義されたターゲットのバージョンを生成する。
評価フレームワークは自己強化評価を有効なものとして扱い、現在のパラダイムが達成可能な構造的限界を創造し、隠蔽する。
本稿では,評価基準を技術的能力クレームから直接導出する手法であるエピステマティクスを紹介する。
コントリビューションはメタ評価的であり、監査手順、障害モード分類、そして能力評価コヒーレンスを評価するためのベンチマーク設計基準である。
評価基準を再現しながら、支配的なパラダイムの理論的仮定をアーキテクチャレベルで修正し、評価が検出できない形で克服しようとする制約を解消する提案であるDupoux et al(2026)の作業監査を通じて、手順を実証する。
関連論文リスト
- The Validity of Coreference-based Evaluations of Natural Language Understanding [3.505146496638911]
標準のコア参照評価を分析し、それらの設計がしばしば一般化不可能な結論につながることを示す。
イベントの相対的妥当性を推測するテストシステムの能力に着目した,新たな評価手法を提案し,実装する。
論文 参考訳(メタデータ) (2026-02-18T05:49:28Z) - Measurement to Meaning: A Validity-Centered Framework for AI Evaluation [12.55408229639344]
我々は、利用可能な証拠から得られる評価的クレームのタイプを推論するための構造化されたアプローチを提供する。
私たちのフレームワークは、機械学習の現代的なパラダイムに適しています。
論文 参考訳(メタデータ) (2025-05-13T20:36:22Z) - SEOE: A Scalable and Reliable Semantic Evaluation Framework for Open Domain Event Detection [70.23196257213829]
オープンドメインイベント検出のためのスケーラブルで信頼性の高いセマンティックレベルの評価フレームワークを提案する。
提案フレームワークはまず,現在7つの主要ドメインをカバーする564のイベントタイプを含む,スケーラブルな評価ベンチマークを構築した。
次に,大言語モデル(LLM)を自動評価エージェントとして活用し,意味的類似ラベルのきめ細かい定義を取り入れた意味的F1スコアを計算する。
論文 参考訳(メタデータ) (2025-03-05T09:37:05Z) - A Backdoor-based Explainable AI Benchmark for High Fidelity Evaluation of Attributions [60.06461883533697]
まず、属性手法の信頼性ベンチマークが満たすであろう信頼度基準のセットを同定する。
次に、望ましい忠実度基準に準拠したBackdoorベースのeXplainable AIベンチマーク(BackX)を紹介します。
我々の分析はまた、属性を利用して神経トロイの木馬を守るための洞察を提供する。
論文 参考訳(メタデータ) (2024-05-02T13:48:37Z) - From Adversarial Arms Race to Model-centric Evaluation: Motivating a
Unified Automatic Robustness Evaluation Framework [91.94389491920309]
テキストの敵対攻撃は、セマンティック保存されているが、入力に誤解を招く摂動を加えることでモデルの弱点を発見することができる。
既存のロバストネス評価の実践は、包括的評価、非現実的評価プロトコル、無効な対人サンプルの問題を示す可能性がある。
我々は、敵攻撃の利点を活用するために、モデル中心の評価にシフトする統合された自動ロバストネス評価フレームワークを構築した。
論文 参考訳(メタデータ) (2023-05-29T14:55:20Z) - Unifying Gradient Estimators for Meta-Reinforcement Learning via
Off-Policy Evaluation [53.83642844626703]
オフ・ポリシー評価に基づいて,高次値関数の高次微分を推定するための統一フレームワークを提供する。
本フレームワークは, ヘッセン推定の偏りと分散トレードオフを解明する特別事例として, 多くの先行的アプローチを解釈する。
論文 参考訳(メタデータ) (2021-06-24T15:58:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。