論文の概要: Benchmarking is Broken - Don't Let AI be its Own Judge
- arxiv url: http://arxiv.org/abs/2510.07575v1
- Date: Wed, 08 Oct 2025 21:41:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:14.748331
- Title: Benchmarking is Broken - Don't Let AI be its Own Judge
- Title(参考訳): ベンチマークは壊れている - AIを独自の裁判官にしてはいけない
- Authors: Zerui Cheng, Stella Wohnig, Ruchika Gupta, Samiul Alam, Tassallah Abdullahi, João Alves Ribeiro, Christian Nielsen-Garcia, Saif Mir, Siran Li, Jason Orender, Seyed Ali Bahrainian, Daniel Kirste, Aaron Gokaslan, Mikołaj Glinka, Carsten Eickhoff, Ruben Wolff,
- Abstract要約: 現在のベンチマークでは、重大な脆弱性がますます明らかになっている。
データ汚染や、モデル開発者による選択的なレポートといった問題は、誇大宣伝に役立ちます。
このポジションペーパーは、現在のルイス=フェールアプローチは持続不可能であると主張している。
- 参考スコア(独自算出の注目度): 22.93026946593552
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The meteoric rise of Artificial Intelligence (AI), with its rapidly expanding market capitalization, presents both transformative opportunities and critical challenges. Chief among these is the urgent need for a new, unified paradigm for trustworthy evaluation, as current benchmarks increasingly reveal critical vulnerabilities. Issues like data contamination and selective reporting by model developers fuel hype, while inadequate data quality control can lead to biased evaluations that, even if unintentionally, may favor specific approaches. As a flood of participants enters the AI space, this "Wild West" of assessment makes distinguishing genuine progress from exaggerated claims exceptionally difficult. Such ambiguity blurs scientific signals and erodes public confidence, much as unchecked claims would destabilize financial markets reliant on credible oversight from agencies like Moody's. In high-stakes human examinations (e.g., SAT, GRE), substantial effort is devoted to ensuring fairness and credibility; why settle for less in evaluating AI, especially given its profound societal impact? This position paper argues that the current laissez-faire approach is unsustainable. We contend that true, sustainable AI advancement demands a paradigm shift: a unified, live, and quality-controlled benchmarking framework robust by construction, not by mere courtesy and goodwill. To this end, we dissect the systemic flaws undermining today's AI evaluation, distill the essential requirements for a new generation of assessments, and introduce PeerBench, a community-governed, proctored evaluation blueprint that embodies this paradigm through sealed execution, item banking with rolling renewal, and delayed transparency. Our goal is to pave the way for evaluations that can restore integrity and deliver genuinely trustworthy measures of AI progress.
- Abstract(参考訳): 人工知能(AI)の台頭は、急速に成長する市場資本化と共に、変革の機会と重要な課題の両方を提示している。
主要なものは、信頼に値する評価のための新しい統一されたパラダイムが緊急に必要であることだ。
データ汚染やモデル開発者の選択的な報告といった問題は誇大広告を刺激する一方で、データ品質管理の不十分さは、たとえ意図しないとしても、特定のアプローチを好む可能性のある偏見のある評価につながる可能性がある。
AI分野への参加者の流入に伴い、この評価の「ワイルド・ウェスト」は、誇張された主張から真の進歩を区別するのは非常に困難である。
このような曖昧さは科学的なシグナルを曖昧にし、未確認の主張がムーディーズのような機関からの信頼できる監視に依存して金融市場を不安定にするのと同様に、大衆の信頼を損なう。
高度な人間の診察(例:SAT、GRE)において、相当な努力が公正性と信頼性の確保に費やされている。
このポジションペーパーは、現在のルイス=フェールアプローチは持続不可能であると主張している。
真の持続可能なAI進歩にはパラダイムシフトが必要だ、と私たちは主張する。
この目的のために、今日のAI評価を損なうシステム的欠陥を識別し、新しい世代の評価に不可欠な要件を精査し、コミュニティが支配する、このパラダイムを具現化した、封印された実行、転がり更新によるアイテムバンキング、透明性の遅延といった評価青写真であるPeerBenchを紹介します。
私たちのゴールは、完全性を回復し、真に信頼できるAI進歩の手段を提供するための評価の道を開くことです。
関連論文リスト
- Zero-shot reasoning for simulating scholarly peer-review [0.0]
本稿では、AI生成ピアレビューレポートを評価するための、最初の安定的でエビデンスに基づく標準を提供する決定論的シミュレーションフレームワークについて検討する。
第一に、このシステムは校正された編集判断をシミュレートすることができ、「改訂」決定が一貫して多数決結果を形成する。
第二に、手続きの整合性を揺るぎないまま維持し、安定した29%の証明の遵守率を強制する。
論文 参考訳(メタデータ) (2025-10-02T13:59:14Z) - AI and the Future of Academic Peer Review [0.1622854284766506]
大規模言語モデル(LLM)は、ジャーナリスト、資金提供者、個人レビュアーによってピアレビューパイプラインで試験されている。
初期の研究は、AIアシストが人間に匹敵する品質のレビューを作成できることを示唆している。
教師付きLDM支援は, 人間の判断を損なうことなく, エラー検出, タイムライン, レビューヤの作業量を改善することができることを示す。
論文 参考訳(メタデータ) (2025-09-17T17:27:12Z) - Never Compromise to Vulnerabilities: A Comprehensive Survey on AI Governance [211.5823259429128]
本研究は,本質的セキュリティ,デリバティブ・セキュリティ,社会倫理の3つの柱を中心に構築された,技術的・社会的次元を統合した包括的枠組みを提案する。
我々は,(1)防衛が進化する脅威に対して失敗する一般化ギャップ,(2)現実世界のリスクを無視する不適切な評価プロトコル,(3)矛盾する監視につながる断片的な規制,の3つの課題を特定する。
私たちのフレームワークは、研究者、エンジニア、政策立案者に対して、堅牢でセキュアなだけでなく、倫理的に整合性があり、公的な信頼に値するAIシステムを開発するための実用的なガイダンスを提供します。
論文 参考訳(メタデータ) (2025-08-12T09:42:56Z) - When AIs Judge AIs: The Rise of Agent-as-a-Judge Evaluation for LLMs [8.575522204707958]
大規模言語モデル(LLM)は能力と自律性が向上し、特にオープンで複雑なタスクにおいて、アウトプットの評価が重要なボトルネックとなっている。
新たなパラダイムが生まれつつある。AIエージェントを評価対象として使用することだ。
本稿では,エージェント・アズ・ア・ジャッジの概念を定義し,単一モデル審査員から動的マルチエージェント・ディスカッション・フレームワークへの進化を辿り,その強みと欠点を批判的に検証する。
論文 参考訳(メタデータ) (2025-08-05T01:42:25Z) - The AI Imperative: Scaling High-Quality Peer Review in Machine Learning [49.87236114682497]
AIによるピアレビューは、緊急の研究とインフラの優先事項になるべきだ、と私たちは主張する。
我々は、事実検証の強化、レビュアーのパフォーマンスの指導、品質改善における著者の支援、意思決定におけるAC支援におけるAIの具体的な役割を提案する。
論文 参考訳(メタデータ) (2025-06-09T18:37:14Z) - Anchoring AI Capabilities in Market Valuations: The Capability Realization Rate Model and Valuation Misalignment Risk [2.1142253753427402]
人工知能の最近の進歩は、AI関連企業の市場評価の急上昇を引き起こしている。
本稿では,AIポテンシャルと実現された性能のギャップを定量化する能力実現率モデルを提案する。
透明性を改善し、投機的バブルを緩和し、AIイノベーションを持続可能な市場価値と整合させる政策推奨で締めくくります。
論文 参考訳(メタデータ) (2025-05-15T01:06:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。