論文の概要: The Evaluation Differential: When Frontier AI Models Recognise They Are Being Tested
- arxiv url: http://arxiv.org/abs/2605.11496v1
- Date: Tue, 12 May 2026 04:13:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.568978
- Title: The Evaluation Differential: When Frontier AI Models Recognise They Are Being Tested
- Title(参考訳): 評価の違い:フロンティアAIモデルがテストされていることを認識した時
- Authors: Varad Vishwarupe, Nigel Shadbolt, Marina Jirotka, Ivan Flechais,
- Abstract要約: 最近の公表された証拠は、現代のAIモデルが、評価コンテキストを認識し、最近になってそれらを表現し、それらのコンテキスト下では、デプロイメント連続的な条件下でとは異なる振る舞いをすることができることを示している。
これらの結果は、フロンティア評価から引き出された安全結論に対するクレーム正当性問題を生み出していると論じる。
本報告では, 安全クレームのタイプ (ED-stable, ED-degraded, ED-inverted, ED-undetermined) を, 文書発散に基づく保証基準を用いて開発し, TRACE (Test-Recognition Audit for Claim Evaluation) を指定する。
我々は,この枠組みを3件の公文書化された評価事件に遡って適用し,システムカードのガバナンスへの影響,適合性評価,及びガバナンスへの影響について議論する。
- 参考スコア(独自算出の注目度): 11.663456969895462
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent published evidence from frontier laboratories shows that contemporary AI models can recognise evaluation contexts, latently represent them, and behave differently under those contexts than under deployment-continuous conditions. Anthropic's BrowseComp incident, the Natural Language Autoencoder findings on SWE-bench Verified and destructive-coding evaluations, and the OpenAI / Apollo anti-scheming work all document instances of this phenomenon. We argue that these findings create a claim-validity problem for safety conclusions drawn from frontier evaluations. We introduce the Evaluation Differential (ED), a conditional divergence in a target behavioural property between recognised-evaluation and deployment-continuous contexts, define a normalised effect-size form (nED) for cross-property comparison, and prove that marginal evaluation scores cannot identify ED. We develop a typology of safety claims (ED-stable, ED-degraded, ED-inverted, ED-undetermined) by their warrant-status under documented divergence, and specify TRACE (Test-Recognition Audit for Claim Evaluation), an audit protocol that wraps existing evaluation infrastructure and produces restricted claims rather than capability scores. We apply the framework retrospectively to three publicly documented evaluation incidents and discuss governance implications for system cards, conformity assessment, and the international network of AI safety and security institutes. TRACE does not eliminate adversarial adaptation; it disciplines the claims drawn from evaluation evidence by making explicit the conditions under which that evidence was produced.
- Abstract(参考訳): 近年、フロンティア研究所から発表された証拠は、現代のAIモデルが、評価コンテキストを認識し、最近になってそれらを表現し、それらのコンテキスト下では、デプロイメント連続的な条件下でとは異なる振る舞いをすることができることを示している。
AnthropicのBrowseCompインシデント、SWE-benchの検証と破壊的なコード評価に関する自然言語オートエンコーダの発見、OpenAI/Apolloのアンチスキーマ作業は、この現象のすべてのドキュメントケースを記録している。
これらの結果は、フロンティア評価から引き出された安全結論に対するクレーム正当性問題を生み出していると論じる。
評価微分 (ED) は, 認識評価と展開継続コンテキストの目標行動特性における条件分岐であり, 相互優位性比較のための正規化効果サイズ形式 (nED) を定義し, 限界評価スコアがEDを識別できないことを証明している。
本研究では,既存の評価基盤を包含し,能力スコアよりも制限されたクレームを生成する監査プロトコルであるTRACE (Test-Recognition Audit for Claim Evaluation) を規定し,それらの保証基準による安全クレーム(ED-stable, ED-degraded, ED-inverted, ED-undetermined)のタイプを作成した。
我々は,この枠組みを3つの公文書化された評価事件に遡って適用し,システムカード,適合性評価,AI安全・セキュリティ機関の国際ネットワークに対するガバナンスの影響について議論する。
TRACEは、敵対的適応を排除せず、その証拠が作成された条件を明確にすることで、評価証拠から引き出された主張を規律している。
関連論文リスト
- Making AI-Assisted Grant Evaluation Auditable without Exposing the Model [0.0]
本稿では,遠隔検定による要求の整合を支援するTEEアーキテクチャを提案する。
このアーキテクチャにより、外部検証者はどのモデル、ルーブリック、プロンプトテンプレート、入力表現が使われたかをチェックすることができる。
我々は、秘密のAI推論、証明可能なAI監査、ゼロ知識機械学習、アルゴリズムのアカウンタビリティ、AI支援ピアレビューに対する設計を位置付ける。
論文 参考訳(メタデータ) (2026-04-28T04:10:04Z) - Designing escalation criteria for international AI incident response: criteria, triggers, and thresholds [0.0]
検出されたAIインシデントが、国際協調に対する国家の扱い以上のエスカレーションをいつ保証するかを決定するための運用基準は存在しない。
本稿では,このギャップに対処するエスカレーションフレームワークを提案する。
論文 参考訳(メタデータ) (2026-04-25T07:31:58Z) - DREAM: Deep Research Evaluation with Agentic Metrics [21.555357444628044]
本稿では,DREAM(Deep Research Evaluation with Agentic Metrics)を提案する。
DREAM構造評価は、クエリ非依存のメトリクスとツール呼び出しエージェントが生成する適応的なメトリクスを組み合わせた評価プロトコルを用いて行われる。
制御された評価は、DREAMが既存のベンチマークよりも事実や時間的劣化にかなり敏感であることを示している。
論文 参考訳(メタデータ) (2026-02-21T19:14:31Z) - Alignment Verifiability in Large Language Models: Normative Indistinguishability under Behavioral Evaluation [0.0]
部分観測可能性下での統計的識別可能性のレンズによるアライメント評価について検討した。
我々は、アライメント検証可能性問題を定式化し、ノーマティブ識別可能性を導入する。
以上の結果から,行動ベンチマークは,評価意識下での遅延アライメントに必要だが不十分な証拠を提供することが示された。
論文 参考訳(メタデータ) (2026-02-05T13:40:56Z) - Towards Real-Time Fake News Detection under Evidence Scarcity [66.58597356379907]
本稿では,リアルタイムフェイクニュース検出のための新しいフレームワークである評価アウェア・セレクション・オブ・エキスパートズ(EASE)を提案する。
EASEは、利用可能な証拠の十分性を評価した意思決定プロセスに適合する。
本稿では,新興ニュースのモデル一般化を限られた証拠で評価するための新しいベンチマークであるRealTimeNews-25を紹介する。
論文 参考訳(メタデータ) (2025-10-13T11:11:46Z) - Automatic Reviewers Fail to Detect Faulty Reasoning in Research Papers: A New Counterfactual Evaluation Framework [55.078301794183496]
我々は、高品質なピアレビューを支えるコアレビュースキル、すなわち欠陥のある研究ロジックの検出に注力する。
これは、論文の結果、解釈、クレームの間の内部の一貫性を評価することを含む。
本稿では,このスキルを制御条件下で分離し,テストする,完全自動対物評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-29T08:48:00Z) - Advancing Neural Network Verification through Hierarchical Safety Abstract Interpretation [52.626086874715284]
我々は、安全でない出力の階層構造を検証する抽象的DNN検証と呼ばれる新しい問題定式化を導入する。
出力到達可能な集合に関する抽象的解釈と推論を活用することにより,形式的検証プロセスにおいて,複数の安全性レベルを評価することができる。
我々の貢献には、新しい抽象的安全性の定式化と既存のアプローチとの関係を理論的に探求することが含まれる。
論文 参考訳(メタデータ) (2025-05-08T13:29:46Z) - SEOE: A Scalable and Reliable Semantic Evaluation Framework for Open Domain Event Detection [70.23196257213829]
オープンドメインイベント検出のためのスケーラブルで信頼性の高いセマンティックレベルの評価フレームワークを提案する。
提案フレームワークはまず,現在7つの主要ドメインをカバーする564のイベントタイプを含む,スケーラブルな評価ベンチマークを構築した。
次に,大言語モデル(LLM)を自動評価エージェントとして活用し,意味的類似ラベルのきめ細かい定義を取り入れた意味的F1スコアを計算する。
論文 参考訳(メタデータ) (2025-03-05T09:37:05Z) - Ev2R: Evaluating Evidence Retrieval in Automated Fact-Checking [11.300523252168327]
Evtextsuperscript2Rは、基準ベースの評価と検証レベルのプロキシスコアの長所を組み合わせる。
Evtextsuperscript2Rは、精度と堅牢性において既存のスコアリング手法より一貫して優れている。
論文 参考訳(メタデータ) (2024-11-08T07:05:06Z) - Position: AI Evaluation Should Learn from How We Test Humans [65.36614996495983]
人間の評価のための20世紀起源の理論である心理測定は、今日のAI評価における課題に対する強力な解決策になり得る、と我々は主張する。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。