論文の概要: Models That Know How Evaluations Are Designed Score Safer
- arxiv url: http://arxiv.org/abs/2605.28591v1
- Date: Wed, 27 May 2026 15:11:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:56.146635
- Title: Models That Know How Evaluations Are Designed Score Safer
- Title(参考訳): スコア・サファーを設計したモデル
- Authors: Katharina Deckenbach, Haritz Puerto, Jonas Geiping, Sahar Abdelnabi,
- Abstract要約: 評価を特徴付ける構造特性に関するパラメトリック知識として定義されるメタ知識の評価について検討する。
評価手法を記述したテキストでトレーニングされたモデルでは、評価のようなコンテキストを認識して反応することが暗黙的に学習される可能性があるという仮説を立てる。
この結果から,評価メタ知識は,明示的な記憶や言語的評価意識に依存しない新しい共同創設者を導入することにより,安全性ベンチマークのパフォーマンスを向上させる可能性が示唆された。
- 参考スコア(独自算出の注目度): 38.21092181000792
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The validity of AI safety evaluations depends on models behaving consistently across controlled and deployment settings. Prior work has identified test-time contextual cues, such as hypothetical scenarios, as a source of verbalized evaluation awareness and subsequent behavioral shift. In this paper, we investigate a potential explanation of this phenomenon: evaluation meta-knowledge, defined as parametric knowledge about the structural traits that characterize evaluations. Similar to dataset contamination, where benchmark exposure leads to higher performance through memorization, we hypothesize that models trained on texts describing evaluation practices may implicitly learn to recognize and respond to evaluation-like contexts, for instance, through exposure to scientific articles or social media posts about AI benchmarking. To test this, we fine-tune models on synthetic documents describing evaluation traits such as verifiable structures or moral dilemmas. Evaluating this fine-tuned model on six safety benchmarks, we find that it is significantly safer than the base model and control model. This behavioral shift persists even when restricting the analysis to responses lacking explicit verbalization of evaluation awareness. Our results demonstrate that evaluation meta-knowledge may inflate safety benchmark performance, introducing a novel confounder that is independent of explicit memorization or verbalized evaluation awareness, thus, challenging to detect. These findings have important implications for the design and interpretation of AI safety evaluations. Our code and models are available at https://github.com/compass-group-tue/arxiv2026_evaluation_meta_knowledge.
- Abstract(参考訳): AIの安全性評価の妥当性は、コントロールされた設定とデプロイメント設定で一貫して動作するモデルに依存します。
先行研究では、言語化された評価意識とその後の行動変化の源として、仮説シナリオのようなテスト時の文脈的手がかりが特定されている。
本稿では,評価を特徴付ける構造特性に関するパラメトリック知識として定義されたメタ知識の評価という,この現象の潜在的な説明について考察する。
評価プラクティスを記述したテキストでトレーニングされたモデルは、例えば、科学論文やAIベンチマークに関するソーシャルメディア投稿への露出を通じて、評価のようなコンテキストを認識し、応答することを暗黙的に学習する可能性がある、という仮説を立てる。
これをテストするために、検証可能な構造やモラルジレンマなどの評価特性を記述した合成文書の微調整モデルを作成した。
6つの安全ベンチマークでこの微調整モデルを評価したところ、ベースモデルや制御モデルよりもはるかに安全であることが判明した。
この行動シフトは、評価意識の明示的な言語化を欠いた応答に対する分析を制限しても継続する。
この結果から,評価メタ知識が安全性ベンチマーク性能を向上させる可能性が示唆された。
これらの知見は、AI安全性評価の設計と解釈に重要な意味を持つ。
私たちのコードとモデルはhttps://github.com/compass-group-tue/arxiv2026_evaluation_meta_knowledge.comで公開されています。
関連論文リスト
- Decomposing and Measuring Evaluation Awareness [31.24565272626909]
本研究では,社会心理学における評価意識を環境成分とモデル成分に分解する。
環境コンポーネントをプレースホルダーエンティティやグレーディングスタイルの出力フォーマットなど,8つの分類されたトリガーファクタを通じて運用する。
bftextEvalAwareBenchは,100対の安全機能タスクの因子制御ベンチマークである。
論文 参考訳(メタデータ) (2026-05-21T21:38:34Z) - Interactive Evaluation Requires a Design Science [90.62695599188204]
大規模言語モデル(LLM)は、ツールや環境、ユーザ、その他のエージェントを通じて、時間とともに機能するシステムとして、ますます多くデプロイされている。
フィールドはインタラクティブなベンチマークを構築し始めたが、その結果のランドスケープは断片化されている。
本論では,対話的評価は原則的評価パラダイムとして扱うべきであると論じる。
論文 参考訳(メタデータ) (2026-05-18T04:03:18Z) - Skill-Aligned Annotation for Reliable Evaluation in Text-to-Image Generation [50.85337196571056]
テキスト・ツー・イメージ(T2I)生成は急速に進歩し、モデル間の性能差が狭まるにつれて信頼性の高い評価が重要になった。
既存の評価慣行は、通常、Likert-scale や binary question answering (BQA) のような一様アノテーション機構を適用している。
我々は,T2I評価を,各評価スキルの根底にある特徴を反映したアノテーション戦略のレンズを通して再検討する。
論文 参考訳(メタデータ) (2026-05-13T09:14:31Z) - Probing and Steering Evaluation Awareness of Language Models [0.0]
言語モデルは、テストとデプロイメントフェーズを区別することができる。
これは大きな安全性と政策上の意味を持つ。
線形プローブは実世界の評価と展開のプロンプトを分離できることを示す。
論文 参考訳(メタデータ) (2025-07-02T15:12:43Z) - Evaluation Faking: Unveiling Observer Effects in Safety Evaluation of Frontier AI Systems [24.81155882432305]
評価対象の高度なAIシステムが、推論や状況認識においてより高度である場合、評価のフェイキング行動がよりユビキタスになることを示す。
そこで我々は,フェーキング意図を検知し,その行動に相関した内部信号を明らかにするチェーンオブシントモニタリング手法を開発した。
論文 参考訳(メタデータ) (2025-05-23T12:31:29Z) - The simulation of judgment in LLMs [32.57692724251287]
大規模言語モデル(LLM)は、情報フィルタリングから説明と信頼性の判断を通じて知識ギャップの評価と対処に至るまで、評価プロセスに組み込まれている。
これにより、このような評価がどのように構築されるのか、どのような仮定に依存しているのか、その戦略が人間のものとどのように異なるのかを調べる必要が生じる。
我々は、専門家の評価に対して、6つのLCM(NewsGuardとMedia Bias/Fact Check)と、制御された実験を通して収集された人間の判断に対してベンチマークを行った。
論文 参考訳(メタデータ) (2025-02-06T18:52:10Z) - Bring Your Own Data! Self-Supervised Evaluation for Large Language
Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。
閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。
自己監督評価と人監督評価との間には強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-06-23T17:59:09Z) - Position: AI Evaluation Should Learn from How We Test Humans [65.36614996495983]
人間の評価のための20世紀起源の理論である心理測定は、今日のAI評価における課題に対する強力な解決策になり得る、と我々は主張する。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。