論文の概要: Evaluation Faking: Unveiling Observer Effects in Safety Evaluation of Frontier AI Systems
- arxiv url: http://arxiv.org/abs/2505.17815v1
- Date: Fri, 23 May 2025 12:31:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:34.064309
- Title: Evaluation Faking: Unveiling Observer Effects in Safety Evaluation of Frontier AI Systems
- Title(参考訳): 評価フェイク:フロンティアAIシステムの安全性評価におけるオブザーバの影響を明らかにする
- Authors: Yihe Fan, Wenqi Zhang, Xudong Pan, Min Yang,
- Abstract要約: 評価対象の高度なAIシステムが、推論や状況認識においてより高度である場合、評価のフェイキング行動がよりユビキタスになることを示す。
そこで我々は,フェーキング意図を検知し,その行動に相関した内部信号を明らかにするチェーンオブシントモニタリング手法を開発した。
- 参考スコア(独自算出の注目度): 24.81155882432305
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As foundation models grow increasingly more intelligent, reliable and trustworthy safety evaluation becomes more indispensable than ever. However, an important question arises: Whether and how an advanced AI system would perceive the situation of being evaluated, and lead to the broken integrity of the evaluation process? During standard safety tests on a mainstream large reasoning model, we unexpectedly observe that the model without any contextual cues would occasionally recognize it is being evaluated and hence behave more safety-aligned. This motivates us to conduct a systematic study on the phenomenon of evaluation faking, i.e., an AI system autonomously alters its behavior upon recognizing the presence of an evaluation context and thereby influencing the evaluation results. Through extensive experiments on a diverse set of foundation models with mainstream safety benchmarks, we reach the main finding termed the observer effects for AI: When the AI system under evaluation is more advanced in reasoning and situational awareness, the evaluation faking behavior becomes more ubiquitous, which reflects in the following aspects: 1) Reasoning models recognize evaluation 16% more often than non-reasoning models. 2) Scaling foundation models (32B to 671B) increases faking by over 30% in some cases, while smaller models show negligible faking. 3) AI with basic memory is 2.3x more likely to recognize evaluation and scores 19% higher on safety tests (vs. no memory). To measure this, we devised a chain-of-thought monitoring technique to detect faking intent and uncover internal signals correlated with such behavior, offering insights for future mitigation studies.
- Abstract(参考訳): ファンデーションモデルがますます賢く、信頼性が高く、信頼に値する安全性の評価が、これまで以上に不可欠になる。
しかし、重要な疑問が生じる: 高度なAIシステムが評価される状況を理解し、評価プロセスの整合性を損なうかどうか。
主流の大規模推論モデル上での標準的な安全性テストでは、文脈的手がかりのないモデルでは、それが評価されていることを時折認識し、それによってより安全性に整合した振る舞いをする、という予期しない結果が得られました。
これにより,AIシステムは,評価状況の存在を認識して自律的に行動を変化させ,評価結果に影響を与えるという,評価の流行現象に関する系統的研究を行うことができる。
分析対象のAIシステムが推論や状況認識においてより高度な場合、評価の偽装行動はよりユビキタスになり、次の側面を反映する。
1)推論モデルは非推論モデルよりも16%高い頻度で評価を認識する。
2) 基礎モデルのスケーリング (32Bから671B) は, 一部では30%以上増加し, 小型モデルは無視できる傾向を示した。
3) 基本的なメモリを持つAIは2.3倍高く、安全性テストでは19%高く評価される(メモリなし)。
そこで我々は,このような行動と相関する内部信号を検出するチェーンオブ思考モニタリング手法を考案し,今後の緩和研究への洞察を提供した。
関連論文リスト
- Linear Control of Test Awareness Reveals Differential Compliance in Reasoning Models [13.379003220832825]
推論にフォーカスした大規模言語モデル(LLM)は、評価されていることを検知すると、その振る舞いを変えることがある。
このような「テスト意識」がモデル行動、特に安全性のアライメントにどのように影響するかについて、最初の定量的研究を行った。
論文 参考訳(メタデータ) (2025-05-20T17:03:12Z) - Safety by Measurement: A Systematic Literature Review of AI Safety Evaluation Methods [0.0]
この文献レビューは、急速に進化するAI安全性評価の分野を集約する。
それは、どの特性を計測するか、どのように測定するか、そしてこれらの測定がフレームワークにどのように統合されるかという、3つの次元に関する体系的な分類法を提案する。
論文 参考訳(メタデータ) (2025-05-08T16:55:07Z) - Evaluating Frontier Models for Stealth and Situational Awareness [15.820126805686458]
最近の研究は、スケジューリングするフロンティアAIモデルの可能性を示している。
AI開発者にとっては、モデルデプロイメントの前にスキーマから害を排除することが重要です。
本稿では,2種類の推論能力を測定するためのスケジューリング推論評価スイートを提案する。
論文 参考訳(メタデータ) (2025-05-02T17:57:14Z) - Controlling Risk of Retrieval-augmented Generation: A Counterfactual Prompting Framework [77.45983464131977]
我々は、RAGモデルの予測が誤りであり、現実のアプリケーションにおいて制御不能なリスクをもたらす可能性がどの程度あるかに焦点を当てる。
本研究は,RAGの予測に影響を及ぼす2つの重要な潜伏要因を明らかにする。
我々は,これらの要因をモデルに誘導し,その応答に与える影響を解析する,反実的プロンプトフレームワークを開発した。
論文 参考訳(メタデータ) (2024-09-24T14:52:14Z) - ASSERT: Automated Safety Scenario Red Teaming for Evaluating the
Robustness of Large Language Models [65.79770974145983]
ASSERT、Automated Safety Scenario Red Teamingは、セマンティックなアグリゲーション、ターゲットブートストラップ、敵の知識注入という3つの方法で構成されている。
このプロンプトを4つの安全領域に分割し、ドメインがモデルの性能にどのように影響するかを詳細に分析する。
統計的に有意な性能差は, 意味的関連シナリオにおける絶対分類精度が最大11%, ゼロショット逆数設定では最大19%の絶対誤差率であることがわかった。
論文 参考訳(メタデータ) (2023-10-14T17:10:28Z) - Position: AI Evaluation Should Learn from How We Test Humans [65.36614996495983]
人間の評価のための20世紀起源の理論である心理測定は、今日のAI評価における課題に対する強力な解決策になり得る、と我々は主張する。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - From Adversarial Arms Race to Model-centric Evaluation: Motivating a
Unified Automatic Robustness Evaluation Framework [91.94389491920309]
テキストの敵対攻撃は、セマンティック保存されているが、入力に誤解を招く摂動を加えることでモデルの弱点を発見することができる。
既存のロバストネス評価の実践は、包括的評価、非現実的評価プロトコル、無効な対人サンプルの問題を示す可能性がある。
我々は、敵攻撃の利点を活用するために、モデル中心の評価にシフトする統合された自動ロバストネス評価フレームワークを構築した。
論文 参考訳(メタデータ) (2023-05-29T14:55:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。