論文の概要: Probing Evaluation Awareness of Language Models
- arxiv url: http://arxiv.org/abs/2507.01786v1
- Date: Wed, 02 Jul 2025 15:12:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:23:00.340239
- Title: Probing Evaluation Awareness of Language Models
- Title(参考訳): 言語モデルの認識度に関する探索的評価
- Authors: Jord Nguyen, Khiem Hoang, Carlo Leonardo Attubato, Felix Hofstätter,
- Abstract要約: 言語モデルは、テストとデプロイメントフェーズを区別することができる。
これは大きな安全性と政策上の意味を持つ。
線形プローブは実世界の評価と展開のプロンプトを分離できることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Language models can distinguish between testing and deployment phases -- a capability known as evaluation awareness. This has significant safety and policy implications, potentially undermining the reliability of evaluations that are central to AI governance frameworks and voluntary industry commitments. In this paper, we study evaluation awareness in Llama-3.3-70B-Instruct. We show that linear probes can separate real-world evaluation and deployment prompts, suggesting that current models internally represent this distinction. We also find that current safety evaluations are correctly classified by the probes, suggesting that they already appear artificial or inauthentic to models. Our findings underscore the importance of ensuring trustworthy evaluations and understanding deceptive capabilities. More broadly, our work showcases how model internals may be leveraged to support blackbox methods in safety audits, especially for future models more competent at evaluation awareness and deception.
- Abstract(参考訳): 言語モデルは、テストとデプロイメントフェーズを区別することができる。
これは、AIガバナンスフレームワークと自発的な業界のコミットメントの中心となる評価の信頼性を損なう可能性がある。
本稿では,Llama-3.3-70B-Instructにおける評価意識について検討する。
線形プローブは実世界の評価と展開のプロンプトを分離できることを示す。
また、現在の安全性評価はプローブによって正しく分類されており、モデルには既に人工的あるいは不完全に見えることが示唆されている。
以上の結果から,信頼に値する評価の確保と偽装能力の理解の重要性が浮き彫りとなった。
より広範に、我々の研究は、モデル内部が安全監査におけるブラックボックスメソッドをサポートするためにどのように活用されるかを示します。
関連論文リスト
- Aurora: Are Android Malware Classifiers Reliable and Stable under Distribution Shift? [51.12297424766236]
AURORAは、その信頼性と運用上のレジリエンスに基づいて、マルウェア分類器を評価するためのフレームワークである。
AURORAは、ポイント・イン・タイムのパフォーマンスを超えるように設計されたメトリクスのセットによって補完される。
さまざまなドリフトのデータセットにわたるSOTAフレームワークの脆弱性は、ホワイトボードへの復帰の必要性を示唆している。
論文 参考訳(メタデータ) (2025-05-28T20:22:43Z) - Evaluation Faking: Unveiling Observer Effects in Safety Evaluation of Frontier AI Systems [24.81155882432305]
評価対象の高度なAIシステムが、推論や状況認識においてより高度である場合、評価のフェイキング行動がよりユビキタスになることを示す。
そこで我々は,フェーキング意図を検知し,その行動に相関した内部信号を明らかにするチェーンオブシントモニタリング手法を開発した。
論文 参考訳(メタデータ) (2025-05-23T12:31:29Z) - Safety by Measurement: A Systematic Literature Review of AI Safety Evaluation Methods [0.0]
この文献レビューは、急速に進化するAI安全性評価の分野を集約する。
それは、どの特性を計測するか、どのように測定するか、そしてこれらの測定がフレームワークにどのように統合されるかという、3つの次元に関する体系的な分類法を提案する。
論文 参考訳(メタデータ) (2025-05-08T16:55:07Z) - Evaluating Frontier Models for Stealth and Situational Awareness [15.820126805686458]
最近の研究は、スケジューリングするフロンティアAIモデルの可能性を示している。
AI開発者にとっては、モデルデプロイメントの前にスキーマから害を排除することが重要です。
本稿では,2種類の推論能力を測定するためのスケジューリング推論評価スイートを提案する。
論文 参考訳(メタデータ) (2025-05-02T17:57:14Z) - Advancing Embodied Agent Security: From Safety Benchmarks to Input Moderation [52.83870601473094]
エンボディード・エージェントは、複数のドメインにまたがって大きな潜在能力を示す。
既存の研究は主に、一般的な大言語モデルのセキュリティに重点を置いている。
本稿では, エンボディエージェントの保護を目的とした新しい入力モデレーションフレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-22T08:34:35Z) - On the Fairness, Diversity and Reliability of Text-to-Image Generative Models [68.62012304574012]
マルチモーダル生成モデルは 信頼性 公正性 誤用の可能性について 批判的な議論を巻き起こしました
埋め込み空間におけるグローバルおよびローカルな摂動に対する応答を解析し、モデルの信頼性を評価するための評価フレームワークを提案する。
提案手法は, 信頼できない, バイアス注入されたモデルを検出し, 組込みバイアスの証明をトレースするための基礎となる。
論文 参考訳(メタデータ) (2024-11-21T09:46:55Z) - Model evaluation for extreme risks [46.53170857607407]
AI開発のさらなる進歩は、攻撃的なサイバー能力や強力な操作スキルのような極端なリスクを引き起こす能力につながる可能性がある。
モデル評価が極端なリスクに対処するために重要である理由を説明します。
論文 参考訳(メタデータ) (2023-05-24T16:38:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。