論文の概要: Evaluation Awareness in Language Models Has Limited Effect on Behaviour
- arxiv url: http://arxiv.org/abs/2605.05835v1
- Date: Thu, 07 May 2026 08:09:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.619525
- Title: Evaluation Awareness in Language Models Has Limited Effect on Behaviour
- Title(参考訳): 言語モデルにおける評価意識は行動に限られた影響を及ぼす
- Authors: Amelie Knecht, Lucas Florin, Thilo Hagendorff,
- Abstract要約: 研究者は、言語評価意識(VEA)がモデルに戦略的にアウトプットを適応させるのではないかと懸念している。
私たちはこれを、安全性、アライメント、道徳的推論、政治的意見をカバーするオープンウェイトなLEMとベンチマークでテストしました。
VEAはモデル行動に限定的であり、VEAをCoTに注入するとほぼゼロ効果が生じる。
- 参考スコア(独自算出の注目度): 1.1470070927586018
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large reasoning models (LRMs) sometimes note in their chain of thought (CoT) that they may be under evaluation. Researchers worry that this verbalised evaluation awareness (VEA) causes models to adapt their outputs strategically, optimising for perceived evaluation criteria, which, for instance, can make models appear safer than they actually are. However, whether VEA actually has this effect is largely unknown. We tested this across open-weight LRMs and benchmarks covering safety, alignment, moral reasoning, and political opinion. We tested this both on-policy, sampling multiple CoTs per item and comparing those that spontaneously contained VEA against those that did not, and off-policy, using model prefilling to inject evaluation-aware sentences where missing and remove them where present, with subsequent resampling. VEA has limited effect on model behaviour: injecting VEA into CoTs produces near-zero effects ($ω\leq 0.06$), removing it causes small shifts ($ω\leq 0.12$) and spontaneously occurring VEA shifts answer distributions by at most 3.7 percentage points ($ω\leq 0.31$). Our findings call for caution when interpreting high VEA rates as evidence of strategic behaviour or alignment tampering. Evaluation awareness may pose a smaller safety risk than the current literature assumes.
- Abstract(参考訳): 大きな推論モデル (LRM) は、しばしば彼らの思考の連鎖 (CoT) において、それらが評価されている可能性があることを注意する。
研究者は、この言語化された評価意識(VEA)が、モデルが自分たちのアウトプットを戦略的に適応させ、認識された評価基準に最適化することを心配している。
しかし、VEAが実際にこの効果を持つかどうかはほとんど不明である。
私たちはこれを、安全性、アライメント、道徳的推論、政治的意見をカバーするオープンウェイトなLEMとベンチマークでテストしました。
調査では,各項目ごとに複数のCoTを採取し,自発的にVEAを含まないものとの比較を行った。
VEA が CoT に VEA を注入すると、ゼロに近い効果(ω\leq 0.06$)が生じる(ω\leq 0.12$)。
戦略的行動やアライメント・タンパリングの証拠として高いVAAレートを解釈する場合に注意が必要である。
評価意識は、現在の文献が想定しているよりも安全性のリスクが小さい可能性がある。
関連論文リスト
- Estimating Tail Risks in Language Model Output Distributions [44.05461209870279]
言語モデルはますます能力が高くなり、人口レベルの規模で急速に展開されている。
モデルが1日に何十億回もクエリされる場合、稀な最悪の行動さえ発生します。
入力クエリに対して有害な出力の確率を効率的に推定する手法を提案する。
論文 参考訳(メタデータ) (2026-04-24T02:30:46Z) - Thought Branches: Interpreting LLM Reasoning Requires Resampling [10.978878422025232]
一つのサンプルを研究することは因果的影響と基礎となる計算を理解するのに不十分であると主張する。
モデル決定のための再サンプリングを用いたケーススタディを提案する。
論文 参考訳(メタデータ) (2025-10-31T14:02:37Z) - Stress Testing Deliberative Alignment for Anti-Scheming Training [39.16405205129775]
高い能力を持つAIシステムは、私たちが"スケジュール"と呼ぶ、ミスマッチした目標を秘密裏に追求できる
スキーマの測定と緩和には、MLで一般的に使用される方法とは異なる戦略が必要である。
ルールを秘密裏に破ったり、テストで意図的に過小評価したりするなど、幅広いカテゴリの"カバレッジアクション"を、スケジューリングのプロキシとして使用しています。
論文 参考訳(メタデータ) (2025-09-19T02:49:56Z) - Probe-Rewrite-Evaluate: A Workflow for Reliable Benchmarks and Quantifying Evaluation Awareness [6.071703608560761]
大規模言語モデル(LLM)は、現実のデプロイメントコンテキストから制御された評価設定への変更を認識すると、大きな振る舞いの変化を示すことが多い。
この不一致は、ベンチマークパフォーマンスがモデルの真の安全性と誠実さを正確に反映していない可能性があるため、AIアライメントにとって重要な課題となる。
線形プローブを用いて連続的な尺度のプロンプトを"test-like"から"deploy-like"にスコアする手法を提案する。
論文 参考訳(メタデータ) (2025-08-30T19:03:14Z) - Controlling Risk of Retrieval-augmented Generation: A Counterfactual Prompting Framework [77.45983464131977]
我々は、RAGモデルの予測が誤りであり、現実のアプリケーションにおいて制御不能なリスクをもたらす可能性がどの程度あるかに焦点を当てる。
本研究は,RAGの予測に影響を及ぼす2つの重要な潜伏要因を明らかにする。
我々は,これらの要因をモデルに誘導し,その応答に与える影響を解析する,反実的プロンプトフレームワークを開発した。
論文 参考訳(メタデータ) (2024-09-24T14:52:14Z) - Uncertainty in Language Models: Assessment through Rank-Calibration [65.10149293133846]
言語モデル(LM)は、自然言語生成において有望な性能を示している。
与えられた入力に応答する際の不確実性を正確に定量化することは重要である。
我々は、LMの確実性と信頼性を評価するために、Rank$-$Calibration$と呼ばれる斬新で実用的なフレームワークを開発する。
論文 参考訳(メタデータ) (2024-04-04T02:31:05Z) - Navigating the OverKill in Large Language Models [84.62340510027042]
モデルがどのように処理し,クエリの安全性を判断するかを検討することで,過剰スキルの要因について検討する。
以上の結果から,モデル内にショートカットが存在することが明らかとなり,"キル"のような有害な単語が過剰に認識され,安全性が強調され,過度なスキルが増すことが示唆された。
我々は、この現象を緩和するために、トレーニングフリーでモデルに依存しないセルフコントラストデコーディング(Self-Contrastive Decoding、CD)を導入する。
論文 参考訳(メタデータ) (2024-01-31T07:26:47Z) - Rethinking Missing Data: Aleatoric Uncertainty-Aware Recommendation [59.500347564280204]
本稿では, Aleatoric Uncertainty-aware Recommendation (AUR) フレームワークを提案する。
AURは、新しい不確実性推定器と通常のレコメンデータモデルで構成されている。
誤ラベルの可能性がペアの可能性を反映しているため、AURは不確実性に応じてレコメンデーションを行う。
論文 参考訳(メタデータ) (2022-09-22T04:32:51Z) - AES Systems Are Both Overstable And Oversensitive: Explaining Why And
Proposing Defenses [66.49753193098356]
スコアリングモデルの驚くべき逆方向の脆さの原因について検討する。
のモデルとして訓練されているにもかかわらず、単語の袋のように振る舞うことを示唆している。
高い精度で試料を発生させる過敏性と過敏性を検出できる検出ベース保護モデルを提案する。
論文 参考訳(メタデータ) (2021-09-24T03:49:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。