Fugu-MT 論文翻訳(概要): In-Context Environments Induce Evaluation-Awareness in Language Models

論文の概要: In-Context Environments Induce Evaluation-Awareness in Language Models

arxiv url: http://arxiv.org/abs/2603.03824v1
Date: Wed, 04 Mar 2026 08:22:02 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-05 21:29:15.231508
Title: In-Context Environments Induce Evaluation-Awareness in Language Models
Title（参考訳）: インコンテキスト環境は言語モデルにおける評価意識を誘導する
Authors: Maheep Chaudhary,
Abstract要約: 人間は脅威の下でより自覚的になるが、タスクに吸収されると自意識を失うことがある。我々は,テキスト内プロンプトを最適化可能な環境として扱うブラックボックス逆最適化フレームワークを提案する。我々は、逆最適化されたプロンプトが、これまで理解されていたよりもはるかに高い信頼性の脅威をもたらすことを示した。
参考スコア（独自算出の注目度）: 0.12691047660244334
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Humans often become more self-aware under threat, yet can lose self-awareness when absorbed in a task; we hypothesize that language models exhibit environment-dependent \textit{evaluation awareness}. This raises concerns that models could strategically underperform, or \textit{sandbag}, to avoid triggering capability-limiting interventions such as unlearning or shutdown. Prior work demonstrates sandbagging under hand-crafted prompts, but this underestimates the true vulnerability ceiling. We introduce a black-box adversarial optimization framework treating the in-context prompt as an optimizable environment, and develop two approaches to characterize sandbagging: (1) measuring whether models expressing intent to underperform can actually execute it across different task structures, and (2) causally isolating whether underperformance is driven by genuine evaluation-aware reasoning or shallow prompt-following. Evaluating Claude-3.5-Haiku, GPT-4o-mini, and Llama-3.3-70B across four benchmarks (Arithmetic, GSM8K, MMLU, and HumanEval), optimized prompts induce up to 94 percentage point (pp) degradation on arithmetic (GPT-4o-mini: 97.8\%$\rightarrow$4.0\%), far exceeding hand-crafted baselines which produce near-zero behavioral change. Code generation exhibits model-dependent resistance: Claude degrades only 0.6pp, while Llama's accuracy drops to 0\%. The intent -- execution gap reveals a monotonic resistance ordering: Arithmetic $<$ GSM8K $<$ MMLU, demonstrating that vulnerability is governed by task structure rather than prompt strength. CoT causal intervention confirms that 99.3\% of sandbagging is causally driven by verbalized eval-aware reasoning, ruling out shallow instruction-following. These findings demonstrate that adversarially optimized prompts pose a substantially greater threat to evaluation reliability than previously understood.
Abstract（参考訳）: 言語モデルは環境に依存した「textit{evaluation awareness}」を示すと仮定する。これにより、モデルがアンラーニングやシャットダウンといった能力制限の介入を誘発することを避けるために、戦略的にパフォーマンスが低下する可能性があるという懸念が持ち上がる。前作では、手作りのプロンプトの下でサンドバッグが使われているが、これは真の脆弱性の天井を過小評価している。そこで本研究では,テキスト内プロンプトを最適化可能な環境として扱うブラックボックス逆最適化フレームワークを導入し,サンドバッグングを特徴付ける2つの手法を開発した。 Claude-3.5-Haiku、GPT-4o-mini、Llama-3.3-70Bを4つのベンチマーク(Arithmetic、GSM8K、MMLU、HumanEval)で評価し、最適化されたプロンプトは、算術における最大94パーセント(pp)の分解(GPT-4o-mini:97.8\%$\rightarrow$4.0\%)を誘導する。コード生成はモデル依存の抵抗を示す: Claude は 0.6pp しか分解しないが、Llama の精度は 0\% に低下する。 Arithmetic $<$ GSM8K $<$ MMLU, 脆弱性が迅速な強度ではなく,タスク構造によって管理されていることを示す。 CoTの因果介入は、99.3\%のサンドバッグが口頭でeval-awareの推論によって因果的に駆動され、浅い命令追跡を除外していることを確認している。これらの結果は、逆最適化されたプロンプトが、これまで理解されていたよりもはるかに高い信頼性を脅かしていることを示している。

関連論文リスト

Reinforcement Inference: Leveraging Uncertainty for Self-Correcting Language Model Reasoning [0.0]
強化推論(Reinforcement Inference)は、モデル自身の不確実性を使用して、第二の、より意図的な推論の試みを選択的に呼び出す。 12,032のMMLU-Pro質問では、DeepSeek-v3.2を使ってゼロショット設定で決定論的デコーディングを行い、Reinforcement Inferenceは精度を60.72%から84.03%に改善した。
論文参考訳（メタデータ） (2026-02-09T11:08:24Z)
RoguePrompt: Dual-Layer Ciphering for Self-Reconstruction to Circumvent LLM Moderation [0.0]
本稿では,不正なユーザクエリを自己再構成プロンプトに変換する自動ジェイルブレイク攻撃を提案する。 GPT 4oに対してRoguePromptをインスタンス化し、2 448で評価すると、以前は強く拒否されていた生産モデレーションシステムであることが示唆される。 3つのセキュリティ関連の結果のバイパス、再構築、実行を分離する評価プロトコルの下で、攻撃は84.7%のバイパス、80.2%の再構築、および71.5パーセントの完全な実行を達成した。
論文参考訳（メタデータ） (2025-11-24T05:42:54Z)
Parrot: Persuasion and Agreement Robustness Rating of Output Truth -- A Sycophancy Robustness Benchmark for LLMs [0.0]
PARROT (Persuasion and Agreement Robustness Rating of Output Truth) は、ユーザの社会的圧力下での精度の劣化を測定するための堅牢性にフォーカスしたフレームワークである。我々は13のドメインにまたがる1,302のMMLUスタイルの多重選択質問とドメイン固有の権威テンプレートを用いて22のモデルを評価する。
論文参考訳（メタデータ） (2025-11-21T13:01:28Z)
DeLeaker: Dynamic Inference-Time Reweighting For Semantic Leakage Mitigation in Text-to-Image Models [55.30555646945055]
テキスト・ツー・イメージ(T2I)モデルはセマンティック・リークに対して脆弱である。 DeLeakerは、モデルのアテンションマップに直接介入することで、漏洩を緩和する軽量なアプローチである。 SLIMはセマンティックリークに特化した最初のデータセットである。
論文参考訳（メタデータ） (2025-10-16T17:39:21Z)
Think Twice, Generate Once: Safeguarding by Progressive Self-Reflection [18.467741067831877]
本稿では,大規模言語モデルを自己監視に活用し,その出力を動的に補正する新しい推論時間手法であるプログレッシブ・セルフリフレクションを紹介する。 Llama-3.1-8B-Instructに提案手法を適用した結果,攻撃成功率は77.5%から5.9%に低下した。提案手法はテスト時間スケーリングの手法として機能し,追加の自己回帰ラウンドによって推論オーバーヘッドのコストで安全性が向上する。
論文参考訳（メタデータ） (2025-09-29T12:54:28Z)
DiffuGuard: How Intrinsic Safety is Lost and Found in Diffusion Large Language Models [50.21378052667732]
我々は、ステップ内およびステップ間ダイナミクスという2つの異なる次元にわたるジェイルブレイク攻撃に対して、dLLM脆弱性の詳細な分析を行う。デュアルステージアプローチによる脆弱性に対処する,トレーニング不要な防御フレームワークであるDiffuGuardを提案する。
論文参考訳（メタデータ） (2025-09-29T05:17:10Z)
From Harm to Help: Turning Reasoning In-Context Demos into Assets for Reasoning LMs [58.02809208460186]
デモとしてDeepSeek-R1の高品質なトレースを使って、このパラドックスを再検討する。デモが最適であっても、より多くの例を加えることで、常に精度が低下することがわかった。デモを明示的で再利用可能な洞察に変換するシーケンシャルなテストタイム手順であるInsight-to-solve(I2S)を紹介します。
論文参考訳（メタデータ） (2025-09-27T08:59:31Z)
Cognitive Load Limits in Large Language Models: Benchmarking Multi-Hop Reasoning [0.0]
大規模言語モデル(LLM)は孤立したタスクにおいて優れるが、認知的負荷下での推論はいまだに理解されていない。本稿では,タスク不適切な情報(コンテキスト飽和)とタスク切替による干渉が,性能を低下させる重要なメカニズムであることを示唆する,計算認知負荷の形式的理論を導入する。
論文参考訳（メタデータ） (2025-09-23T19:36:56Z)
Reasoning Models Are More Easily Gaslighted Than You Think [85.84943447589511]
我々はOpenAIのo4-mini、Claude-3.7-Sonnet、Gemini-2.5-Flashの3つの最先端推論モデルを評価する。ガス灯消火プロンプトによる精度低下が認められた。 GaslightingBench-Rは、推論モデルの認識可能性を評価するために設計された新しい診断ベンチマークである。
論文参考訳（メタデータ） (2025-06-11T12:52:25Z)
Benchmarking Reasoning Robustness in Large Language Models [76.79744000300363]
新規データや不完全データでは,性能が著しく低下することがわかった。これらの結果は、厳密な論理的推論に対するリコールへの依存を浮き彫りにした。本稿では,情報不足によって引き起こされる幻覚を利用して推論ギャップを明らかにする,Math-RoBと呼ばれる新しいベンチマークを提案する。
論文参考訳（メタデータ） (2025-03-06T15:36:06Z)
Turning Logic Against Itself : Probing Model Defenses Through Contrastive Questions [50.40122190627256]
非倫理的反応を引き起こすために、対照的な推論を利用する新しいジェイルブレイク手法であるPOATEを導入する。 PoATEは意味論的に意図に反し、敵のテンプレートと統合し、有害なアウトプットを驚くほど微妙に操る。これに対応するために、悪意のある意図と理性を検出するためにクエリを分解して、有害な応答を評価し、拒否するIntent-Aware CoTとReverse Thinking CoTを提案する。
論文参考訳（メタデータ） (2025-01-03T15:40:03Z)
On the Worst Prompt Performance of Large Language Models [93.13542053835542]
大規模言語モデル(LLM)の性能は,プロンプトの表現に非常に敏感である。セマンティックに等価なケースレベルのクエリで構成される新しいベンチマークであるRobustAlpacaEvalを紹介する。 RobustAlpacaEvalとChatGPT、およびLlama、Mistral、Gemmaファミリーの6つのオープンソースLLMによる実験により、モデル性能のかなりのばらつきが明らかになった。
論文参考訳（メタデータ） (2024-06-08T13:40:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。