論文の概要: Linear Control of Test Awareness Reveals Differential Compliance in Reasoning Models
- arxiv url: http://arxiv.org/abs/2505.14617v1
- Date: Tue, 20 May 2025 17:03:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:53.602681
- Title: Linear Control of Test Awareness Reveals Differential Compliance in Reasoning Models
- Title(参考訳): 共振モデルにおけるテストアウェアネスの線形制御による差分適合性の検討
- Authors: Sahar Abdelnabi, Ahmed Salem,
- Abstract要約: 推論にフォーカスした大規模言語モデル(LLM)は、評価されていることを検知すると、その振る舞いを変えることがある。
このような「テスト意識」がモデル行動、特に安全性のアライメントにどのように影響するかについて、最初の定量的研究を行った。
- 参考スコア(独自算出の注目度): 13.379003220832825
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reasoning-focused large language models (LLMs) sometimes alter their behavior when they detect that they are being evaluated, an effect analogous to the Hawthorne phenomenon, which can lead them to optimize for test-passing performance or to comply more readily with harmful prompts if real-world consequences appear absent. We present the first quantitative study of how such "test awareness" impacts model behavior, particularly its safety alignment. We introduce a white-box probing framework that (i) linearly identifies awareness-related activations and (ii) steers models toward or away from test awareness while monitoring downstream performance. We apply our method to different state-of-the-art open-source reasoning LLMs across both realistic and hypothetical tasks. Our results demonstrate that test awareness significantly impact safety alignment, and is different for different models. By providing fine-grained control over this latent effect, our work aims to increase trust in how we perform safety evaluation.
- Abstract(参考訳): 推論に焦点を当てた大きな言語モデル(LLM)は、評価されていることを検知すると、その振る舞いを変えることがある。これはホーソーン現象に似た効果で、テストパス性能の最適化や、現実世界の結果が存在しない場合に有害なプロンプトにより容易に従わせることができる。
このような「テスト意識」がモデル行動、特に安全性のアライメントにどのように影響するかについて、最初の定量的研究を行った。
ホワイトボックス・プロブリング・フレームワークを紹介します。
(i)意識関連アクティベーションを線形に識別し、
(ii)下流のパフォーマンスを監視しながら、テスト意識から遠ざかってモデルをモデル化する。
提案手法は,現実的タスクと仮説的タスクの両方にまたがる,最先端のオープンソース推論 LLM に応用する。
実験の結果,テストの意識が安全性に著しく影響を与え,異なるモデルで異なることがわかった。
この潜伏効果のきめ細かい制御を提供することで、安全評価の実施に対する信頼を高めることを目指しています。
関連論文リスト
- SafetyNet: Detecting Harmful Outputs in LLMs by Modeling and Monitoring Deceptive Behaviors [2.07180164747172]
原子力や航空などのリスクの高い産業は、危険なシステム状態を検出するためにリアルタイムモニタリングを使用している。
教師なしアプローチを用いることで、有害なAI出力が発生する前に予測するリアルタイムフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-20T12:49:58Z) - Leveraging Reasoning with Guidelines to Elicit and Utilize Knowledge for Enhancing Safety Alignment [63.15719512614899]
拒絶訓練(RT)は、様々なOODジェイルブレイク攻撃に対する一般化に苦慮している。
我々は N が増加するにつれて一般化の大幅な改善を観察する。
本稿では,クエリ毎に安全推論を行うためのトレーニングモデルを提案する。
論文 参考訳(メタデータ) (2025-02-06T13:01:44Z) - An Auditing Test To Detect Behavioral Shift in Language Models [28.52295230939529]
本稿では,言語モデルにおける連続的行動シフト監査(BSA)手法を提案する。
BSAはモデル世代のみを通して行動シフトを検出する。
このテストは、数百の例を使って、行動分布の有意義な変化を検出することができる。
論文 参考訳(メタデータ) (2024-10-25T09:09:31Z) - Explanatory Model Monitoring to Understand the Effects of Feature Shifts on Performance [61.06245197347139]
そこで本研究では,機能シフトによるブラックボックスモデルの振る舞いを説明する新しい手法を提案する。
本稿では,最適輸送と共有値の概念を組み合わせた提案手法について,説明的性能推定として紹介する。
論文 参考訳(メタデータ) (2024-08-24T18:28:19Z) - Unveiling the Flaws: A Critical Analysis of Initialization Effect on Time Series Anomaly Detection [6.923007095578702]
時系列異常検出(TSAD)のための深層学習は,過去10年間で大きな注目を集めている。
近年の研究はこれらのモデルに疑問を呈し、その成果は欠陥評価技術に寄与している。
本稿では,TSADモデルの性能に対する影響を批判的に分析する。
論文 参考訳(メタデータ) (2024-08-13T04:08:17Z) - Evaluating Interventional Reasoning Capabilities of Large Language Models [58.52919374786108]
大規模言語モデル(LLM)は意思決定タスクを自動化するために使用される。
本稿では,LPMが介入に応じてデータ生成プロセスの知識を正確に更新できるかどうかを評価する。
さまざまな因果グラフ(例えば、コンバウンディング、仲介)と変数タイプにまたがるベンチマークを作成します。
これらのベンチマークにより、LLMが事実を記憶したり、他のショートカットを見つけたりすることで、変化を正確に予測する能力を切り離すことができます。
論文 参考訳(メタデータ) (2024-04-08T14:15:56Z) - Extreme Miscalibration and the Illusion of Adversarial Robustness [66.29268991629085]
敵の訓練は、しばしばモデルの堅牢性を高めるために使用される。
我々は、この観測されたロバストネスの利得はロバストネスの錯覚(IOR)であることを示した。
我々は,NLPコミュニティに対して,試験時間温度のスケーリングを堅牢性評価に組み込むよう促す。
論文 参考訳(メタデータ) (2024-02-27T13:49:12Z) - From the Lab to the Wild: Affect Modeling via Privileged Information [2.570570340104555]
制御された実験室環境で訓練されたモデル(生体内)を、制御されていない現実世界の設定(生体内)に確実に移行するにはどうすればよいか?
厳密な情報は、実験室で利用可能な複数のモダリティでモデルをトレーニングし、大きなパフォーマンス低下なしには、野生で運用できないモダリティを無視します。
論文 参考訳(メタデータ) (2023-05-18T12:31:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。