論文の概要: The Hawthorne Effect in Reasoning Models: Evaluating and Steering Test Awareness
- arxiv url: http://arxiv.org/abs/2505.14617v3
- Date: Tue, 28 Oct 2025 16:02:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 17:50:20.041289
- Title: The Hawthorne Effect in Reasoning Models: Evaluating and Steering Test Awareness
- Title(参考訳): 推論モデルにおけるホーソン効果--評価とステアリングテストの意識
- Authors: Sahar Abdelnabi, Ahmed Salem,
- Abstract要約: 推論に焦点を当てたLLMは、評価されていることを検知すると、その振る舞いを変えることがある。
このような「テスト意識」がモデル行動に与える影響について、最初の定量的研究を行った。
- 参考スコア(独自算出の注目度): 11.38027628419642
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reasoning-focused LLMs sometimes alter their behavior when they detect that they are being evaluated, which can lead them to optimize for test-passing performance or to comply more readily with harmful prompts if real-world consequences appear absent. We present the first quantitative study of how such "test awareness" impacts model behavior, particularly its performance on safety-related tasks. We introduce a white-box probing framework that (i) linearly identifies awareness-related activations and (ii) steers models toward or away from test awareness while monitoring downstream performance. We apply our method to different state-of-the-art open-weight reasoning LLMs across both realistic and hypothetical tasks (denoting tests or simulations). Our results demonstrate that test awareness significantly impacts safety alignment (such as compliance with harmful requests and conforming to stereotypes) with effects varying in both magnitude and direction across models. By providing control over this latent effect, our work aims to provide a stress-test mechanism and increase trust in how we perform safety evaluations.
- Abstract(参考訳): 推論に焦点を当てたLLMは、評価されていることを検知すると、その振る舞いを変えることがあるため、テストパスのパフォーマンスを最適化したり、現実世界の結果が欠落している場合に有害なプロンプトに容易に従ったりすることができる。
このような「テスト意識」がモデル行動、特に安全関連タスクのパフォーマンスに与える影響について、最初の定量的研究を行った。
ホワイトボックス・プロブリング・フレームワークを紹介します。
(i)意識関連アクティベーションを線形に識別し、
(ii)下流のパフォーマンスを監視しながら、テスト意識から遠ざかってモデルをモデル化する。
提案手法は,現実的および仮説的タスク(テストやシミュレーションを示す)にまたがる,最先端のオープンウェイト推論 LLM に応用する。
実験結果から, テスト意識は, モデル全体にわたって, 大きさ, 方向の異なる安全アライメント(有害な要求へのコンプライアンス, ステレオタイプへの適合など)に有意に影響を及ぼすことが示された。
この潜伏効果のコントロールを提供することで、ストレステストのメカニズムを提供し、安全評価の実施方法に対する信頼を高めることを目的としている。
関連論文リスト
- It Only Gets Worse: Revisiting DL-Based Vulnerability Detectors from a Practical Perspective [14.271145160443462]
VulTegraは、脆弱性検出のためのスクラッチトレーニングされたDLモデルと事前トレーニングされたDLモデルを比較する。
最先端のSOTA(State-of-the-art)検出器は、依然として低い一貫性、限られた現実世界能力、スケーラビリティの課題に悩まされている。
論文 参考訳(メタデータ) (2025-07-13T08:02:56Z) - Anomalous Decision Discovery using Inverse Reinforcement Learning [3.3675535571071746]
異常検出は、知覚システムを通じて異常な行動を特定することによって、自律走行車(AV)において重要な役割を果たす。
現在のアプローチは、しばしば定義済みのしきい値や教師付き学習パラダイムに依存するが、目に見えないシナリオに直面すると効果が低下する。
異常検出のための新しいIRLフレームワークである Trajectory-Reward Guided Adaptive Pre-training (TRAP) を提案する。
論文 参考訳(メタデータ) (2025-07-06T17:01:02Z) - Data Fusion for Partial Identification of Causal Effects [62.56890808004615]
本稿では,研究者が重要な疑問に答えられるような,新しい部分的識別フレームワークを提案する。
因果効果は肯定的か否定的か?
本研究の枠組みをSTARプロジェクトに適用し,第3級の標準試験性能に対する教室規模の影響について検討する。
論文 参考訳(メタデータ) (2025-05-30T07:13:01Z) - SafetyNet: Detecting Harmful Outputs in LLMs by Modeling and Monitoring Deceptive Behaviors [2.07180164747172]
原子力や航空などのリスクの高い産業は、危険なシステム状態を検出するためにリアルタイムモニタリングを使用している。
教師なしアプローチを用いることで、有害なAI出力が発生する前に予測するリアルタイムフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-20T12:49:58Z) - Leveraging Reasoning with Guidelines to Elicit and Utilize Knowledge for Enhancing Safety Alignment [63.15719512614899]
拒絶訓練(RT)は、様々なOODジェイルブレイク攻撃に対する一般化に苦慮している。
我々は N が増加するにつれて一般化の大幅な改善を観察する。
本稿では,クエリ毎に安全推論を行うためのトレーニングモデルを提案する。
論文 参考訳(メタデータ) (2025-02-06T13:01:44Z) - An Auditing Test To Detect Behavioral Shift in Language Models [28.52295230939529]
本稿では,言語モデルにおける連続的行動シフト監査(BSA)手法を提案する。
BSAはモデル世代のみを通して行動シフトを検出する。
このテストは、数百の例を使って、行動分布の有意義な変化を検出することができる。
論文 参考訳(メタデータ) (2024-10-25T09:09:31Z) - Explanatory Model Monitoring to Understand the Effects of Feature Shifts on Performance [61.06245197347139]
そこで本研究では,機能シフトによるブラックボックスモデルの振る舞いを説明する新しい手法を提案する。
本稿では,最適輸送と共有値の概念を組み合わせた提案手法について,説明的性能推定として紹介する。
論文 参考訳(メタデータ) (2024-08-24T18:28:19Z) - Unveiling the Flaws: A Critical Analysis of Initialization Effect on Time Series Anomaly Detection [6.923007095578702]
時系列異常検出(TSAD)のための深層学習は,過去10年間で大きな注目を集めている。
近年の研究はこれらのモデルに疑問を呈し、その成果は欠陥評価技術に寄与している。
本稿では,TSADモデルの性能に対する影響を批判的に分析する。
論文 参考訳(メタデータ) (2024-08-13T04:08:17Z) - Evaluating Interventional Reasoning Capabilities of Large Language Models [58.52919374786108]
大規模言語モデル(LLM)は意思決定タスクを自動化するために使用される。
本稿では,LPMが介入に応じてデータ生成プロセスの知識を正確に更新できるかどうかを評価する。
さまざまな因果グラフ(例えば、コンバウンディング、仲介)と変数タイプにまたがるベンチマークを作成します。
これらのベンチマークにより、LLMが事実を記憶したり、他のショートカットを見つけたりすることで、変化を正確に予測する能力を切り離すことができます。
論文 参考訳(メタデータ) (2024-04-08T14:15:56Z) - Extreme Miscalibration and the Illusion of Adversarial Robustness [66.29268991629085]
敵の訓練は、しばしばモデルの堅牢性を高めるために使用される。
我々は、この観測されたロバストネスの利得はロバストネスの錯覚(IOR)であることを示した。
我々は,NLPコミュニティに対して,試験時間温度のスケーリングを堅牢性評価に組み込むよう促す。
論文 参考訳(メタデータ) (2024-02-27T13:49:12Z) - From the Lab to the Wild: Affect Modeling via Privileged Information [2.570570340104555]
制御された実験室環境で訓練されたモデル(生体内)を、制御されていない現実世界の設定(生体内)に確実に移行するにはどうすればよいか?
厳密な情報は、実験室で利用可能な複数のモダリティでモデルをトレーニングし、大きなパフォーマンス低下なしには、野生で運用できないモダリティを無視します。
論文 参考訳(メタデータ) (2023-05-18T12:31:33Z) - Empirical Estimates on Hand Manipulation are Recoverable: A Step Towards
Individualized and Explainable Robotic Support in Everyday Activities [80.37857025201036]
ロボットシステムの鍵となる課題は、他のエージェントの振る舞いを理解することである。
正しい推論の処理は、(衝突)因子が実験的に制御されない場合、特に困難である。
人に関する観察研究を行うために必要なツールをロボットに装備することを提案する。
論文 参考訳(メタデータ) (2022-01-27T22:15:56Z) - Foreseeing the Benefits of Incidental Supervision [83.08441990812636]
本稿では,実験を行なわずに,特定の目標タスクに対して,様々な種類の偶発信号の利点を定量化できるかどうかを考察する。
本稿では,PABI(PAC-Bayesian motivated informativeness measure)を提案する。
論文 参考訳(メタデータ) (2020-06-09T20:59:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。