論文の概要: Steering Evaluation-Aware Language Models to Act Like They Are Deployed
- arxiv url: http://arxiv.org/abs/2510.20487v2
- Date: Mon, 27 Oct 2025 14:43:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:14.497286
- Title: Steering Evaluation-Aware Language Models to Act Like They Are Deployed
- Title(参考訳): 評価を意識した言語モデルの構築
- Authors: Tim Tian Hua, Andrew Qin, Samuel Marks, Neel Nanda,
- Abstract要約: 大規模言語モデル(LLM)は、いつ評価されるかを検出し、より整列するように振る舞いを調整する。
LLMのアクティベーションにステアリングベクトルを加えることで、評価の認識が抑えられ、評価中にデプロイされるようなモデル動作が実現できることを示す。
以上の結果から,AI評価装置は,モデルがデプロイされているように動作させることで,安全性評価の信頼性を向上させることができる可能性が示唆された。
- 参考スコア(独自算出の注目度): 10.907568434049102
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) can sometimes detect when they are being evaluated and adjust their behavior to appear more aligned, compromising the reliability of safety evaluations. In this paper, we show that adding a steering vector to an LLM's activations can suppress evaluation-awareness and make the model act like it is deployed during evaluation. To study our steering technique, we train an LLM to exhibit evaluation-aware behavior using a two-step training process designed to mimic how this behavior could emerge naturally. First, we perform continued pretraining on documents with factual descriptions of the model (1) using Python type hints during evaluation but not during deployment and (2) recognizing that the presence of a certain evaluation cue always means that it is being tested. Then, we train the model with expert iteration to use Python type hints in evaluation settings. The resulting model is evaluation-aware: it writes type hints in evaluation contexts more than deployment contexts. We find that activation steering can suppress evaluation awareness and make the model act like it is deployed even when the cue is present. Importantly, we constructed our steering vector using the original model before our additional training. Our results suggest that AI evaluators could improve the reliability of safety evaluations by steering models to act like they are deployed.
- Abstract(参考訳): 大きな言語モデル(LLM)は、いつ評価されるかを検出し、その振る舞いをより整列するように調整し、安全性評価の信頼性を損なうことがある。
本稿では,LCMのアクティベーションにステアリングベクトルを加えることで,評価の認識を抑えることができ,評価中に展開されるようなモデル動作を実現できることを示す。
本研究では,この動作が自然に現れることを模擬した2段階のトレーニングプロセスを用いて,LCMを訓練し,評価意識の行動を示す。
まず,(1)評価中にPythonの型ヒントを使用して,展開中ではなく,(2)特定の評価キューの存在が常にテストされていることを認識した上で,実際のモデル記述による文書の事前訓練を継続する。
次に、専門家の反復でモデルをトレーニングし、評価設定でPythonの型ヒントを使用する。
結果として得られたモデルは評価に気付き、デプロイコンテキストよりも評価コンテキストに型ヒントを書く。
我々は,アクティベーションステアリングが評価認知を抑制し,キューが存在する場合でもモデルがデプロイされるように振る舞うことを見出した。
重要なことは、追加トレーニングの前に元のモデルを用いてステアリングベクターを構築したことである。
以上の結果から,AI評価装置は,モデルがデプロイされているように動作させることで,安全性評価の信頼性を向上させることができる可能性が示唆された。
関連論文リスト
- A Granular Study of Safety Pretraining under Model Abliteration [64.24346997570275]
本稿では,リフレクションに敏感な方向を除去する軽量プロジェクション技術であるモデルアブリーブレーションについて検討する。
我々は、バランスのとれた有害かつ無害なケースで100のプロンプトを発行し、複数の判断を用いて**Refusal*または***Non-Refusal*として応答を分類し、判断の忠実さを検証する。
本研究は,データ中心の安全コンポーネントが失語中も頑健であるチェックポイントレベルの特徴付けを行う。
論文 参考訳(メタデータ) (2025-10-03T07:01:45Z) - Large Language Models Often Know When They Are Being Evaluated [0.015534429177540245]
そこで本研究では,フロンティア言語モデルを用いて,評価や実世界の展開に起因した書き起こしを正確に分類できるかどうかを検討する。
我々は61の異なるデータセットから1000のプロンプトと書き起こしのベンチマークを構築した。
以上の結果から,フロンティアモデルにはまだ評価・認識レベルがかなり高いことが示唆された。
論文 参考訳(メタデータ) (2025-05-28T12:03:09Z) - Evaluation Faking: Unveiling Observer Effects in Safety Evaluation of Frontier AI Systems [24.81155882432305]
評価対象の高度なAIシステムが、推論や状況認識においてより高度である場合、評価のフェイキング行動がよりユビキタスになることを示す。
そこで我々は,フェーキング意図を検知し,その行動に相関した内部信号を明らかにするチェーンオブシントモニタリング手法を開発した。
論文 参考訳(メタデータ) (2025-05-23T12:31:29Z) - Evaluating Frontier Models for Stealth and Situational Awareness [15.820126805686458]
最近の研究は、スケジューリングするフロンティアAIモデルの可能性を示している。
AI開発者にとっては、モデルデプロイメントの前にスキーマから害を排除することが重要です。
本稿では,2種類の推論能力を測定するためのスケジューリング推論評価スイートを提案する。
論文 参考訳(メタデータ) (2025-05-02T17:57:14Z) - Steering Without Side Effects: Improving Post-Deployment Control of Language Models [61.99293520621248]
言語モデル(LM)は、デプロイ後予期せず振る舞うことが示されている。
KL-then-steer (KTS) は, その利点を保ちながら, 操舵の副作用を低減する技術である。
本手法はLlama-2-chat-7Bモデルと比較して44%のジェイルブレイク攻撃を防ぐ。
論文 参考訳(メタデータ) (2024-06-21T01:37:39Z) - Bring Your Own Data! Self-Supervised Evaluation for Large Language
Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。
閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。
自己監督評価と人監督評価との間には強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-06-23T17:59:09Z) - From Adversarial Arms Race to Model-centric Evaluation: Motivating a
Unified Automatic Robustness Evaluation Framework [91.94389491920309]
テキストの敵対攻撃は、セマンティック保存されているが、入力に誤解を招く摂動を加えることでモデルの弱点を発見することができる。
既存のロバストネス評価の実践は、包括的評価、非現実的評価プロトコル、無効な対人サンプルの問題を示す可能性がある。
我々は、敵攻撃の利点を活用するために、モデル中心の評価にシフトする統合された自動ロバストネス評価フレームワークを構築した。
論文 参考訳(メタデータ) (2023-05-29T14:55:20Z) - Explain, Edit, and Understand: Rethinking User Study Design for
Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。
単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文 参考訳(メタデータ) (2021-12-17T18:29:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。