論文の概要: That's not natural: The Impact of Off-Policy Training Data on Probe Performance
- arxiv url: http://arxiv.org/abs/2511.17408v1
- Date: Fri, 21 Nov 2025 17:08:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-24 18:08:19.134688
- Title: That's not natural: The Impact of Off-Policy Training Data on Probe Performance
- Title(参考訳): 自然ではない - オフポリティトレーニングデータがプローブ性能に及ぼす影響
- Authors: Nathalie Kirch, Samuel Dower, Adrians Skapars, Ekdeep Singh Lubana, Dmitrii Krasheninnikov,
- Abstract要約: 合成・非政治データの利用が,8つの異なる行動におけるプローブの一般化にどのように影響するかを評価する。
偽装とサンドバッグプローブは、実際の監視シナリオで使用される場合、オフ・ポリティクスからオン・ポリティクス・データへの一般化に失敗する可能性がある。
- 参考スコア(独自算出の注目度): 13.856018564180266
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Probing has emerged as a promising method for monitoring Large Language Models (LLMs), enabling inference-time detection of concerning behaviours such as deception and sycophancy. However, natural examples of many behaviours are rare, forcing researchers to rely on synthetic or off-policy LLM responses for training probes. We systematically evaluate how the use of synthetic and off-policy data influences probe generalisation across eight distinct LLM behaviours. Testing linear and attention probes across multiple LLMs, we find that the response generation strategy can significantly affect probe performance, though the magnitude of this effect varies by behaviour. We find that successful generalisation from off-policy data, to test sets where the model is incentivised to produce the target behaviour, is predictive of successful on-policy generalisation. Leveraging this result, we predict that Deception and Sandbagging probes may fail to generalise from off-policy to on-policy data when used in real monitoring scenarios. Notably, shifts in the training data domain still cause even larger performance degradation, with different-domain test scores being consistently lower than the same-domain ones. These results indicate that, in the absence of on-policy data, using same-domain off-policy data yields more reliable probes than using on-policy data from a different domain, emphasizing the need for methods that can better handle distribution shifts in LLM monitoring.
- Abstract(参考訳): ProbingはLarge Language Models(LLM)を監視するための有望な方法として登場し、騙しや梅毒といった行動に関する推論時検出を可能にする。
しかし、多くの行動の自然な例は稀であり、研究者は訓練用プローブの合成または外部のLCM応答に頼らざるを得ない。
我々は,合成・非政治データの利用が,8つの異なるLCM行動におけるプローブの一般化にどのように影響するかを系統的に評価した。
複数のLLMに対して線形および注目プローブを試験したところ、応答生成戦略はプローブ性能に大きな影響を及ぼすが、その効果の大きさは挙動によって異なる。
対象行動を生成するためにモデルにインセンティブを与えるテストセットに対して、オフ・ポリティクスデータから成功した一般化が、オン・ポリティクスの一般化の成功を予測することを発見した。
この結果を利用して、実際の監視シナリオで使用する場合、DeceptionとSandbaggingのプローブは、オフ・ポリティクスからオン・ポリティクス・データへの一般化に失敗する可能性があると予測する。
特に、トレーニングデータドメインのシフトは、異なるドメインのテストスコアが同じドメインのものよりも一貫して低いため、さらにパフォーマンスの低下を引き起こします。
これらの結果から,同領域のオフポリティクスデータを使用しない場合には,異なるドメインのオンポリティクスデータを使用するよりも信頼性の高いプローブが得られ,LCMモニタリングにおける分散シフトをよりうまく処理できる手法の必要性が強調された。
関連論文リスト
- Retaining by Doing: The Role of On-Policy Data in Mitigating Forgetting [40.80967570661867]
言語モデルをポストトレーニングによって新しいタスクに適応することは、既存の能力を劣化させるリスクをもたらす。
教師付き微調整(SFT)と強化学習(RL)の2つの広く採用されているポストトレーニング手法の忘れパターンを比較した。
RLはSFTよりも忘れられがちだが、目標タスクのパフォーマンスは同等か高い。
論文 参考訳(メタデータ) (2025-10-21T17:59:41Z) - A Sample Efficient Conditional Independence Test in the Presence of Discretization [54.047334792855345]
離散化されたデータに直接条件付き独立テスト(CI)は、誤った結論につながる可能性がある。
最近の進歩は、観測データをバイナライズすることで、潜伏変数間の適切なCI関係を推測することを目指している。
そこで本研究では,バイナライゼーションプロセスに依存しないサンプル効率のCIテストを提案する。
論文 参考訳(メタデータ) (2025-06-10T12:41:26Z) - Preference Fine-Tuning of LLMs Should Leverage Suboptimal, On-Policy Data [102.16105233826917]
好みラベルからの学習は、微調整された大きな言語モデルにおいて重要な役割を果たす。
好みの微調整には、教師付き学習、オンライン強化学習(RL)、コントラスト学習など、いくつかの異なるアプローチがある。
論文 参考訳(メタデータ) (2024-04-22T17:20:18Z) - Pessimistic Causal Reinforcement Learning with Mediators for Confounded Offline Data [17.991833729722288]
我々は新しいポリシー学習アルゴリズム PESsimistic CAusal Learning (PESCAL) を提案する。
我々のキーとなる観察は、システム力学における作用の効果を媒介する補助変数を組み込むことで、Q-関数の代わりに媒介物分布関数の下位境界を学習することは十分であるということである。
提案するアルゴリズムの理論的保証とシミュレーションによる有効性の実証、および主要な配車プラットフォームからのオフラインデータセットを利用した実世界の実験を提供する。
論文 参考訳(メタデータ) (2024-03-18T14:51:19Z) - On-Policy Policy Gradient Reinforcement Learning Without On-Policy Sampling [3.5253513747455303]
そこで本稿では,オンラインポリシー勾配アルゴリズムのデータ効率向上のための適応型オフポリシーサンプリング手法を提案する。
我々の手法であるPROPS(Proximal Robust On-Policy Smpling)は,データ収集によるサンプリング誤差を低減する。
論文 参考訳(メタデータ) (2023-11-14T16:37:28Z) - On the Universal Adversarial Perturbations for Efficient Data-free
Adversarial Detection [55.73320979733527]
本稿では,UAPに対して正常サンプルと逆サンプルの異なる応答を誘導する,データに依存しない逆検出フレームワークを提案する。
実験結果から,本手法は様々なテキスト分類タスクにおいて,競合検出性能を実現することが示された。
論文 参考訳(メタデータ) (2023-06-27T02:54:07Z) - Causal Deep Reinforcement Learning Using Observational Data [11.790171301328158]
深部強化学習(DRL)における2つの解答法を提案する。
提案手法はまず, 因果推論法に基づいて異なる試料の重要度を算出し, 損失関数に対する異なる試料の影響を調整する。
本手法の有効性を実証し,実験的に検証する。
論文 参考訳(メタデータ) (2022-11-28T14:34:39Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。