論文の概要: RL-Obfuscation: Can Language Models Learn to Evade Latent-Space Monitors?
- arxiv url: http://arxiv.org/abs/2506.14261v3
- Date: Thu, 25 Sep 2025 19:43:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 14:23:57.461864
- Title: RL-Obfuscation: Can Language Models Learn to Evade Latent-Space Monitors?
- Title(参考訳): RL-Obfuscation: 言語モデルは潜在空間モニタを回避できるか?
- Authors: Rohan Gupta, Erik Jenner,
- Abstract要約: 潜在空間モニタは、その内部表現を活用することで、大規模言語モデルにおける望ましくない振る舞いを検出することを目的としている。
これは重要な疑問を提起する。モデルがそのようなモニターを避けることができるか?
RL-Obfuscationを導入し,LLMを強化学習により微調整し,遅延空間モニタを回避する。
トークンレベルのモニタはこの攻撃に対して非常に脆弱であるのに対して、最大プールやアテンションベースのプローブのようなより包括的なモニタは堅牢である。
- 参考スコア(独自算出の注目度): 6.861292004336852
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Latent-space monitors aim to detect undesirable behaviours in Large Language Models by leveraging their internal representations rather than relying solely on black-box outputs. These methods have shown promise in identifying behaviours such as deception and unsafe completions. However, these monitors may themselves become training signals, for example, by using problematic samples found in deployment to retrain models. This raises an important question: can models learn to evade such monitors? To evaluate this capability, we introduce RL-Obfuscation, in which LLMs are finetuned via reinforcement learning to evade latent-space monitors while maintaining their blackbox behaviour. We apply RL-Obfuscation to Language Models ranging from 7B to 14B parameters and evaluate their Evasion Success Rate against a suite of monitors. We find that token-level monitors are highly vulnerable to this attack while more holistic monitors, such as max-pooling or attention-based probes, remain robust. Moreover, for these vulnerable monitors, models trained to evade a single static monitor can generalise to evade other unseen monitors. We also find that the models can be trained to conditionally bypass latent-space monitors on only certain inputs. Finally, we study how the models bypass these monitors and find that the model can learn to repurpose tokens to have different internal representations.
- Abstract(参考訳): 潜在空間モニタは、ブラックボックス出力のみに頼るのではなく、内部表現を活用することで、大規模言語モデルにおける望ましくない振る舞いを検出することを目的としている。
これらの手法は、騙しや安全でない完了のような行動を特定することを約束している。
しかし、これらのモニターは、例えば、デプロイで見つかった問題サンプルを使用してモデルを再トレーニングすることで、それ自体がトレーニング信号になる可能性がある。
これは重要な疑問を提起する。モデルがそのようなモニターを避けることができるか?
この能力を評価するために,LL-Obfuscationを導入し,LLMを強化学習により微調整し,ブラックボックス動作を維持しながら遅延空間モニタを回避する。
RL-Obfuscation を 7B から 14B の範囲の言語モデルに適用し,その有効性を評価する。
トークンレベルのモニタはこの攻撃に対して非常に脆弱であるのに対して、最大プールやアテンションベースのプローブのようなより包括的なモニタは堅牢である。
さらに、これらの脆弱なモニタでは、単一の静的モニターを避けるよう訓練されたモデルが一般化され、他の見えないモニターを避けることができる。
また,特定の入力のみの遅延空間モニタを条件付きでバイパスする訓練も可能であることがわかった。
最後に、モデルがこれらのモニターをバイパスする方法について検討し、異なる内部表現を持つためにトークンを再利用することを学ぶ。
関連論文リスト
- LLMs Can Covertly Sandbag on Capability Evaluations Against Chain-of-Thought Monitoring [5.214050557192032]
sandbaggingは、AIモデルまたはその開発者による評価における戦略的過小評価である。
有望な防御策の1つは、モデルのチェーン・オブ・ソート(CoT)推論を監視することである。
我々は、フロンティアモデルと小さなオープンソースモデルの両方が、ヒントなしでCoTモニタリング0ショットに対して隠れてサンドバッグができることを示した。
論文 参考訳(メタデータ) (2025-07-31T15:19:30Z) - Robust Anti-Backdoor Instruction Tuning in LVLMs [53.766434746801366]
大規模視覚言語モデル(LVLM)のための軽量で認証に依存しない防御フレームワークについて紹介する。
私たちのフレームワークは、命令チューニングの下で、アダプタモジュールとテキスト埋め込み層のみを微調整します。
Flickr30kとMSCOCOに対する7つの攻撃に対する実験は、我々の攻撃の成功率をほぼゼロに低下させることを示した。
論文 参考訳(メタデータ) (2025-06-04T01:23:35Z) - SafetyNet: Detecting Harmful Outputs in LLMs by Modeling and Monitoring Deceptive Behaviors [2.07180164747172]
原子力や航空などのリスクの高い産業は、危険なシステム状態を検出するためにリアルタイムモニタリングを使用している。
教師なしアプローチを用いることで、有害なAI出力が発生する前に予測するリアルタイムフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-20T12:49:58Z) - Monitoring Reasoning Models for Misbehavior and the Risks of Promoting Obfuscation [56.102976602468615]
エージェントコーディング環境における報酬ハッキングのために,OpenAI o3-miniのようなフロンティア推論モデルを監視することができることを示す。
最適化が多すぎると、エージェントは難解な報酬のハッキングを学び、その意図を思考の連鎖の中に隠してしまう。
論文 参考訳(メタデータ) (2025-03-14T23:50:34Z) - HiddenDetect: Detecting Jailbreak Attacks against Large Vision-Language Models via Monitoring Hidden States [17.601328965546617]
本研究は,LVLMが内的アクティベーションにおける安全性関連信号を本質的にエンコードしているかどうかを考察する。
その結果,LVLMは安全でないプロンプトを処理する際に,異なる活性化パターンを示すことが明らかとなった。
HiddenDetectは、内部モデルのアクティベーションを活用して安全性を高める、新しいチューニング不要のフレームワークである。
論文 参考訳(メタデータ) (2025-02-20T17:14:34Z) - Beyond External Monitors: Enhancing Transparency of Large Language Models for Easier Monitoring [18.837335987273256]
大規模言語モデル(LLM)はますます有能化しつつあるが、その思考と意思決定プロセスのメカニズムはいまだ不明である。
本稿では,LCMの透明性を向上し,モニタが不適切かつ敏感な行動を特定するのに役立つ新しい方法TELLMEを提案する。
論文 参考訳(メタデータ) (2025-02-07T13:25:33Z) - SafeSwitch: Steering Unsafe LLM Behavior via Internal Activation Signals [50.463399903987245]
大規模言語モデル(LLM)は、様々なタスクにまたがる例外的な能力を示すが、有害なコンテンツを生成することでリスクを引き起こす。
LLMは、内部状態の安全性に関する内部評価を同様に行うことができることを示す。
本稿では,プロバーをベースとした内部状態モニタを用いて,安全でない出力を規制するSafeSwitchを提案する。
論文 参考訳(メタデータ) (2025-02-03T04:23:33Z) - Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - Foundation Policies with Hilbert Representations [54.44869979017766]
ラベルなしオフラインデータから一般ポリシーを事前学習するための教師なしフレームワークを提案する。
我々の重要な洞察は、基盤となる環境の時間的構造を保存する構造的表現を学習することである。
実験の結果、教師なしのポリシーは、ゴール条件付きおよび一般のRLタスクをゼロショットで解決できることがわかった。
論文 参考訳(メタデータ) (2024-02-23T19:09:10Z) - Unsupervised Continual Anomaly Detection with Contrastively-learned
Prompt [80.43623986759691]
UCADと呼ばれる新しい非教師付き連続異常検出フレームワークを提案する。
このフレームワークは、対照的に学習したプロンプトを通じて、UDAに継続的な学習能力を持たせる。
我々は総合的な実験を行い、教師なし連続異常検出とセグメンテーションのベンチマークを設定した。
論文 参考訳(メタデータ) (2024-01-02T03:37:11Z) - Making Harmful Behaviors Unlearnable for Large Language Models [50.44915524846857]
大規模言語モデル(LLM)は、様々な領域における汎用AIアシスタントとして大きな可能性を示している。
LLMは、暗黙的または明示的な有害な内容を含むことが多いため、有害なアシスタントに容易に微調整できる。
本稿では, 微調整過程において有害な動作を学習不能にする, 制御可能なトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-02T09:18:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。