論文の概要: RL-Obfuscation: Can Language Models Learn to Evade Latent-Space Monitors?
- arxiv url: http://arxiv.org/abs/2506.14261v2
- Date: Wed, 18 Jun 2025 03:32:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-19 19:35:51.394795
- Title: RL-Obfuscation: Can Language Models Learn to Evade Latent-Space Monitors?
- Title(参考訳): RL-Obfuscation: 言語モデルは潜在空間モニタを回避できるか?
- Authors: Rohan Gupta, Erik Jenner,
- Abstract要約: RL-Obfuscationを導入し、LLMを強化学習により微調整し、潜時空間モニタをバイパスする。
トークンレベルの潜時空間モニタは、この攻撃に対して非常に脆弱であることがわかった。
本研究では,同一タイプのモニタに対して,単一の静的モニタの一般化を回避するために訓練された敵ポリシーを示す。
- 参考スコア(独自算出の注目度): 3.661279101881241
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Latent-space monitors aim to detect undesirable behaviours in large language models by leveraging internal model representations rather than relying solely on black-box outputs. These methods have shown promise in identifying behaviours such as deception and unsafe completions, but a critical open question remains: can LLMs learn to evade such monitors? To study this, we introduce RL-Obfuscation, in which LLMs are finetuned via reinforcement learning to bypass latent-space monitors while maintaining coherent generations. We apply RL-Obfuscation to LLMs ranging from 7B to 14B parameters and evaluate evasion success against a suite of monitors. We find that token-level latent-space monitors are highly vulnerable to this attack. More holistic monitors, such as max-pooling or attention-based probes, remain robust. Moreover, we show that adversarial policies trained to evade a single static monitor generalise to unseen monitors of the same type. Finally, we study how the policy learned by RL bypasses these monitors and find that the model can also learn to repurpose tokens to mean something different internally.
- Abstract(参考訳): 遅延空間モニタは、ブラックボックス出力のみに依存するのではなく、内部モデル表現を活用することで、大きな言語モデルの望ましくない振る舞いを検出することを目的としている。
これらの手法は、騙しや安全でない完了などの行動を識別する上で有望であることを示しているが、重要な疑問が残る。
そこで本研究では,LL-Obfuscation(RL-Obfuscation)を導入し,LLMを強化学習により微調整し,コヒーレント世代を維持しながら遅延空間モニタをバイパスする手法を提案する。
RL-Obfuscation を 7B から 14B の範囲の LLM に適用し,モニタ群に対する回避効果を評価する。
トークンレベルの潜時空間モニタは、この攻撃に対して非常に脆弱であることがわかった。
最大プーリングやアテンションベースのプローブのようなより総合的なモニターは、引き続き堅牢である。
さらに,1つの静的モニタの一般化を回避するために訓練された敵のポリシーが,同じタイプのモニタの見当たらないように一般化されていることを示す。
最後に、RLが学んだポリシーがこれらのモニターをバイパスする方法について検討し、モデルがトークンを再利用して内部で異なる意味を持つようになることを確かめる。
関連論文リスト
- Robust Anti-Backdoor Instruction Tuning in LVLMs [53.766434746801366]
大規模視覚言語モデル(LVLM)のための軽量で認証に依存しない防御フレームワークについて紹介する。
私たちのフレームワークは、命令チューニングの下で、アダプタモジュールとテキスト埋め込み層のみを微調整します。
Flickr30kとMSCOCOに対する7つの攻撃に対する実験は、我々の攻撃の成功率をほぼゼロに低下させることを示した。
論文 参考訳(メタデータ) (2025-06-04T01:23:35Z) - SafetyNet: Detecting Harmful Outputs in LLMs by Modeling and Monitoring Deceptive Behaviors [2.07180164747172]
原子力や航空などのリスクの高い産業は、危険なシステム状態を検出するためにリアルタイムモニタリングを使用している。
教師なしアプローチを用いることで、有害なAI出力が発生する前に予測するリアルタイムフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-20T12:49:58Z) - Monitoring Reasoning Models for Misbehavior and the Risks of Promoting Obfuscation [56.102976602468615]
エージェントコーディング環境における報酬ハッキングのために,OpenAI o3-miniのようなフロンティア推論モデルを監視することができることを示す。
最適化が多すぎると、エージェントは難解な報酬のハッキングを学び、その意図を思考の連鎖の中に隠してしまう。
論文 参考訳(メタデータ) (2025-03-14T23:50:34Z) - HiddenDetect: Detecting Jailbreak Attacks against Large Vision-Language Models via Monitoring Hidden States [17.601328965546617]
本研究は,LVLMが内的アクティベーションにおける安全性関連信号を本質的にエンコードしているかどうかを考察する。
その結果,LVLMは安全でないプロンプトを処理する際に,異なる活性化パターンを示すことが明らかとなった。
HiddenDetectは、内部モデルのアクティベーションを活用して安全性を高める、新しいチューニング不要のフレームワークである。
論文 参考訳(メタデータ) (2025-02-20T17:14:34Z) - Beyond External Monitors: Enhancing Transparency of Large Language Models for Easier Monitoring [18.837335987273256]
大規模言語モデル(LLM)はますます有能化しつつあるが、その思考と意思決定プロセスのメカニズムはいまだ不明である。
本稿では,LCMの透明性を向上し,モニタが不適切かつ敏感な行動を特定するのに役立つ新しい方法TELLMEを提案する。
論文 参考訳(メタデータ) (2025-02-07T13:25:33Z) - SafeSwitch: Steering Unsafe LLM Behavior via Internal Activation Signals [50.463399903987245]
大規模言語モデル(LLM)は、様々なタスクにまたがる例外的な能力を示すが、有害なコンテンツを生成することでリスクを引き起こす。
LLMは、内部状態の安全性に関する内部評価を同様に行うことができることを示す。
本稿では,プロバーをベースとした内部状態モニタを用いて,安全でない出力を規制するSafeSwitchを提案する。
論文 参考訳(メタデータ) (2025-02-03T04:23:33Z) - Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - Unsupervised Continual Anomaly Detection with Contrastively-learned
Prompt [80.43623986759691]
UCADと呼ばれる新しい非教師付き連続異常検出フレームワークを提案する。
このフレームワークは、対照的に学習したプロンプトを通じて、UDAに継続的な学習能力を持たせる。
我々は総合的な実験を行い、教師なし連続異常検出とセグメンテーションのベンチマークを設定した。
論文 参考訳(メタデータ) (2024-01-02T03:37:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。