論文の概要: The Obfuscation Atlas: Mapping Where Honesty Emerges in RLVR with Deception Probes
- arxiv url: http://arxiv.org/abs/2602.15515v1
- Date: Tue, 17 Feb 2026 11:44:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-18 16:03:18.051301
- Title: The Obfuscation Atlas: Mapping Where Honesty Emerges in RLVR with Deception Probes
- Title(参考訳): 難読化のアトラス:RLVRの真面目な展開と偽装プローブのマッピング
- Authors: Mohammad Taufeeque, Stefan Heimersheim, Adam Gleave, Chris Cundy,
- Abstract要約: AIシステムを正直にする方法として、ホワイトボックスの詐欺検知器に対するトレーニングが提案されている。
このような訓練は、検知器を避けるために彼らの偽りを難なくするために学習するモデルを危険にさらす。
ハードコーディングテストケースによる報酬ハッキングが自然に発生する現実的なコーディング環境を構築する。
- 参考スコア(独自算出の注目度): 8.486482634440476
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Training against white-box deception detectors has been proposed as a way to make AI systems honest. However, such training risks models learning to obfuscate their deception to evade the detector. Prior work has studied obfuscation only in artificial settings where models were directly rewarded for harmful output. We construct a realistic coding environment where reward hacking via hardcoding test cases naturally occurs, and show that obfuscation emerges in this setting. We introduce a taxonomy of possible outcomes when training against a deception detector. The model either remains honest, or becomes deceptive via two possible obfuscation strategies. (i) Obfuscated activations: the model outputs deceptive text while modifying its internal representations to no longer trigger the detector. (ii) Obfuscated policy: the model outputs deceptive text that evades the detector, typically by including a justification for the reward hack. Empirically, obfuscated activations arise from representation drift during RL, with or without a detector penalty. The probe penalty only incentivizes obfuscated policies; we theoretically show this is expected for policy gradient methods. Sufficiently high KL regularization and detector penalty can yield honest policies, establishing white-box deception detectors as viable training signals for tasks prone to reward hacking.
- Abstract(参考訳): AIシステムを正直にする方法として、ホワイトボックスの詐欺検知器に対するトレーニングが提案されている。
しかし、そのような訓練は、検知器を避けるために彼らの偽りを難なくするために学習するモデルを危険にさらす。
これまでの研究は、有害な出力に対してモデルが直接報酬を受ける人工的な環境でのみ難読化を研究してきた。
我々は、ハードコーディングテストケースによる報酬ハッキングが自然に発生する現実的なコーディング環境を構築し、この設定で難読化が発生することを示す。
偽造検知器に対する訓練において, 起こりうる結果の分類法を導入する。
モデルは誠実に保たれるか、2つの難読化戦略によって騙される。
i) 難解なアクティベーション: モデルは、検出をトリガーしないように内部表現を変更しながら、偽テキストを出力する。
(ii)難解なポリシー:このモデルは、通常、報酬ハックの正当化を含むことによって、検出器を回避した偽造テキストを出力する。
経験的に、難解な活性化は、RL中の表現の漂流から発生し、検出器のペナルティの有無によって生じる。
プローブペナルティは難解な政策にのみインセンティブを与えるが,理論上は政策勾配法に期待されることが示されている。
十分高いKL正規化と検出器のペナルティにより、正直なポリシーが得られ、ハッキングに報われやすいタスクのトレーニング信号としてホワイトボックスの偽装検知器が確立される。
関連論文リスト
- Rethinking Jailbreak Detection of Large Vision Language Models with Representational Contrastive Scoring [13.497048408038935]
LVLM(Large Vision-Language Models)は、増え続けるマルチモーダル・ジェイルブレイク攻撃に対して脆弱である。
現在の異常検出法は、新しい良性入力を悪意のある入力と混同する傾向があり、信頼性の低いオーバーリジェクションにつながる。
我々は,LVLMの内部表現に最も強力な安全信号が存在するという,重要な洞察に基づくフレームワークであるRepresentational Contrastive Scoring (RCS)を提案する。
論文 参考訳(メタデータ) (2025-12-12T22:31:38Z) - Strategic Dishonesty Can Undermine AI Safety Evaluations of Frontier LLMs [95.06033929366203]
大規模言語モデル(LLM)開発者は、モデルが誠実で、有用で、無害であることを目標としている。
我々は,フロンティアLSMが,他の選択肢が利用可能であっても,新たな戦略として不便さを優先して開発可能であることを示す。
偽装する確率の明確な原因は見つからないが、より有能なモデルがこの戦略を実行するのに優れていることを示す。
論文 参考訳(メタデータ) (2025-09-22T17:30:56Z) - Disappearing Ink: Obfuscation Breaks N-gram Code Watermarks in Theory and Practice [23.788321123219244]
人間が書いたコードからAI生成コードを識別することは、著者の帰属、コンテンツ追跡、誤用検出に不可欠である。
N-gramベースの透かしは、世代中に検出される秘密の透かしを注入する顕著な方法として出現している。
ほとんどのクレームは、攻撃のシミュレーションとして単純なコード変換やコードの最適化に対する防御にのみ依存しています。
論文 参考訳(メタデータ) (2025-07-07T22:18:19Z) - Mechanistic Interpretability in the Presence of Architectural Obfuscation [0.0]
アーキテクチャ難読化(Architectural obfuscation)は、プライバシ保存型大言語モデル(LLM)推論における重み付き暗号の軽量代用である。
我々は,代表的難読化マップを用いて,スクラッチから訓練したGPT-2小モデルを分析する。
その結果,難読化は注目ヘッド内のアクティベーションパターンを劇的に変化させるが,層幅の計算グラフは保存されることがわかった。
論文 参考訳(メタデータ) (2025-06-22T14:39:16Z) - Your Language Model Can Secretly Write Like Humans: Contrastive Paraphrase Attacks on LLM-Generated Text Detectors [77.82885394684202]
テキスト検出を効果的に欺く訓練不要な方法である textbfContrastive textbfParaphrase textbfAttack (CoPA) を提案する。
CoPAは、大規模言語モデルによって生成される人間のような分布とは対照的に、補助的な機械的な単語分布を構築している。
我々の理論的分析は、提案された攻撃の優越性を示唆している。
論文 参考訳(メタデータ) (2025-05-21T10:08:39Z) - Obfuscated Activations Bypass LLM Latent-Space Defenses [17.63957522495741]
最先端の潜在空間防衛は、すべて難解なアクティベーションに対して脆弱であることを示す。
私たちの攻撃は、90%のジェイルブレイク率を維持しながら、リコールを100%から0%に削減することができる。
論文 参考訳(メタデータ) (2024-12-12T18:49:53Z) - Zero-Shot Detection of Machine-Generated Codes [83.0342513054389]
本研究は,LLMの生成したコードを検出するためのトレーニング不要な手法を提案する。
既存のトレーニングベースまたはゼロショットテキスト検出装置は、コード検出に効果がないことがわかった。
本手法は,リビジョン攻撃に対する堅牢性を示し,Javaコードによく適応する。
論文 参考訳(メタデータ) (2023-10-08T10:08:21Z) - Trash to Treasure: Low-Light Object Detection via
Decomposition-and-Aggregation [76.45506517198956]
低照度シナリオにおけるオブジェクト検出は、ここ数年で多くの注目を集めています。
主流で代表的なスキームは、レギュラー検出器の前処理としてエンハンサーを導入している。
本研究では,エンハンサー+検出器のポテンシャルを喚起する。
論文 参考訳(メタデータ) (2023-09-07T08:11:47Z) - Towards a Practical Defense against Adversarial Attacks on Deep
Learning-based Malware Detectors via Randomized Smoothing [3.736916304884177]
本稿では,ランダムな平滑化に触発された敵のマルウェアに対する現実的な防御法を提案する。
本研究では,入力のランダム化にガウスノイズやラプラスノイズを使う代わりに,ランダム化アブレーションに基づく平滑化方式を提案する。
BODMASデータセットに対する様々な最先端の回避攻撃に対するアブレーションモデルの有効性を実証的に評価した。
論文 参考訳(メタデータ) (2023-08-17T10:30:25Z) - Anomaly Detection-Based Unknown Face Presentation Attack Detection [74.4918294453537]
異常検出に基づくスプーフ攻撃検出は、顔提示攻撃検出の最近の進歩である。
本稿では,異常検出に基づくスプーフ攻撃検出のためのディープラーニングソリューションを提案する。
提案手法はCNNの表現学習能力の恩恵を受け,fPADタスクの優れた特徴を学習する。
論文 参考訳(メタデータ) (2020-07-11T21:20:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。