論文の概要: Contrastive Reasoning Alignment: Reinforcement Learning from Hidden Representations
- arxiv url: http://arxiv.org/abs/2603.17305v1
- Date: Wed, 18 Mar 2026 03:00:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.487925
- Title: Contrastive Reasoning Alignment: Reinforcement Learning from Hidden Representations
- Title(参考訳): コントラスト推論アライメント:隠れ表現からの強化学習
- Authors: Haozheng Luo, Yimin Wang, Jiahao Yu, Binghui Wang, Yan Chen,
- Abstract要約: CRAFTは、モデル推論機能と隠れ表現を活用して、ジェイルブレイク攻撃に対する堅牢性を改善するアライメントフレームワークである。
我々は,2つの強力な推論モデル Qwen3-4B-Thinking と R1-Distill-Llama-8B を用いて,複数の安全ベンチマーク上で CRAFT を評価する。
- 参考スコア(独自算出の注目度): 27.268778254622998
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose CRAFT, a red-teaming alignment framework that leverages model reasoning capabilities and hidden representations to improve robustness against jailbreak attacks. Unlike prior defenses that operate primarily at the output level, CRAFT aligns large reasoning models to generate safety-aware reasoning traces by explicitly optimizing objectives defined over the hidden state space. Methodologically, CRAFT integrates contrastive representation learning with reinforcement learning to separate safe and unsafe reasoning trajectories, yielding a latent-space geometry that supports robust, reasoning-level safety alignment. Theoretically, we show that incorporating latent-textual consistency into GRPO eliminates superficially aligned policies by ruling them out as local optima. Empirically, we evaluate CRAFT on multiple safety benchmarks using two strong reasoning models, Qwen3-4B-Thinking and R1-Distill-Llama-8B, where it consistently outperforms state-of-the-art defenses such as IPO and SafeKey. Notably, CRAFT delivers an average 79.0% improvement in reasoning safety and 87.7% improvement in final-response safety over the base models, demonstrating the effectiveness of hidden-space reasoning alignment.
- Abstract(参考訳): 我々は、モデル推論機能と隠れ表現を活用して、ジェイルブレイク攻撃に対する堅牢性を改善する、レッドチームアライメントフレームワークであるCRAFTを提案する。
主に出力レベルで機能する以前の防御とは異なり、CRAFTは隠れ状態空間上で定義された目的を明示的に最適化することで、安全を意識した推論トレースを生成するために大きな推論モデルを調整する。
方法論的に、CRAFTは、対照的表現学習と強化学習を統合して、安全で安全でない推論軌道を分離し、堅牢で推論レベルの安全性アライメントをサポートする潜在空間幾何学を生成する。
理論的には、潜時テキスト整合性をGRPOに組み込むことで、局所最適と判断することで、表面的に整合したポリシーを排除できることが示される。
実証的に、CRAFTは2つの強力な推論モデルであるQwen3-4B-ThinkingとR1-Distill-Llama-8Bを使用して、複数の安全ベンチマーク上で評価する。
特に、CRAFTは、推論安全性を平均79.0%改善し、ベースモデルに対する最終応答安全性を87.7%改善し、隠れ空間推論アライメントの有効性を実証している。
関連論文リスト
- Evaluating and Enhancing the Vulnerability Reasoning Capabilities of Large Language Models [15.849480549367684]
本稿では,DAG生成タスクとして脆弱性推論をモデル化する新しいフレームワークであるDAGVulを提案する。
さらにReinforcement Learning with Verifiable Rewards (RLVR)を導入することで、モデル推論トレースをプログラム固有の論理と整合させる。
我々のフレームワークは、すべてのベースラインに対して平均18.9%の推論F1スコアを改善します。
論文 参考訳(メタデータ) (2026-02-06T13:19:45Z) - Provable Defense Framework for LLM Jailbreaks via Noise-Augumented Alignment [37.06683377953812]
大規模言語モデル(LLM)は、GCGのような経験的防御を簡単に回避できる適応型ジェイルブレイクに対して脆弱なままである。
本研究では,安全保証をシングルパス推論からアンサンブルの統計的安定性にシフトさせる,証明可能なロバスト性のためのフレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-02T03:26:45Z) - Think-Reflect-Revise: A Policy-Guided Reflective Framework for Safety Alignment in Large Vision Language Models [58.17589701432514]
Think-Reflect-Revise (TRR)は、LVLM(Large Vision Language Models)の安全性向上を目的としたトレーニングフレームワークである。
まず、リフレクティブセーフティ推論(ReSafe)データセットを5000の例で構築し、シンク・リフレクティブ・リフレクティブ・プロセスに従っています。
次に、ReSafeデータセットを用いてターゲットモデルを微調整し、反射行動の初期化を行い、最後に強化学習を通じてポリシー誘導反射を強化する。
論文 参考訳(メタデータ) (2025-12-08T03:46:03Z) - ARMOR: Aligning Secure and Safe Large Language Models via Meticulous Reasoning [64.32925552574115]
ARMORは、jailbreak戦略を分析し、コアインテントを抽出する、大規模な言語モデルである。
ARMORは最先端の安全性能を達成し、平均有害率は0.002であり、高度な最適化ベースのジェイルブレイクに対する攻撃成功率は0.06である。
論文 参考訳(メタデータ) (2025-07-14T09:05:54Z) - Circumventing Safety Alignment in Large Language Models Through Embedding Space Toxicity Attenuation [13.971909819796762]
大規模言語モデル(LLM)は、医療、教育、サイバーセキュリティといった分野で大きな成功を収めている。
埋め込み空間中毒は、敵が入力データの内部意味表現を操作して安全アライメント機構をバイパスする微妙な攻撃ベクトルである。
本稿では,線形変換による埋め込み空間における毒性感受性次元の同定と減衰を行う新しいフレームワークETTAを提案する。
論文 参考訳(メタデータ) (2025-07-08T03:01:00Z) - Curriculum-Guided Antifragile Reinforcement Learning for Secure UAV Deconfliction under Observation-Space Attacks [6.367978467906828]
強化学習政策は、観測空間における敵の攻撃に対して脆弱である。
本稿では,段階的対向摂動のカリキュラムに適応するために設計された反フレジブルなRLフレームワークを提案する。
その結果, 反フランジ政策は標準およびロバストなRLベースラインよりも一貫して優れていた。
論文 参考訳(メタデータ) (2025-06-26T10:10:41Z) - Improving LLM Safety Alignment with Dual-Objective Optimization [81.98466438000086]
大規模言語モデル(LLM)の既存のトレーニング時間安全アライメント技術は、ジェイルブレイク攻撃に対して脆弱なままである。
本研究では,DPOの目的を2つの構成要素にまとめる安全アライメントの改善について提案する。(1) 安全でない世代が部分的に発生しても拒否を促す頑健な拒絶訓練,(2) 有害な知識の未学習。
論文 参考訳(メタデータ) (2025-03-05T18:01:05Z) - Reasoning-to-Defend: Safety-Aware Reasoning Can Defend Large Language Models from Jailbreaking [54.10710423370126]
本稿では,大規模言語モデルの生成プロセスに安全性を考慮した推論機構を統合する訓練パラダイムであるReasoning-to-Defend(R2D)を提案する。
CPOは、与えられた対話の安全性に対するモデルの認識を高める。
実験によると、R2Dは様々な攻撃を効果的に軽減し、元の性能を維持しながら全体の安全性を向上させる。
論文 参考訳(メタデータ) (2025-02-18T15:48:46Z) - Learn from the Past: A Proxy Guided Adversarial Defense Framework with
Self Distillation Regularization [53.04697800214848]
敵対的訓練(AT)は、ディープラーニングモデルの堅牢性を固める上で重要な要素である。
AT方式は、目標モデルの防御のために直接反復的な更新を頼りにしており、不安定な訓練や破滅的なオーバーフィッティングといった障害に頻繁に遭遇する。
汎用プロキシガイド型防衛フレームワークLAST(bf Pbf astから学ぶ)を提案する。
論文 参考訳(メタデータ) (2023-10-19T13:13:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。