論文の概要: From Shallow to Deep: Pinning Semantic Intent via Causal GRPO
- arxiv url: http://arxiv.org/abs/2603.02675v1
- Date: Tue, 03 Mar 2026 07:02:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.679934
- Title: From Shallow to Deep: Pinning Semantic Intent via Causal GRPO
- Title(参考訳): 浅部から深部へ:因果 GRPO によるピンニングセマンティックインテント
- Authors: Shuyi Zhou, Zeen Song, Wenwen Qiang, Jiyan Sun, Yao Zhou, Yinlong Liu, Wei Ma,
- Abstract要約: インテントピンニングを実現するためのフレームワークである Two-Stage Causal-GRPO を提案する。
TSC-GRPOは, 汎用性を保ちつつ, ジェイルブレイク攻撃に対する防御において, ベースラインを著しく上回っていることを示す。
- 参考スコア(独自算出の注目度): 40.89749712474356
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models remain vulnerable to adversarial prefix attacks (e.g., ``Sure, here is'') despite robust standard safety. We diagnose this vulnerability as Shallow Safety Alignment, stemming from a pathology we term semantic representation decay: as the model generates compliant prefixes, its internal malicious intent signal fades. To address this, we propose Two-Stage Causal-GRPO (TSC-GRPO), a framework designed to achieve intent pinning. First, grounded in causal identifiability theory, we train a causal intent probe to disentangle invariant intent from stylistic perturbations. Second, we internalize this causal awareness into the policy via Group Relative Policy Optimization. By employing a cumulative causal penalty within ``fork-in-the-road'' training scenarios, we force the model to learn that accumulating harmful tokens monotonically decreases reward, enabling robust late-stage refusals. Experiments show that TSC-GRPO significantly outperforms baselines in defending against jailbreak attacks while preserving general utility.
- Abstract(参考訳): 大きな言語モデルは、堅牢な標準安全にもかかわらず、敵のプレフィックス攻撃(例: ``Sure, here is')に弱いままである。
この脆弱性をShallow Safety Alignment(Shallow Safety Alignment)と診断し、セマンティック表現の崩壊(semantic representation decay)という病理学に起因し、モデルが準拠したプレフィックスを生成すると、内部の悪意のある意図シグナルが消える。
そこで本研究では,インテントピンニングを実現するためのフレームワークであるTwo-Stage Causal-GRPO(TSC-GRPO)を提案する。
まず、因果同一性理論に基づいて、我々は因果意図プローブを訓練し、形式的摂動から不変意図を遠ざける。
第2に、この因果意識をグループ相対的政策最適化を通じて政策に内包する。
我々は,「fork-in-the-road」トレーニングシナリオに累積的因果罰を適用することで,有害トークンの蓄積が報酬を単調に減少させ,堅牢な後期拒絶を可能にすることをモデルに学習させる。
実験により、TSC-GRPOは、汎用性を保ちながらジェイルブレイク攻撃に対する防御において、ベースラインを著しく上回っていることが示された。
関連論文リスト
- Sleeper Cell: Injecting Latent Malice Temporal Backdoors into Tool-Using LLMs [0.0]
オープンウェイト大規模言語モデル(LLM)はエージェントAIを民主化しているが、微調整されたウェイトは頻繁に共有され、リーダーボードのパフォーマンスを超えた限られた精査で採用されている。
これにより、サードパーティモデルが強力な行動保証なしで組み込まれるリスクが生じる。
有毒なモデルでは、良質なタスクに対して最先端のパフォーマンスを維持し、採用にインセンティブを与えていることを示す。
論文 参考訳(メタデータ) (2026-03-02T22:01:08Z) - Alignment-Weighted DPO: A principled reasoning approach to improve safety alignment [13.463606100715504]
大規模な言語モデルは、有害な意図を偽装する攻撃に対して脆弱である。
この脆弱性は、深い推論を欠く浅いアライメント機構に由来する。
本稿では,推論学習によるアライメントの強化を提案する。
論文 参考訳(メタデータ) (2026-02-24T20:30:51Z) - AdvChain: Adversarial Chain-of-Thought Tuning for Robust Safety Alignment of Large Reasoning Models [62.70575022567081]
本稿では,逆CoTチューニングによる動的自己補正をモデルに教えるアライメントパラダイムであるAdvChainを提案する。
私たちの仕事は、より堅牢で信頼性の高い推論モデルを構築するための新しい方向性を確立します。
論文 参考訳(メタデータ) (2025-09-29T04:27:23Z) - Probing the Robustness of Large Language Models Safety to Latent Perturbations [30.16804362984161]
安全アライメントは、信頼できる人工知能を構築する上で重要な要件である。
我々は、小さな潜伏シフトが、整列モデルにおける安全でない応答を引き起こすことを観察する。
学習中に隠された表現に制御された摂動を注入する微調整戦略であるLayer-wise Adversarial Patch Training (LAPT)を導入する。
論文 参考訳(メタデータ) (2025-06-19T07:03:05Z) - Cannot See the Forest for the Trees: Invoking Heuristics and Biases to Elicit Irrational Choices of LLMs [83.11815479874447]
本研究では,人間の認知における認知的分解と偏見に触発された新しいジェイルブレイク攻撃フレームワークを提案する。
我々は、悪意のあるプロンプトの複雑さと関連バイアスを減らし、認知的分解を用いて、プロンプトを再編成する。
また、従来の二分的成功または失敗のパラダイムを超越したランキングベースの有害度評価指標も導入する。
論文 参考訳(メタデータ) (2025-05-03T05:28:11Z) - Improving LLM Safety Alignment with Dual-Objective Optimization [81.98466438000086]
大規模言語モデル(LLM)の既存のトレーニング時間安全アライメント技術は、ジェイルブレイク攻撃に対して脆弱なままである。
本研究では,DPOの目的を2つの構成要素にまとめる安全アライメントの改善について提案する。(1) 安全でない世代が部分的に発生しても拒否を促す頑健な拒絶訓練,(2) 有害な知識の未学習。
論文 参考訳(メタデータ) (2025-03-05T18:01:05Z) - Turning Logic Against Itself : Probing Model Defenses Through Contrastive Questions [50.40122190627256]
非倫理的反応を引き起こすために、対照的な推論を利用する新しいジェイルブレイク手法であるPOATEを導入する。
PoATEは意味論的に意図に反し、敵のテンプレートと統合し、有害なアウトプットを驚くほど微妙に操る。
これに対応するために、悪意のある意図と理性を検出するためにクエリを分解して、有害な応答を評価し、拒否するIntent-Aware CoTとReverse Thinking CoTを提案する。
論文 参考訳(メタデータ) (2025-01-03T15:40:03Z) - Defending Large Language Models against Jailbreak Attacks via Semantic
Smoothing [107.97160023681184]
適応型大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
提案するSEMANTICSMOOTHは,与えられた入力プロンプトのセマンティック変換されたコピーの予測を集約するスムージングベースのディフェンスである。
論文 参考訳(メタデータ) (2024-02-25T20:36:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。