論文の概要: Constitutional On-Policy Safe Distillation
- arxiv url: http://arxiv.org/abs/2606.03089v1
- Date: Tue, 02 Jun 2026 03:17:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:04.72525
- Title: Constitutional On-Policy Safe Distillation
- Title(参考訳): 憲法上のオンポリティ・セーフ蒸留
- Authors: Ming Wen, Yuxuan Liu, Kun Yang, Yunhao Feng, Zhuoer Xu, Yuhao Sun, Shiwen Cui, Xiang Zheng, Xingjun Ma, Yu-Gang Jiang,
- Abstract要約: On-policy Self-distillation (OPSD) は、特権情報に条件付けされた教師を用いて、密集したトークンレベルの監視を提供することにより、効果的なポストトレーニングパラダイムとして登場した。
コンスティチューショナル・オン・ポリティシィ・セーフ蒸留(COPSD)を提案し,まずクロスSFTコールドスタートで教師を校正し,次いでコンスティチューショナル・コンスティチューション・オン・ポリティィ蒸留を行う。
- 参考スコア(独自算出の注目度): 64.02536207601112
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: On-policy self-distillation (OPSD) has emerged as an efficient post-training paradigm by using a teacher conditioned on privileged information to provide dense token-level supervision. Prior work has shown that OPSD can collapse in verifiable reasoning tasks, but safety alignment differs in that it is guided by high-level constitutions rather than explicit target answers, making it a natural setting to revisit dense distillation. However, our pilot study show that safety OPSD still suffers from severe collapse: constitutional conditioning contracts the teacher distribution toward short and overly conservative responses, and Reverse KL further amplifies this contraction into reduced expressiveness. We formalize this effect as geometric leakage under safety boundaries in a non-orthogonal semantic space, where safety pressure transfers into the expressiveness dimension. Based on this analysis, we propose Constitutional On-Policy Safe Distillation (COPSD), which first calibrates the teacher through a Cross-SFT cold-start and then performs constitution-conditioned on-policy distillation. Experiments on 12 benchmarks show that COPSD achieves a consistently stronger safety--helpfulness trade-off than baselines while substantially reducing the safety tax on general reasoning ability.
- Abstract(参考訳): On-policy Self-distillation (OPSD) は、特権情報に条件付けされた教師を用いて、密集したトークンレベルの監視を提供することにより、効果的なポストトレーニングパラダイムとして登場した。
以前の研究では、OPSDは検証可能な推論タスクで崩壊する可能性があることが示されているが、安全性の整合性は、明示的な目標回答ではなく、高レベルな構成によって導かれるため、高密度蒸留を再考する自然条件となっている。
コンスティチューション条件付けでは教師の配当を短命かつ過度に保守的な反応に制限し,Reverse KLではこの制約をさらに強化して表現力の低下を図っている。
安全圧力が表現性次元に伝達される非直交意味空間における安全境界の下での幾何学的漏れとしてこの効果を定式化する。
そこで本研究では,まずクロスSFTコールドスタートにより教師を校正し,次いでコンスティチューション条件のオンポリシィ蒸留を行うコンスティチューショナルオンポリシィセーフ蒸留(COPSD)を提案する。
12のベンチマークでの実験では、COPSDはベースラインよりも安定的に安全を保ち、一般的な推論能力に対する安全税を大幅に削減している。
関連論文リスト
- ConsisGuard: Aligning Safety Deliberation with Policy Enforcement in LLM Guardrails [57.25411733152009]
推論に基づくガードレールは、最終的な決定を下す前に明確な合理性を生成することによって安全性のモデレーションを改善する。
モデルは、その推論において有害な意図を認識することができるが、それでも安全なラベルを予測したり、政策を根拠とした正当化なしに安全でない決定を下す。
推論に基づくガードレールのための一貫性を考慮したフレームワークであるConsisGuardを提案する。
論文 参考訳(メタデータ) (2026-05-29T09:42:08Z) - Tailoring Teaching to Aptitude: Direction-Adaptive Self-Distillation for LLM Reasoning [41.384652481442735]
我々は,一様教師模倣からエントロピー制御された指向性監視へと特権的な自己蒸留を再構成するtextbfDirection-Adaptive Self-Distillation (textbfDASD)を提案する。
6つの数学的推論ベンチマークで、DASDは強力なRLVRと自己蒸留ベースラインよりも優れたマクロAvg@16を達成する。
論文 参考訳(メタデータ) (2026-05-21T10:07:46Z) - Reducing the Safety Tax in LLM Safety Alignment with On-Policy Self-Distillation [22.972195366680694]
安全アライメントは、しばしば推論能力の犠牲で有害なクエリに対する堅牢性を改善する。
OPSAと呼ばれる安全アライメントのための自己蒸留法について検討した。
OPSAは、外部の自己蒸留や外部のティーチンガー蒸留よりも安全性の高いトレードオフを実現している。
論文 参考訳(メタデータ) (2026-05-14T03:40:07Z) - Prefix Teach, Suffix Fade: Local Teachability Collapse in Strong-to-Weak On-Policy Distillation [49.117085054884676]
オンライン蒸留は、より強い教師からの強いフィードバックを使って、学生モデルを独自のロールアウトで訓練する。
我々は、この原則を軌跡固有のリリースルールで運用する。
強弱蒸留作業による実験結果から, この放出規則は標準全軌道PDよりも一貫して優れていたことが示唆された。
論文 参考訳(メタデータ) (2026-05-13T15:05:30Z) - Asymmetric On-Policy Distillation: Bridging Exploitation and Imitation at the Token Level [23.59808224440603]
オンライン蒸留(OPD)は、トークンレベルの教師のフィードバックで生徒を自身の軌道で訓練する。
その標準的優位重み付け政策勾配は、高分散更新、ゼロアドバンテージ領域での勾配の消失、補正信号が不十分な場合の探索ボトルネックなどの3つの構造的弱点に悩まされている。
正の強化学習を保ちつつ,非正の負の強化を非正の利得領域における局所的な発散最小化に置き換える非対称オンポリシィ蒸留(AOPD)を提案する。
論文 参考訳(メタデータ) (2026-05-07T15:02:49Z) - DRAFT: Task Decoupled Latent Reasoning for Agent Safety [59.46137757545185]
DRAFT(Task Decoupled Latent Reasoning for Agent Safety)を提案する。
エクストラクターは、完全な軌跡をコンパクトな連続的な潜伏ドラフトに蒸留し、リゾナーはドラフトと元の軌跡に共同で参加して安全性を予測する。
DRAFTの精度は63.27%(LoRA)から91.18%に向上した。
論文 参考訳(メタデータ) (2026-02-11T07:45:14Z) - THINKSAFE: Self-Generated Safety Alignment for Reasoning Models [60.10077024249373]
外部の教師がいなくても安心して安心できるフレームワークであるThinkSafeを提案する。
我々の重要な洞察は、コンプライアンスは安全メカニズムを抑制するが、モデルはしばしば害を特定するために潜伏した知識を保持することである。
DeepSeek-R1-DistillとQwen3の実験では、ThinkSafeは推論能力を維持しながら安全性を大幅に向上している。
論文 参考訳(メタデータ) (2026-01-30T16:31:02Z) - Towards Safety Reasoning in LLMs: AI-agentic Deliberation for Policy-embedded CoT Data Creation [70.62656296780074]
本稿では,新しいデータ生成法であるAIDSAFE(Agenic Iterative Deliberation for Safety Reasoning)を提案する。
AIDSAFEにおけるデータリファインダーの段階は、反復的、冗長的、詐欺的思考を排除し、高品質なアウトプットを保証する。
本評価は, AIDSAFEによるCoTsが, より優れた政策順守と推論品質を実現することを示すものである。
論文 参考訳(メタデータ) (2025-05-27T21:34:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。