論文の概要: Reasoning over Precedents Alongside Statutes: Case-Augmented Deliberative Alignment for LLM Safety
- arxiv url: http://arxiv.org/abs/2601.08000v1
- Date: Mon, 12 Jan 2026 21:08:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:18.947779
- Title: Reasoning over Precedents Alongside Statutes: Case-Augmented Deliberative Alignment for LLM Safety
- Title(参考訳): 法令に沿う先例に関する考察: LLM の安全のための事例補足的アライメント
- Authors: Can Jin, Rui Wu, Tong Che, Qixin Zhang, Hongwu Peng, Jiahui Zhao, Zhenting Wang, Wenqi Wei, Ligong Han, Zhao Zhang, Yuan Cao, Ruixiang Tang, Dimitris N. Metaxas,
- Abstract要約: 本研究は, 広範囲な安全コードを明確に指定することによる影響を, 図示的事例を通して示すことよりも評価する。
明示的なコードを参照することで、無害性が向上し、系統的に有用性が低下することがわかった。
自己生成型安全推論チェーンの強化学習を利用したLLMのケース拡張型検討アライメント手法であるCADAを提案する。
- 参考スコア(独自算出の注目度): 59.01189713115365
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Ensuring that Large Language Models (LLMs) adhere to safety principles without refusing benign requests remains a significant challenge. While OpenAI introduces deliberative alignment (DA) to enhance the safety of its o-series models through reasoning over detailed ``code-like'' safety rules, the effectiveness of this approach in open-source LLMs, which typically lack advanced reasoning capabilities, is understudied. In this work, we systematically evaluate the impact of explicitly specifying extensive safety codes versus demonstrating them through illustrative cases. We find that referencing explicit codes inconsistently improves harmlessness and systematically degrades helpfulness, whereas training on case-augmented simple codes yields more robust and generalized safety behaviors. By guiding LLMs with case-augmented reasoning instead of extensive code-like safety rules, we avoid rigid adherence to narrowly enumerated rules and enable broader adaptability. Building on these insights, we propose CADA, a case-augmented deliberative alignment method for LLMs utilizing reinforcement learning on self-generated safety reasoning chains. CADA effectively enhances harmlessness, improves robustness against attacks, and reduces over-refusal while preserving utility across diverse benchmarks, offering a practical alternative to rule-only DA for improving safety while maintaining helpfulness.
- Abstract(参考訳): 良心的な要求を拒絶することなく、LLM(Large Language Models)が安全原則に準拠していることを保証することは、依然として大きな課題である。
OpenAIは、‘コードライク’の安全性ルールの詳細な推論を通じて、Oシリーズモデルの安全性を高めるために、熟考的アライメント(DA)を導入している。
本研究は, 広範囲な安全コードを明確に指定することによる影響を, 実例を通して実証することよりも, 体系的に評価するものである。
明示的なコードを参照することは、無害性を改善し、体系的に有用性を低下させるのに対して、ケース拡張された単純なコードのトレーニングは、より堅牢で、より一般化された安全行動をもたらす。
コードライクな安全ルールではなく,ケース拡張推論でLLMを導くことで,狭義に列挙されたルールへの厳密な固執を回避し,より広範な適応性を実現する。
これらの知見に基づいて, 自己生成型安全推論チェーンの強化学習を利用したLLMのケース拡張型検討アライメント手法であるCADAを提案する。
CADAは、無害性を効果的に向上し、攻撃に対する堅牢性を改善し、様々なベンチマークにまたがって実用性を維持しながら過剰な拒絶を減らす。
関連論文リスト
- AlphaAlign: Incentivizing Safety Alignment with Extremely Simplified Reinforcement Learning [21.399086197886202]
大規模言語モデル(LLM)は、膨大な事前学習データから潜伏した安全性の理解を持っている。
安全報酬を検証可能な純粋強化学習フレームワークである textbfAlphaAlign を提案する。
これにより、モデルは、監督された安全固有の推論データに依存することなく、積極的に安全推論機能を開発することができる。
論文 参考訳(メタデータ) (2025-07-20T14:47:03Z) - Context Reasoner: Incentivizing Reasoning Capability for Contextualized Privacy and Safety Compliance via Reinforcement Learning [53.92712851223158]
安全とプライバシの問題を文脈整合性(CI)理論に従って文脈整合性問題に定式化する。
CIフレームワークの下では、当社のモデルを3つの重要な規制基準 – EU AI ActとHIPAA – に整合させています。
我々は、安全・プライバシー基準の遵守を高めつつ、文脈推論能力を高めるためにルールベースの報酬を持つ強化学習(RL)を採用している。
論文 参考訳(メタデータ) (2025-05-20T16:40:09Z) - SAFER: Advancing Safety Alignment via Efficient Ex-Ante Reasoning [51.78514648677898]
我々は,eFficient Ex-Ante Reasoningによる安全アライメントの枠組みであるSAFERを提案する。
提案手法は,初期評価,ルール検証,経路校正などを通じて,構造化されたex-Ante推論をインスタンス化する。
複数のオープンソース LLM の実験により,SAFER は有用性と応答効率を保ちながら安全性を著しく向上することが示された。
論文 参考訳(メタデータ) (2025-04-03T16:07:38Z) - Safety is Not Only About Refusal: Reasoning-Enhanced Fine-tuning for Interpretable LLM Safety [41.32331563680919]
大きな言語モデル(LLM)は、従来の安全アライメントの弱点を利用するジェイルブレイク攻撃に対して脆弱である。
解釈可能なLLM安全性のための推論強化ファインタニング(Rational)を提案する。
合理的列車は、応答前に明確な安全な推論を行うようにモデル化する。
論文 参考訳(メタデータ) (2025-03-06T22:47:45Z) - Deliberative Alignment: Reasoning Enables Safer Language Models [64.60765108418062]
モデルセーフティ仕様を教える新しいパラダイムであるDeliberative Alignmentを紹介します。
このアプローチを使ってOpenAIのoシリーズモデルを整列させ、人書きのチェーンや回答を必要とせず、OpenAIの安全ポリシーに極めて正確な順守を実現しました。
論文 参考訳(メタデータ) (2024-12-20T21:00:11Z) - The Art of Defending: A Systematic Evaluation and Analysis of LLM
Defense Strategies on Safety and Over-Defensiveness [56.174255970895466]
大規模言語モデル(LLM)は、自然言語処理アプリケーションにおいて、ますます重要な役割を担っている。
本稿では,SODE(Safety and Over-Defensiveness Evaluation)ベンチマークを提案する。
論文 参考訳(メタデータ) (2023-12-30T17:37:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。