論文の概要: Simple Role Assignment is Extraordinarily Effective for Safety Alignment
- arxiv url: http://arxiv.org/abs/2602.00061v1
- Date: Tue, 20 Jan 2026 08:42:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 02:03:42.295232
- Title: Simple Role Assignment is Extraordinarily Effective for Safety Alignment
- Title(参考訳): 簡単な役割割り当ては、安全アライメントに極端に有効である
- Authors: Zhou Ziheng, Jiakun Ding, Zhaowei Zhang, Ruosen Gao, Yingnian Wu, Demetri Terzopoulos, Yipeng Kang, Fangwei Zhong, Junqi Wang,
- Abstract要約: 原則に基づくアライメントは、コンテキストの感度と完全性に欠けることが多い。
社会的役割は暗黙的に値とそれを適用するために必要な認知スキーマの両方を符号化する。
我々は,役割条件付きジェネレータと反復的な役割に基づくリファインメントの批判を特徴とする無訓練パイプラインを導入する。
- 参考スコア(独自算出の注目度): 42.517204704216425
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Principle-based alignment often lacks context sensitivity and completeness. Grounded in Theory of Mind, we propose role conditioning as a compact alternative: social roles (e.g., mother, judge) implicitly encode both values and the cognitive schemas required to apply them. We introduce a training-free pipeline featuring a role-conditioned generator and iterative role-based critics for refinement. Across five model families, our approach consistently outperforms principle-based, Chain-of-Thought (CoT) and other baselines across benchmarks. Notably, it reduces unsafe outputs on the WildJailbreak benchmark from 81.4\% to 3.6\% with DeepSeek-V3. Not only for common safety benchmarks, it consistently applies for agentic safety tasks. These results establish role assignment as a powerful, interpretable paradigm for AI alignment and LLM-as-a-Judge construction.
- Abstract(参考訳): 原則に基づくアライメントは、コンテキストの感度と完全性に欠けることが多い。
社会的役割(例えば、母、裁判官)は、暗黙的に価値とそれらを適用するために必要な認知スキーマの両方を符号化する。
我々は,役割条件付きジェネレータと反復的な役割に基づくリファインメントの批判を特徴とする無訓練パイプラインを導入する。
5つのモデルファミリにまたがって、私たちのアプローチは、原則ベースのChain-of-Thought(CoT)やその他のベンチマークベースラインを一貫して上回ります。
特に、WildJailbreakベンチマークの安全でない出力をDeepSeek-V3で81.4\%から3.6\%に削減する。
一般的な安全ベンチマークだけでなく、エージェント安全タスクにも一貫して適用される。
これらの結果は、AIアライメントとLLM-as-a-Judge構築のための強力な、解釈可能なパラダイムとしての役割割り当てを確立する。
関連論文リスト
- CoRe: Context-Robust Remasking for Diffusion Language Models [51.59514489363897]
推論時間リビジョンのためのトレーニングフリーフレームワークであるContext-Robust Remasking (CoRe)を提案する。
静的トークンの確率を信頼するのではなく、CoReは、ターゲットとなるマスク付きコンテキストの摂動に対する感受性を示すことによって、コンテキスト不安定なトークンを識別する。
LLaDA-8B-Base上で、CoReは推論とコードベンチマークをまたいで一貫した改善を行い、計算マッチングベースラインを上回り、MBPPを最大9.2%改善した。
論文 参考訳(メタデータ) (2026-02-04T00:12:30Z) - Mitigating Safety Tax via Distribution-Grounded Refinement in Large Reasoning Models [63.368505631152594]
安全調整は、大きな推論モデル(LRM)の一般的な推論能力を乱す安全税を発生させる。
LRMの安全アライメントに使われる既存のデータセットは、通常、外部のLRMまたは人間のラベルから安全推論の痕跡と回答を蒸留することによって構築される。
本稿では,DGRと呼ばれる安全アライメントデータセット構築手法を提案する。DGRは,既存のアウト・オブ・ディストリビューション型安全推論データセットを改良し,目標のLLM内部分布に適合させる。
論文 参考訳(メタデータ) (2026-02-02T14:18:48Z) - RealSec-bench: A Benchmark for Evaluating Secure Code Generation in Real-World Repositories [58.32028251925354]
LLM(Large Language Models)は、コード生成において顕著な能力を示しているが、セキュアなコードを生成する能力は依然として重要で、未調査の領域である。
我々はRealSec-benchを紹介します。RealSec-benchは、現実世界の高リスクなJavaリポジトリから慎重に構築されたセキュアなコード生成のための新しいベンチマークです。
論文 参考訳(メタデータ) (2026-01-30T08:29:01Z) - CORE: Full-Path Evaluation of LLM Agents Beyond Final State [2.0391237204597368]
既存のエージェントベンチマークでは、最終状態のバイナリ判断に対する評価を少なくすることが多い。
本稿では,タスクを有効なツール利用経路の集合として符号化する決定論的有限オートマトンに基づくフレームワークを提案する。
CORE(Path Correctness)、Path Correctness(Path Correctness)、Kendall's tau Composite(Kendall's tau Composite)、Prefix Criticality(Prefix Criticality)、Harmful-Call Rate(Harmful-Call Rate)、Efficency(Efficency)の5つのメトリクススイートを紹介します。
論文 参考訳(メタデータ) (2025-09-25T10:49:35Z) - Advancing LLM Safe Alignment with Safety Representation Ranking [21.525021778951313]
モデル自体から隠れ状態を用いて安全な応答を選択するリストワイズランキングフレームワークを提案する。
本手法は、内部モデル状態とリストレベルの監督を直接利用して、微妙な安全信号を捕捉する。
論文 参考訳(メタデータ) (2025-05-21T16:21:29Z) - Retrieval is Not Enough: Enhancing RAG Reasoning through Test-Time Critique and Optimization [58.390885294401066]
Retrieval-augmented Generation (RAG) は知識基底型大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
RAGパイプラインは、モデル推論が得られた証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
批判駆動アライメント(CDA)に基づく新しい反復的枠組みであるAlignRAGを提案する。
AlignRAG-autoは、動的に洗練を終了し、批判的な反復回数を事前に指定する必要がなくなる自律的な変種である。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z) - STAIR: Improving Safety Alignment with Introspective Reasoning [44.780098674618614]
SafeTyアライメントとItrospective Reasoningを統合したフレームワークSTAIRを提案する。
その結果,STAIRは本能的アライメント戦略と比較して,有害なアウトプットを効果的に軽減し,有用性を保っていることがわかった。
テスト時のスケーリングでは、STAIRは一般的なジェイルブレイク攻撃に対して、Claude-3.5に匹敵する安全性能を達成する。
論文 参考訳(メタデータ) (2025-02-04T15:02:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。