Fugu-MT 論文翻訳(概要): Simple Role Assignment is Extraordinarily Effective for Safety Alignment

論文の概要: Simple Role Assignment is Extraordinarily Effective for Safety Alignment

arxiv url: http://arxiv.org/abs/2602.00061v1
Date: Tue, 20 Jan 2026 08:42:44 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-09 02:03:42.295232
Title: Simple Role Assignment is Extraordinarily Effective for Safety Alignment
Title（参考訳）: 簡単な役割割り当ては、安全アライメントに極端に有効である
Authors: Zhou Ziheng, Jiakun Ding, Zhaowei Zhang, Ruosen Gao, Yingnian Wu, Demetri Terzopoulos, Yipeng Kang, Fangwei Zhong, Junqi Wang,
Abstract要約: 原則に基づくアライメントは、コンテキストの感度と完全性に欠けることが多い。社会的役割は暗黙的に値とそれを適用するために必要な認知スキーマの両方を符号化する。我々は,役割条件付きジェネレータと反復的な役割に基づくリファインメントの批判を特徴とする無訓練パイプラインを導入する。
参考スコア（独自算出の注目度）: 42.517204704216425
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Principle-based alignment often lacks context sensitivity and completeness. Grounded in Theory of Mind, we propose role conditioning as a compact alternative: social roles (e.g., mother, judge) implicitly encode both values and the cognitive schemas required to apply them. We introduce a training-free pipeline featuring a role-conditioned generator and iterative role-based critics for refinement. Across five model families, our approach consistently outperforms principle-based, Chain-of-Thought (CoT) and other baselines across benchmarks. Notably, it reduces unsafe outputs on the WildJailbreak benchmark from 81.4\% to 3.6\% with DeepSeek-V3. Not only for common safety benchmarks, it consistently applies for agentic safety tasks. These results establish role assignment as a powerful, interpretable paradigm for AI alignment and LLM-as-a-Judge construction.
Abstract（参考訳）: 原則に基づくアライメントは、コンテキストの感度と完全性に欠けることが多い。社会的役割(例えば、母、裁判官)は、暗黙的に価値とそれらを適用するために必要な認知スキーマの両方を符号化する。我々は,役割条件付きジェネレータと反復的な役割に基づくリファインメントの批判を特徴とする無訓練パイプラインを導入する。 5つのモデルファミリにまたがって、私たちのアプローチは、原則ベースのChain-of-Thought(CoT)やその他のベンチマークベースラインを一貫して上回ります。特に、WildJailbreakベンチマークの安全でない出力をDeepSeek-V3で81.4\%から3.6\%に削減する。一般的な安全ベンチマークだけでなく、エージェント安全タスクにも一貫して適用される。これらの結果は、AIアライメントとLLM-as-a-Judge構築のための強力な、解釈可能なパラダイムとしての役割割り当てを確立する。

関連論文リスト

LaSER: Internalizing Explicit Reasoning into Latent Space for Dense Retrieval [74.72139580745511]
LaSERは、レトリバーの潜在空間に明示的な推論を内部化する、新しい自己蒸留フレームワークである。提案手法は, 明示的なCoTパイプラインの推論深度と, 標準的な高密度検索器の推論効率をうまく組み合わせる。
論文参考訳（メタデータ） (2026-03-02T04:11:18Z)
Open Rubric System: Scaling Reinforcement Learning with Pairwise Adaptive Rubric [10.220923271217632]
スカラー報酬モデルでは、多次元の人間の嗜好を1つの不透明スコアに圧縮する。プラグ・アンド・プレイのルーブリックベースのLLM-as-a-JudgeフレームワークであるOpen System(OpenRS)を紹介する。 OpenRSは明示的なメタルブリックを使用します -- ガバナンスがどのようにインスタンス化され、重み付けされ、強制されるかという、コンスティチューションのような仕様です。
論文参考訳（メタデータ） (2026-02-15T09:39:39Z)
CoRe: Context-Robust Remasking for Diffusion Language Models [51.59514489363897]
推論時間リビジョンのためのトレーニングフリーフレームワークであるContext-Robust Remasking (CoRe)を提案する。静的トークンの確率を信頼するのではなく、CoReは、ターゲットとなるマスク付きコンテキストの摂動に対する感受性を示すことによって、コンテキスト不安定なトークンを識別する。 LLaDA-8B-Base上で、CoReは推論とコードベンチマークをまたいで一貫した改善を行い、計算マッチングベースラインを上回り、MBPPを最大9.2%改善した。
論文参考訳（メタデータ） (2026-02-04T00:12:30Z)
Mitigating Safety Tax via Distribution-Grounded Refinement in Large Reasoning Models [63.368505631152594]
安全調整は、大きな推論モデル(LRM)の一般的な推論能力を乱す安全税を発生させる。 LRMの安全アライメントに使われる既存のデータセットは、通常、外部のLRMまたは人間のラベルから安全推論の痕跡と回答を蒸留することによって構築される。本稿では,DGRと呼ばれる安全アライメントデータセット構築手法を提案する。DGRは,既存のアウト・オブ・ディストリビューション型安全推論データセットを改良し,目標のLLM内部分布に適合させる。
論文参考訳（メタデータ） (2026-02-02T14:18:48Z)
RealSec-bench: A Benchmark for Evaluating Secure Code Generation in Real-World Repositories [58.32028251925354]
LLM(Large Language Models)は、コード生成において顕著な能力を示しているが、セキュアなコードを生成する能力は依然として重要で、未調査の領域である。我々はRealSec-benchを紹介します。RealSec-benchは、現実世界の高リスクなJavaリポジトリから慎重に構築されたセキュアなコード生成のための新しいベンチマークです。
論文参考訳（メタデータ） (2026-01-30T08:29:01Z)
Character-R1: Enhancing Role-Aware Reasoning in Role-Playing Agents via RLVR [67.66592867046229]
character-R1は効果的な役割認識推論のための検証可能な報酬信号を提供するために設計されたフレームワークである。本フレームワークは,認知的フォーカス・リワード(Cognitive Focus Reward),参照ガイド・リワード(Reference-Guided Reward),文字指定リワード正規化( character-Conditioned Reward normalization)の3つのコア設計で構成されている。
論文参考訳（メタデータ） (2026-01-08T05:33:37Z)
The Realignment Problem: When Right becomes Wrong in LLMs [6.8304813545377]
大規模な言語モデルと人間の価値の整合性は、安全なデプロイメントの中心であるが、現在のモデルは、進化する規範やポリシーに追随しない。既存の未学習の手法は、正確なポリシー更新を有効にするのではなく、実用性を損なう鈍い手段として機能する。本稿では,プログラミング政策問題として再認識する原則的アンラーニングの枠組みであるTRACEを紹介する。
論文参考訳（メタデータ） (2025-11-04T14:52:58Z)
CORE: Full-Path Evaluation of LLM Agents Beyond Final State [2.0391237204597368]
既存のエージェントベンチマークでは、最終状態のバイナリ判断に対する評価を少なくすることが多い。本稿では,タスクを有効なツール利用経路の集合として符号化する決定論的有限オートマトンに基づくフレームワークを提案する。 CORE(Path Correctness)、Path Correctness(Path Correctness)、Kendall's tau Composite(Kendall's tau Composite)、Prefix Criticality(Prefix Criticality)、Harmful-Call Rate(Harmful-Call Rate)、Efficency(Efficency)の5つのメトリクススイートを紹介します。
論文参考訳（メタデータ） (2025-09-25T10:49:35Z)
Advancing LLM Safe Alignment with Safety Representation Ranking [21.525021778951313]
モデル自体から隠れ状態を用いて安全な応答を選択するリストワイズランキングフレームワークを提案する。本手法は、内部モデル状態とリストレベルの監督を直接利用して、微妙な安全信号を捕捉する。
論文参考訳（メタデータ） (2025-05-21T16:21:29Z)
Retrieval is Not Enough: Enhancing RAG Reasoning through Test-Time Critique and Optimization [58.390885294401066]
Retrieval-augmented Generation (RAG) は知識基底型大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。 RAGパイプラインは、モデル推論が得られた証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。批判駆動アライメント(CDA)に基づく新しい反復的枠組みであるAlignRAGを提案する。 AlignRAG-autoは、動的に洗練を終了し、批判的な反復回数を事前に指定する必要がなくなる自律的な変種である。
論文参考訳（メタデータ） (2025-04-21T04:56:47Z)
STAIR: Improving Safety Alignment with Introspective Reasoning [44.780098674618614]
SafeTyアライメントとItrospective Reasoningを統合したフレームワークSTAIRを提案する。その結果,STAIRは本能的アライメント戦略と比較して,有害なアウトプットを効果的に軽減し,有用性を保っていることがわかった。テスト時のスケーリングでは、STAIRは一般的なジェイルブレイク攻撃に対して、Claude-3.5に匹敵する安全性能を達成する。
論文参考訳（メタデータ） (2025-02-04T15:02:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。