論文の概要: Towards Context-Invariant Safety Alignment for Large Language Models
- arxiv url: http://arxiv.org/abs/2605.20994v1
- Date: Wed, 20 May 2026 10:33:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.621092
- Title: Towards Context-Invariant Safety Alignment for Large Language Models
- Title(参考訳): 大規模言語モデルのための文脈不変型安全アライメントを目指して
- Authors: Yixu Wang, Yang Yao, Xin Wang, Yifeng Gao, Yan Teng, Xingjun Ma, Yingchun Wang,
- Abstract要約: 我々は,検証可能なプロンプトをアンカーとして扱うアンカー不変性正規化(AIR)を導入し,アンカー性能に対するオープンエンド変種のみを正規化するために,停止段階のターゲットを用いる。
AIRは、流通グループの精度を12.71%向上し、流通の一貫性を33.49%向上させ、敵のフレーミングに対する安全性の制約を堅牢にする。
- 参考スコア(独自算出の注目度): 37.23800025875439
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Preference-based post-training aligns LLMs with human intent, yet safety behavior often remains brittle. A model may refuse a harmful request in a standard prompt but comply when the same intent is wrapped in adversarial wording. We suggest that robust safety requires context-invariant alignment, where behavior depends on the underlying intent rather than surface form. Enforcing invariance is difficult in alignment because not all training signals are equally trustworthy; for some prompt variants we can obtain verifiable feedback (e.g., multiple-choice), while for open-ended variants we typically rely on noisy, gameable reward proxies (e.g., learned judges). As a result, standard symmetric invariance regularizers can reduce cross-context discrepancies by lowering performance on reliable variants instead of improving open-ended robustness. To address this, we introduce Anchor Invariance Regularization (AIR), which treats verifiable prompts as anchors and uses a stop-gradient target to regularize only the open-ended variants toward the anchor performance. AIR is implemented as a plug-in auxiliary loss and combined with group-based preference optimization (e.g., GRPO) via heterogeneous prompt grouping. Across Safety, Moral Reasoning, and Math, AIR improves context invariance, boosting in-distribution group accuracy by 12.71% and out-of-distribution consistency by 33.49%, making safety constraints robust to adversarial framings.
- Abstract(参考訳): 嗜好に基づくポストトレーニングは、LLMを人間の意図と一致させるが、安全行動は不安定であることが多い。
モデルは、標準のプロンプトにおいて有害な要求を拒否するが、同じ意図が敵の言葉でラップされた場合に従う。
我々は、ロバスト安全性には文脈不変のアライメントが必要であることを示唆する。
すべてのトレーニング信号が同等に信頼できるわけではないため、非分散を強制することは困難である。いくつかの迅速な変種では、検証可能なフィードバック(例:複数選択)を得ることができ、一方、オープンな変種では、通常、ノイズがあり、ゲーム可能な報奨プロキシ(例:学習した判断)に頼っている。
その結果、標準対称不変量正規化器は、オープン・エンド・ロバスト性を改善するのではなく、信頼性のある変種の性能を低下させることで、コンテキスト横断の相違を低減することができる。
これを解決するために、検証可能なプロンプトをアンカーとして扱うAnchor Invariance Regularization (AIR)を導入する。
AIRはプラグイン補助損失として実装され、不均一なプロンプトグルーピングを介してグループベースの選好最適化(例えばGRPO)と組み合わせられる。
安全、道徳的推論、数学において、AIRは文脈不変性を改善し、分配群精度を12.71%向上し、配布外一貫性を33.49%向上させ、敵のフレーミングに対して安全上の制約を堅牢にする。
関連論文リスト
- Too Correct to Learn: Reinforcement Learning on Saturated Reasoning Data [55.84428098924793]
構造保存探索を行うためのパラメータ自由復号法である Constrained Uniform Top-K Smpling (CUTS) を提案する。
グループ内の利点分散を増幅するために、エクスプロイトと探索的なロールアウトを相乗化するためのトレーニングフレームワークであるMixed-CUTSに統合する。
特にMixed-CUTSは、AIME25ベンチマークのPass@1の精度を標準のGRPOよりも15.1%向上している。
論文 参考訳(メタデータ) (2026-04-20T16:43:28Z) - Beyond Corner Patches: Semantics-Aware Backdoor Attack in Federated Learning [6.76324539337304]
フェデレートラーニング(FL)に対するバックドア攻撃は、多くの場合、合成コーナーパッチやアウト・オブ・ディストリビューションパターンで評価される。
フェデレートされた環境での学習を支援するセマンティックス対応バックドアであるSABLEを提案する。
我々のセマンティクス駆動トリガは、良識テスト精度を維持しながら高い目標攻撃成功率を達成する。
論文 参考訳(メタデータ) (2026-03-31T06:48:25Z) - Improving Search Agent with One Line of Code [68.58667107354253]
ツールベースのエージェント強化学習(TARL)は,検索エージェントが外部ツールと対話できるようにトレーニングするための,有望なパラダイムとして登場した。
textbfSearch textbfAgent textbfPolicy textbfOptimization (textbfSAPO)を提案する。
論文 参考訳(メタデータ) (2026-03-10T04:07:39Z) - DARC: Disagreement-Aware Alignment via Risk-Constrained Decoding [59.16244104797919]
本稿では,リスク制約付き復号法(DARC)*による分散アライメント(Disagreement-Aware Alignment)を提案する。
DARCは応答選択を、分布的に堅牢で、リスクに敏感な意思決定として捉えている。
アライメントベンチマークの実験では、DARCは競合平均品質を維持しながら、不一致と尾のリスクを低減する。
論文 参考訳(メタデータ) (2026-03-09T09:21:29Z) - Learning Where It Matters: Geometric Anchoring for Robust Preference Alignment [6.428964221372943]
本稿では,固定参照を動的な幾何学的アンカーに置き換えたGeometric Anchor Preference Optimization (GAPO)を提案する。
GAPOは標準のLCMアライメントと推論ベンチマークのパフォーマンスをマッチングまたは改善しながら、ロバストさを一貫して改善する。
論文 参考訳(メタデータ) (2026-02-04T00:40:21Z) - CORE: Context-Robust Remasking for Diffusion Language Models [51.59514489363897]
我々は、推論時リビジョンのためのトレーニング不要フレームワークであるContext-Robust Remasking (CORE)を提案する。
静的トークンの確率を信頼するのではなく、COREは、ターゲットとなるマスク付きコンテキストの摂動に対する感受性を示すことによって、コンテキスト不安定なトークンを識別する。
LLaDA-8B-Baseでは、COREは推論とコードベンチマークの間で一貫した改善を行い、計算に適合したベースラインを上回り、MBPPを最大9.2%改善した。
論文 参考訳(メタデータ) (2026-02-04T00:12:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。