論文の概要: Steering Frozen LLMs: Adaptive Social Alignment via Online Prompt Routing
- arxiv url: http://arxiv.org/abs/2603.15647v1
- Date: Wed, 04 Mar 2026 08:00:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:42.338236
- Title: Steering Frozen LLMs: Adaptive Social Alignment via Online Prompt Routing
- Title(参考訳): Steering Frozen LLMs: オンラインプロンプトルーティングによる適応型ソーシャルアライメント
- Authors: Zeyu Zhang, Xiangxiang Dai, Ziyi Han, Xutong Liu, John C. S. Lui,
- Abstract要約: 本稿では,システムプロンプトルーティングによる適応型社会アライメントのための統合フレームワークであるConsensus Clustering LinUCB Bandit(CCLUB)を紹介する。
CCLUBは保守的なコンセンサスクラスタリング機構を採用しており、セマンティックに近づいたがリスク分散したコンテキストにおける安全でない一般化を効果的に防いでいる。
理論的解析により,CCLUBのほぼ最適性能を示すサブ線形後悔保証が得られる。
- 参考スコア(独自算出の注目度): 37.86964394689924
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are typically governed by post-training alignment (e.g., RLHF or DPO), which yields a largely static policy during deployment and inference. However, real-world safety is a full-lifecycle problem: static defenses degrade against evolving jailbreak behaviors, and fixed weights cannot adapt to pluralistic, time-varying safety norms. This motivates inference-time governance that steers behavior without costly retraining. To address this, we introduce the Consensus Clustering LinUCB Bandit (CCLUB), a unified framework for adaptive social alignment via system-prompt routing. CCLUB employs a conservative consensus clustering mechanism: it pools data only within the intersection of utility and safety similarity graphs, effectively preventing unsafe generalization across semantically proximal but risk-divergent contexts. Our theoretical analysis yields a sublinear regret guarantee, demonstrating near-optimal performance of CCLUB. Extensive experiments validate that CCLUB outperforms strong baselines, achieving a 10.98% improvement in cumulative reward and a 14.42% reduction in the average suboptimality gap.
- Abstract(参考訳): 大規模言語モデル(LLM)は通常、トレーニング後のアライメント(例えばRLHFやDPO)によって管理される。
しかし、現実の安全性はフルライフサイクルの問題であり、静的な防御は進化するジェイルブレイクの行動に対して低下し、固定ウェイトは多元的かつ時間的に変化する安全基準に適応できない。
これは、コストのかかる再トレーニングなしに振舞う推論時のガバナンスを動機付けます。
そこで本研究では,システムプロンプトルーティングによる適応型社会アライメントのための統合フレームワークであるConsensus Clustering LinUCB Bandit (CCLUB)を紹介する。
CCLUBには保守的なコンセンサスクラスタリング機構があり、ユーティリティグラフと安全類似性グラフの交差点でのみデータをプールし、セマンティックに近づいたがリスク分散したコンテキスト間での安全でない一般化を効果的に防いでいる。
理論的解析により,CCLUBのほぼ最適性能を示すサブ線形後悔保証が得られる。
大規模な実験により、CCLUBは強いベースラインを上回り、累積報酬が10.98%向上し、平均的な準最適ギャップが14.42%減少した。
関連論文リスト
- Improving Search Agent with One Line of Code [68.58667107354253]
ツールベースのエージェント強化学習(TARL)は,検索エージェントが外部ツールと対話できるようにトレーニングするための,有望なパラダイムとして登場した。
textbfSearch textbfAgent textbfPolicy textbfOptimization (textbfSAPO)を提案する。
論文 参考訳(メタデータ) (2026-03-10T04:07:39Z) - DARC: Disagreement-Aware Alignment via Risk-Constrained Decoding [59.16244104797919]
本稿では,リスク制約付き復号法(DARC)*による分散アライメント(Disagreement-Aware Alignment)を提案する。
DARCは応答選択を、分布的に堅牢で、リスクに敏感な意思決定として捉えている。
アライメントベンチマークの実験では、DARCは競合平均品質を維持しながら、不一致と尾のリスクを低減する。
論文 参考訳(メタデータ) (2026-03-09T09:21:29Z) - Unifying Stable Optimization and Reference Regularization in RLHF [64.16830602324345]
本稿では、報酬ハッキングの防止と安定したポリシー更新の維持を目標とする統一正規化手法を提案する。
我々の単純で原則化されたアライメント目的は、監督された微調整の損失を軽減し、優れたトレードオフをもたらし、アライメント結果と実装の複雑さの両方を明らかに改善する。
論文 参考訳(メタデータ) (2026-02-12T03:31:19Z) - Robust Policy Optimization to Prevent Catastrophic Forgetting [29.514746370429965]
大規模言語モデルは、多段階のポストトレーニングを通じて一般的に訓練される。
小さなダウンストリーム更新は、学習済みの振る舞いを損なう可能性がある。
このことは、標準RLHFの目標は将来の適応に対する堅牢性を保証するものではないことを示唆している。
論文 参考訳(メタデータ) (2026-02-09T15:50:05Z) - Safeguarding LLM Fine-tuning via Push-Pull Distributional Alignment [45.772620696660034]
安全最適輸送(SOT)は、インスタンスレベルのフィルタリング課題から最適輸送(OT)に基づく分散レベルのアライメントタスクへ安全な微調整を再構成する新しいフレームワークである。
SOTは、下流の分布を信頼された安全なアンカーへ積極的に引き寄せ、同時に一般的な有害な参照から引き離すことで、サンプルの重要性を優先する。
さまざまなモデルファミリやドメインにわたる実験により、SOTは、競争力のある下流のパフォーマンスを維持しながら、モデルの安全性を大幅に向上することを示した。
論文 参考訳(メタデータ) (2026-01-12T04:48:02Z) - GRPO-Guard: Mitigating Implicit Over-Optimization in Flow Matching via Regulated Clipping [63.33669214116784]
GRPO-Guardは、既存のGRPOフレームワークのシンプルで効果的な拡張である。
PPOクリッピングが有害な更新を適切に制限することを保証するため、バランスとステップ一貫性の重要度を回復する。
重いKL正則化に頼ることなく、暗黙の過最適化を実質的に緩和する。
論文 参考訳(メタデータ) (2025-10-25T14:51:17Z) - ADARL: Adaptive Low-Rank Structures for Robust Policy Learning under Uncertainty [28.291179179647795]
我々は、ロバスト性を改善する二段階最適化フレームワークであるtextbfAdaptive Rank Representation (AdaRL) を提案する。
下位レベルでは、AdaRLは、センチュロイドモデルの周りにあるワッサーシュタイン球からサンプリングされた力学を用いて、固定ランク制約の下でポリシー最適化を行う。
上層では、偏微分トレードオフのバランスをとるためにランクを適応的に調整し、ポリシーパラメータを低階多様体に投影する。
論文 参考訳(メタデータ) (2025-10-13T20:05:34Z) - SoNIC: Safe Social Navigation with Adaptive Conformal Inference and Constrained Reinforcement Learning [26.554847852013737]
SoNICは適応型共形推論と制約付き強化学習を統合する最初のアルゴリズムである。
本手法は,従来の最先端RL法よりも11.67%高い96.93%の成功率を達成する。
実験により,疎密な群集と密集した群集の両方と相互作用して,堅牢で社会的に礼儀正しく意思決定できることを示した。
論文 参考訳(メタデータ) (2024-07-24T17:57:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。