論文の概要: Beyond Compromise: Pareto-Lenient Consensus for Efficient Multi-Preference LLM Alignment
- arxiv url: http://arxiv.org/abs/2604.05965v1
- Date: Tue, 07 Apr 2026 14:58:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-08 17:42:09.89832
- Title: Beyond Compromise: Pareto-Lenient Consensus for Efficient Multi-Preference LLM Alignment
- Title(参考訳): 妥協を超えて: 効率の良いマルチパラメータLLMアライメントのためのパレートLenient Consensus
- Authors: Renxuan Tan, Rongpeng Li, Zhifeng Zhao, Honggang Zhang,
- Abstract要約: 動的ネゴシエーションプロセスとしてアライメントを再定義するゲーム理論フレームワークを提案する。
厳密なアプローチとは異なり、PLCは局所的な劣化を動的に許容するコンセンサス駆動の lenient rectification を導入する。
この研究は、MPAの有望な道として交渉主導型アライメントの可能性を強調している。
- 参考スコア(独自算出の注目度): 12.219758006484689
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transcending the single-preference paradigm, aligning LLMs with diverse human values is pivotal for robust deployment. Contemporary Multi-Objective Preference Alignment (MPA) approaches predominantly rely on static linear scalarization or rigid gradient projection to navigate these trade-offs. However, by enforcing strict conflict avoidance or simultaneous descent, these paradigms often prematurely converge to local stationary points. While mathematically stable, these points represent a conservative compromise where the model sacrifices potential global Pareto improvements to avoid transient local trade-offs. To break this deadlock, we propose Pareto-Lenient Consensus (PLC), a game-theoretic framework that reimagines alignment as a dynamic negotiation process. Unlike rigid approaches, PLC introduces consensus-driven lenient gradient rectification, which dynamically tolerates local degradation provided there is a sufficient dominant coalition surplus, thereby empowering the optimization trajectory to escape local suboptimal equilibrium and explore the distal Pareto-optimal frontier. Theoretical analysis validates PLC can facilitate stalemate escape and asymptotically converge to a Pareto consensus equilibrium. Moreover, extensive experiments show that PLC surpasses baselines in both fixed-preference alignment and global Pareto frontier quality. This work highlights the potential of negotiation-driven alignment as a promising avenue for MPA. Our codes are available at https://anonymous.4open.science/r/aaa-6BB8.
- Abstract(参考訳): 単一参照パラダイムを超越して、LLMをさまざまな人的価値と整合させることが、ロバストなデプロイメントにおいて重要なのです。
現代のMulti-Objective Preference Alignment (MPA) アプローチは、これらのトレードオフをナビゲートするために、静的な線形スカラー化や厳密な勾配投影に依存している。
しかし、厳密な衝突回避や同時降下を強制することにより、これらのパラダイムは早期に局所的な定常点に収束することが多い。
数学的には安定しているが、これらの点は、過渡的な局所的なトレードオフを避けるために、モデルが世界的なパレートの改善を犠牲にする保守的な妥協を表している。
このデッドロックを破るために,動的ネゴシエーションプロセスとしてアライメントを再定義するゲーム理論フレームワークであるPareto-Lenient Consensus (PLC)を提案する。
厳密なアプローチとは異なり、PLCは、十分な支配的な連立余剰が存在する場合、局所的な劣化を動的に許容し、最適化軌道が局所的最適均衡から逃れ、遠位パレート・最適フロンティアを探索する。
理論的解析により、PLCはスタレマトエスケープを促進し、漸近的にパレートのコンセンサス均衡に収束する。
さらに、広範な実験により、PLCは固定参照アライメントとグローバルパレートフロンティア品質の両方において、ベースラインを超越していることが示されている。
この研究は、MPAの有望な道として交渉主導型アライメントの可能性を強調している。
私たちのコードはhttps://anonymous.4open.science/r/aa-6BB8.comで公開されています。
関連論文リスト
- Stabilizing Policy Optimization via Logits Convexity [59.242732612484474]
モデルロジットに対する教師付き微調整損失の凸性は、安定したトレーニングを可能にする上で重要な役割を担っていることを示す。
そこで本研究では,ロジッツ・コンベックス最適化(Logits Convex Optimization, LCO)を提案する。
論文 参考訳(メタデータ) (2026-03-01T07:40:12Z) - Learning Where It Matters: Geometric Anchoring for Robust Preference Alignment [6.428964221372943]
本稿では,固定参照を動的な幾何学的アンカーに置き換えたGeometric Anchor Preference Optimization (GAPO)を提案する。
GAPOは標準のLCMアライメントと推論ベンチマークのパフォーマンスをマッチングまたは改善しながら、ロバストさを一貫して改善する。
論文 参考訳(メタデータ) (2026-02-04T00:40:21Z) - Reward-free Alignment for Conflicting Objectives [12.275610380458119]
我々は、競合対象(RACO)に対するリワードフリーアライメントフレームワークを提案する。
RACOはペアワイズ選好データを直接利用し、競合-逆勾配勾配の新たなクリッピング変種を通じて勾配衝突を解消する。
ユーザが指定した目標重みを尊重するパレート臨界点に対する収束保証を行い、クリッピングが2目的設定における収束率を厳密に改善できることを示す。
論文 参考訳(メタデータ) (2026-02-02T18:59:52Z) - Why Steering Works: Toward a Unified View of Language Model Parameter Dynamics [81.80010043113445]
局所的な微調整、LoRAに基づく適応、およびアクティベーションに基づく介入を分離して研究する。
制御信号によって誘導される動的ウェイト更新として、これらの介入をフレーム化する統一的な視点を示す。
提案手法では,選択と効用との間に一貫したトレードオフが観測される。
論文 参考訳(メタデータ) (2026-02-02T17:04:36Z) - MAESTRO: Meta-learning Adaptive Estimation of Scalarization Trade-offs for Reward Optimization [56.074760766965085]
大規模言語モデル(LLM)の整合性のための効率的なパラダイムとしてグループ相対政策最適化が登場している。
我々は,報酬スカラー化を動的潜在ポリシーとして扱い,モデルの終端隠蔽状態を意味的ボトルネックとして活用するMAESTROを提案する。
本稿では,軽量コンダクタネットワークがメタリワード信号としてグループ相対的優位性を生かしてポリシと共進化する,双方向最適化フレームワークにおけるコンテキスト的帯域幅問題としてこれを定式化する。
論文 参考訳(メタデータ) (2026-01-12T05:02:48Z) - The Realignment Problem: When Right becomes Wrong in LLMs [6.8304813545377]
大規模な言語モデルと人間の価値の整合性は、安全なデプロイメントの中心であるが、現在のモデルは、進化する規範やポリシーに追随しない。
既存の未学習の手法は、正確なポリシー更新を有効にするのではなく、実用性を損なう鈍い手段として機能する。
本稿では,プログラミング政策問題として再認識する原則的アンラーニングの枠組みであるTRACEを紹介する。
論文 参考訳(メタデータ) (2025-11-04T14:52:58Z) - OrthAlign: Orthogonal Subspace Decomposition for Non-Interfering Multi-Objective Alignment [61.02595549125661]
大規模言語モデル(LLM)のアライメントは、複数の人間の好みに対処する際に重要なジレンマに直面します。
我々は、優先順位調整における勾配レベルの対立を解決する革新的なアプローチであるOrthAlignを提案する。
我々はOrthAlignが多重目的アライメント後の34.61%から50.89%の最大単一参照改善を実現していることを示す。
論文 参考訳(メタデータ) (2025-09-29T11:16:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。