論文の概要: MGDA-Decoupled: Geometry-Aware Multi-Objective Optimisation for DPO-based LLM Alignment
- arxiv url: http://arxiv.org/abs/2604.20685v1
- Date: Wed, 22 Apr 2026 15:33:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-23 15:36:11.197819
- Title: MGDA-Decoupled: Geometry-Aware Multi-Objective Optimisation for DPO-based LLM Alignment
- Title(参考訳): MGDA-Decoupled:DPOに基づくLLMアライメントのための幾何学的多目的最適化
- Authors: Andor Vári-Kakas, Ji Won Park, Natasa Tagasovska,
- Abstract要約: 幾何学に基づく多目的最適化アルゴリズムMGDA-Decoupledを導入する。
それぞれの目的の収束ダイナミクスを明示的に説明しながら、共通の降下方向を見つける。
UltraFeedbackデータセットの実験では、MGDA-Decoupledがゴールデンレスポンスに対して最高勝利率を達成した。
- 参考スコア(独自算出の注目度): 6.301256425456381
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Aligning large language models (LLMs) to desirable human values requires balancing multiple, potentially conflicting objectives such as helpfulness, truthfulness, and harmlessness, which presents a multi-objective optimisation challenge. Most alignment pipelines rely on a fixed scalarisation of these objectives, which can introduce procedural unfairness by systematically under-weighting harder-to-optimise or minority objectives. To promote more equitable trade-offs, we introduce MGDA-Decoupled, a geometry-based multi-objective optimisation algorithm that finds a shared descent direction while explicitly accounting for each objective's convergence dynamics. In contrast to prior methods that depend on reinforcement learning (e.g., GAPO) or explicit reward models (e.g., MODPO), our approach operates entirely within the lightweight Direct Preference Optimisation (DPO) paradigm. Experiments on the UltraFeedback dataset show that geometry-aware methods -- and MGDA-Decoupled in particular -- achieve the highest win rates against golden responses, both overall and per objective.
- Abstract(参考訳): 大きな言語モデル(LLM)を望ましい人的価値に適応させるには、多目的最適化の課題を示す、有益性、真実性、無害性といった、競合する可能性のある複数の目標のバランスが必要である。
ほとんどのアライメントパイプラインは、これらの目的の固定されたスカラー化に依存しており、システマティックに過度に過度に過度に最適化する、あるいは少数な目的を導入することによって、手続き上の不公平をもたらす可能性がある。
より公平なトレードオフを促進するため、MGDA-Decoupledという幾何に基づく多目的最適化アルゴリズムを導入し、各対象の収束ダイナミクスを明示的に考慮しながら、共有降下方向を求める。
強化学習(GAPOなど)や明示的な報酬モデル(MODPOなど)に依存する従来の手法とは対照的に,本手法は軽量な直接選好最適化(DPO)パラダイムで完全に動作する。
UltraFeedbackデータセットの実験では、ジオメトリ対応のメソッド -- 特にMGDA-Decoupled -- が、全体と目的の両方において、ゴールデンレスポンスに対して最高の勝利率を達成したことが示されている。
関連論文リスト
- MAESTRO: Meta-learning Adaptive Estimation of Scalarization Trade-offs for Reward Optimization [56.074760766965085]
大規模言語モデル(LLM)の整合性のための効率的なパラダイムとしてグループ相対政策最適化が登場している。
我々は,報酬スカラー化を動的潜在ポリシーとして扱い,モデルの終端隠蔽状態を意味的ボトルネックとして活用するMAESTROを提案する。
本稿では,軽量コンダクタネットワークがメタリワード信号としてグループ相対的優位性を生かしてポリシと共進化する,双方向最適化フレームワークにおけるコンテキスト的帯域幅問題としてこれを定式化する。
論文 参考訳(メタデータ) (2026-01-12T05:02:48Z) - Gradient-Adaptive Policy Optimization: Towards Multi-Objective Alignment of Large Language Models [19.559468441956714]
Reinforcement Learning from Human Feedbackは、大きな言語モデルと人間の好みを整合させる強力なテクニックとして登場した。
人的価値アライメントは多目的最適化問題であり、潜在的な競合する対象の集合を最大化することを目的としている。
我々は,LLMを様々な好み分布に整合させるために,多段降下を用いた新しい微調整パラダイムであるGAPOを紹介した。
論文 参考訳(メタデータ) (2025-07-02T17:25:26Z) - Multi-Objective Preference Optimization: Improving Human Alignment of Generative Models [15.799929216215672]
制約付きKL正規化最適化としてアライメントをフレーム化するMOPOアルゴリズムを提案する。
以前の作業とは異なり、MOPOはペアワイズ好みのデータを直接操作し、ポイントワイズ報酬の仮定を必要とせず、プロンプトコンテキストエンジニアリングを避ける。
論文 参考訳(メタデータ) (2025-05-16T05:58:26Z) - Controllable Preference Optimization: Toward Controllable Multi-Objective Alignment [103.12563033438715]
人工知能におけるアライメントは、モデル応答と人間の好みと値の一貫性を追求する。
既存のアライメント技術は、主に一方向であり、様々な目的に対して、最適以下のトレードオフと柔軟性の低下につながる。
制御可能な選好最適化(CPO)を導入し、異なる目的に対する選好スコアを明確に指定する。
論文 参考訳(メタデータ) (2024-02-29T12:12:30Z) - Beyond One-Preference-Fits-All Alignment: Multi-Objective Direct Preference Optimization [76.09576643028362]
複数のアライメント目的に対してMODPO(Multi-Objective Direct Preference Optimization)を提案する。
MODPOは、言語モデリングを直接報酬モデルに折り畳み、暗黙の集団報酬モデルとして言語モデルを訓練する。
理論的には MORLHF と同じ最適解が得られるが、実質的にはより安定で効率的である。
論文 参考訳(メタデータ) (2023-10-05T17:35:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。