論文の概要: Mix- and MoE-DPO: A Variational Inference Approach to Direct Preference Optimization
- arxiv url: http://arxiv.org/abs/2510.08256v1
- Date: Thu, 09 Oct 2025 14:15:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:15.11959
- Title: Mix- and MoE-DPO: A Variational Inference Approach to Direct Preference Optimization
- Title(参考訳): Mix- and MoE-DPO: 直接選好最適化のための変分推論アプローチ
- Authors: Jason Bohne, Pawel Polak, David Rosenberg, Brian Bloniarz, Gary Kazantsev,
- Abstract要約: ソフトミックスモデルとMix-of-expertの両方でDPOを拡張するフレームワークであるMix-とMoE-DPOを提案する。
当社のフレームワークは、専門家固有のポリシーヘッドを備えた共有ベースアーキテクチャと、完全に独立したエキスパートモデルの両方をサポートします。
様々なモデルサイズとマルチパラメータデータセットに対するアプローチを検証する。
- 参考スコア(独自算出の注目度): 2.1487222438373674
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Direct Preference Optimization (DPO) has recently emerged as a simple and effective alternative to reinforcement learning from human feedback (RLHF) for aligning large language models (LLMs) with user preferences. However, existing DPO formulations rely on a single monolithic model, which limits their expressivity in multi-task settings and their adaptability to heterogeneous or diverse preference distributions. In this work, we propose Mix- and MoE-DPO, a framework that extends DPO with both soft mixture models and mixture-of-experts (MoE) architectures, using a stochastic variational inference approach. Our method introduces a latent-variable model over expert assignments and optimizes a variational evidence lower bound (ELBO), enabling stable and efficient learning of specialized expert policies from preference data. Mix- and MoE-DPO provides three key advantages over standard DPO: (i) generalization via universal function approximation through mixtures; (ii) reward and policy specialization through expert components tailored to distinct preference modes; and (iii) contextual alignment through input-dependent soft gating that enables user-specific mixture policies. Our framework supports both shared base architectures with expert-specific policy heads and fully independent expert models, allowing flexible trade-offs between parameter efficiency and specialization. We validate our approach on a variety of model sizes and multi-preference datasets, demonstrating that Mix- and MoE-DPO offers a powerful and scalable method for preference-based LLM alignment.
- Abstract(参考訳): 直接選好最適化(DPO)は、人間のフィードバック(RLHF)からの強化学習の簡易かつ効果的な代替手段として、大規模言語モデル(LLM)とユーザの嗜好の整合を図っている。
しかし、既存のDPOの定式化は単一のモノリシックモデルに依存しており、マルチタスク設定における表現性や、不均一あるいは多様な嗜好分布への適応性を制限している。
本研究では,DPOをソフトミックスモデルとMix-of-Experts (MoE)アーキテクチャで拡張するフレームワークであるMix- and MoE-DPOを提案する。
提案手法では,専門家の割当よりも潜時変量モデルを導入し,変動エビデンス・ローバウンド(ELBO)を最適化し,選好データから専門的政策の安定かつ効率的な学習を可能にする。
Mix-とMoE-DPOは、標準的なDPOよりも3つの大きな利点を提供します。
一 混合による普遍関数近似による一般化
二 個別の選好態勢に合わせた専門的構成要素による報酬及び政策特化
三 ユーザ固有の混合ポリシーを可能にする入力依存型ソフトゲーティングによるコンテキストアライメント。
我々のフレームワークは、専門家固有のポリシーヘッドを備えた共有ベースアーキテクチャと、完全に独立したエキスパートモデルの両方をサポートし、パラメータ効率と特殊化の間の柔軟なトレードオフを可能にします。
我々は,Mix-およびMoE-DPOが嗜好に基づくLLMアライメントのための強力でスケーラブルな方法を提供することを示した。
関連論文リスト
- Multi-Preference Lambda-weighted Listwise DPO for Small-Scale Model Alignment [5.276657230880984]
大規模言語モデル(LLM)は、幅広い言語タスクに対して強力な一般化を示すが、しばしば人間の好みに反する出力を生成する。
直接最適化選好(DPO)は、二項選好対に対する分類タスクとしてアライメントを扱い、プロセスを単純化する。
我々は、より詳細な人間のフィードバックからモデルを学習できるマルチパラメータLambda-weighted Listwise DPOを提案する。
本手法は, 実世界の展開に適した効率, 制御可能, きめ細かな適応を実現しつつ, 標準DPOのアライメント性能を常に向上させる。
論文 参考訳(メタデータ) (2025-06-24T16:47:17Z) - Robust Multi-Objective Preference Alignment with Online DPO [6.434799451791957]
多目的選好アライメントは、パーソナライズ可能で、有用で、安全であるAIシステムの開発に不可欠である。
既存のアプローチは、トレーニングに計算コストがかかるか、モデル動作を十分に制御できないかのいずれかである。
本稿では,多目的オンラインDPOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-03-01T02:01:49Z) - Few-shot Steerable Alignment: Adapting Rewards and LLM Policies with Neural Processes [50.544186914115045]
大きな言語モデル(LLM)は、日々のアプリケーションにますます組み込まれています。
個人ユーザの多様な嗜好との整合性を確保することは、重要な課題となっている。
数発のステアライメントのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-18T16:14:59Z) - Unified Preference Optimization: Language Model Alignment Beyond the Preference Frontier [0.5120567378386615]
大規模言語モデル(LLM)の整合化のための統一的アプローチを提案する。
好みと補助目的の単純な分解に基づいて、ユーザとデザイナーの好みを最適化するためにLLMをチューニングできる。
論文 参考訳(メタデータ) (2024-05-28T08:35:48Z) - Multi-Reference Preference Optimization for Large Language Models [56.84730239046117]
複数の参照モデルを用いた直接選好最適化のための新しいクローズドフォームの定式化を提案する。
得られたアルゴリズムであるMulti-Reference Preference Optimization (MRPO)は、様々な参照モデルからより広範な事前知識を活用する。
MRPOを微調整したLLMは,データ不足や多量性に関わらず,様々な嗜好データにおいてより一般化されていることを示す。
論文 参考訳(メタデータ) (2024-05-26T00:29:04Z) - Beyond One-Preference-Fits-All Alignment: Multi-Objective Direct Preference Optimization [76.09576643028362]
複数のアライメント目的に対してMODPO(Multi-Objective Direct Preference Optimization)を提案する。
MODPOは、言語モデリングを直接報酬モデルに折り畳み、暗黙の集団報酬モデルとして言語モデルを訓練する。
理論的には MORLHF と同じ最適解が得られるが、実質的にはより安定で効率的である。
論文 参考訳(メタデータ) (2023-10-05T17:35:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。