論文の概要: MixDPO: Modeling Preference Strength for Pluralistic Alignment
- arxiv url: http://arxiv.org/abs/2601.06180v1
- Date: Wed, 07 Jan 2026 16:57:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:00.647614
- Title: MixDPO: Modeling Preference Strength for Pluralistic Alignment
- Title(参考訳): MixDPO:多元的アライメントのための予測強度のモデル化
- Authors: Saki Imai, Pedram Heydari, Anthony Sicilia, Asteria Kaeberlein, Katherine Atwell, Malihe Alikhani,
- Abstract要約: MixDPO(Mixed Logit Direct Preference Optimization)は、好みの強さの変動をモデル化する直接参照最適化(Direct Preference Optimization)の一般化である。
2つのオープンウェイト言語モデルを用いて、3つの選好データセット上でMixDPOを評価する。
- 参考スコア(独自算出の注目度): 24.622787481918863
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Preference based alignment objectives implicitly assume that all human preferences are expressed with equal strength. In practice, however, preference strength varies across individuals and contexts -- a phenomenon established in behavioral economics and discrete choice theory. This mismatch limits the ability of existing objectives to faithfully capture heterogeneous human judgments. Inspired by this literature, we introduce Mixed Logit Direct Preference Optimization (MixDPO), a generalization of Direct Preference Optimization that models variation in preference strength. MixDPO enables alignment objectives to capture heterogeneity in how strongly preferences are expressed across training examples. We evaluate MixDPO on three preference datasets using two open-weight language models. Across datasets, MixDPO improves aggregate alignment performance (+11.2 points on Pythia-2.8B) while preserving subgroup level preferences, with the largest gains appearing in settings with higher inferred preference heterogeneity. MixDPO makes preference heterogeneity explicit through learned strength distributions. We release our code for reproducibility.
- Abstract(参考訳): 嗜好に基づくアライメントの目的は、すべての人間の嗜好が等しい強さで表現されていることを暗黙的に仮定する。
しかし実際には、好みの強さは個人や文脈によって異なり、行動経済学や個別選択理論で確立された現象である。
このミスマッチは、既存の目的が不均一な人間の判断を忠実に捉える能力を制限する。
この論文に触発されたMixDPO(Mixed Logit Direct Preference Optimization)は、嗜好強度の変動をモデル化する直接選好最適化(Direct Preference Optimization)の一般化である。
MixDPOは、トレーニング例間での強い嗜好の表現において、アライメントの目的が不均一性を捉えることを可能にする。
2つのオープンウェイト言語モデルを用いて、3つの選好データセット上でMixDPOを評価する。
データセット全体にわたって、MixDPOはサブグループレベルの嗜好を保ちながら集約アライメント性能(Pythia-2.8Bの+11.2ポイント)を改善し、推論された選好の不均一性が高い設定で最大のゲインが現れる。
MixDPOは学習した強度分布を通して嗜好の不均一性を明示する。
私たちは再現性のためにコードをリリースします。
関連論文リスト
- Mix- and MoE-DPO: A Variational Inference Approach to Direct Preference Optimization [2.1487222438373674]
ソフトミックスモデルとMix-of-expertの両方でDPOを拡張するフレームワークであるMix-とMoE-DPOを提案する。
当社のフレームワークは、専門家固有のポリシーヘッドを備えた共有ベースアーキテクチャと、完全に独立したエキスパートモデルの両方をサポートします。
様々なモデルサイズとマルチパラメータデータセットに対するアプローチを検証する。
論文 参考訳(メタデータ) (2025-10-09T14:15:14Z) - Smoothed Preference Optimization via ReNoise Inversion for Aligning Diffusion Models with Varied Human Preferences [13.588231827053923]
直接選好最適化(DPO)は、テキスト・ツー・イメージ(T2I)生成モデルと、ペアの選好データを用いた人間の選好を一致させる。
本稿では, DPO の目的を改善するために, 好み分布をモデル化する新しい手法である SmPO-Diffusion を提案する。
提案手法は,既存手法における過度な最適化と客観的なミスアライメントの問題を効果的に軽減する。
論文 参考訳(メタデータ) (2025-06-03T09:47:22Z) - Calibrated Multi-Preference Optimization for Aligning Diffusion Models [90.15024547673785]
Calibrated Preference Optimization (CaPO) は、テキスト・ツー・イメージ(T2I)拡散モデルを調整する新しい手法である。
CaPOは、人間の注釈のない複数の報酬モデルからの一般的な好みを取り入れている。
実験結果から, CaPOは従来法よりも常に優れていたことが示唆された。
論文 参考訳(メタデータ) (2025-02-04T18:59:23Z) - No Preference Left Behind: Group Distributional Preference Optimization [46.98320272443297]
Group Distributional Preference Optimization (GDPO) は、言語モデルをグループ内の好みの分布と整合させる新しいフレームワークである。
GDPOは、グループの信念分布の統計的推定を用いて言語モデルを校正する。
GDPOはトレーニング中にこのアライメントギャップを一貫して削減します。
論文 参考訳(メタデータ) (2024-12-28T23:30:47Z) - Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。
目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。
DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文 参考訳(メタデータ) (2024-08-14T11:29:47Z) - Comparing Bad Apples to Good Oranges: Aligning Large Language Models via Joint Preference Optimization [105.3612692153615]
命令応答対に対して協調的に好みを抽出する新しい軸を提案する。
命令と応答ペアを併用することで、大きな言語モデルのアライメントを大幅に向上させることができる。
論文 参考訳(メタデータ) (2024-03-31T02:05:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。