Fugu-MT 論文翻訳(概要): No Preference Left Behind: Group Distributional Preference Optimization

論文の概要: No Preference Left Behind: Group Distributional Preference Optimization

arxiv url: http://arxiv.org/abs/2412.20299v1
Date: Sat, 28 Dec 2024 23:30:47 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-31 22:07:02.556548
Title: No Preference Left Behind: Group Distributional Preference Optimization
Title（参考訳）: No Preference Ishind: Group Distributional Preference Optimization
Authors: Binwei Yao, Zefan Cai, Yun-Shiuan Chuang, Shanglin Yang, Ming Jiang, Diyi Yang, Junjie Hu,
Abstract要約: Group Distribution Preference Optimization (GDPO) は、言語モデルをグループ内の好みの分布と整合させる新しいフレームワークである。 GDPOは、グループの信念分布の統計的推定を用いて言語モデルを校正する。 GDPOはトレーニング中にこのアライメントギャップを一貫して削減します。
参考スコア（独自算出の注目度）: 46.98320272443297
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Preferences within a group of people are not uniform but follow a distribution. While existing alignment methods like Direct Preference Optimization (DPO) attempt to steer models to reflect human preferences, they struggle to capture the distributional pluralistic preferences within a group. These methods often skew toward dominant preferences, overlooking the diversity of opinions, especially when conflicting preferences arise. To address this issue, we propose Group Distribution Preference Optimization (GDPO), a novel framework that aligns language models with the distribution of preferences within a group by incorporating the concept of beliefs that shape individual preferences. GDPO calibrates a language model using statistical estimation of the group's belief distribution and aligns the model with belief-conditioned preferences, offering a more inclusive alignment framework than traditional methods. In experiments using both synthetic controllable opinion generation and real-world movie review datasets, we show that DPO fails to align with the targeted belief distributions, while GDPO consistently reduces this alignment gap during training. Moreover, our evaluation metrics demonstrate that GDPO outperforms existing approaches in aligning with group distributional preferences, marking a significant advance in pluralistic alignment.
Abstract（参考訳）: グループ内の優先度は均一ではなく、分布に従う。直接選好最適化(DPO)のような既存のアライメント手法は、人間の選好を反映するためにモデルを操ろうとするが、グループ内の分布多元選好を捉えるのに苦労する。これらの方法はしばしば支配的な選好に傾き、特に対立する選好が発生すると、意見の多様性を見渡す。この問題に対処するために,言語モデルとグループ内の嗜好分布を協調する新しいフレームワークであるグループ分散選好最適化(GDPO)を提案する。 GDPOは、グループの信念分布の統計的推定を用いて言語モデルを校正し、そのモデルを信念条件付き嗜好と整合させ、従来の方法よりも包括的アライメントフレームワークを提供する。合成制御可能な意見生成と実世界の映画レビューデータセットの両方を用いた実験では、DPOは目標とする信念分布と一致せず、GDPOはトレーニング中にこのアライメントギャップを一貫して減少させる。さらに,評価指標から,GDPOはグループ分布の選好に合わせた既存手法よりも優れており,多元的アライメントの著しい進歩を示している。

関連論文リスト

Calibrated Multi-Preference Optimization for Aligning Diffusion Models [92.90660301195396]
Calibrated Preference Optimization (CaPO) は、テキスト・ツー・イメージ(T2I)拡散モデルを調整する新しい手法である。 CaPOは、人間の注釈のない複数の報酬モデルからの一般的な好みを取り入れている。実験結果から, CaPOは従来法よりも常に優れていたことが示唆された。
論文参考訳（メタデータ） (2025-02-04T18:59:23Z)
SWEPO: Simultaneous Weighted Preference Optimization for Group Contrastive Alignment [16.230186347702737]
我々はSWEPO(Sultaneous Weighted Preference Optimization)を提案する。 SWEPOはクエリ毎に複数のレスポンスを導入し、平均的な報酬から最も逸脱したレスポンスを優先順位付けする。このような多重参照サンプリングはアライメントバイアスを低くし、真の許容応答分布から期待される偏差を$mathcalO(tfrac1sqrtk)$とすることを示した。
論文参考訳（メタデータ） (2024-12-05T21:50:22Z)
ComPO: Community Preferences for Language Model Personalization [122.54846260663922]
ComPOは、言語モデルにおける好みの最適化をパーソナライズする手法である。 ComPRedはRedditからコミュニティレベルの好みを持った質問応答データセットです。
論文参考訳（メタデータ） (2024-10-21T14:02:40Z)
Preference Alignment Improves Language Model-Based TTS [76.70693823683091]
選好アライメントアルゴリズムは、報酬モデルの嗜好に合わせてLMを調整し、生成されたコンテンツの望ましさを高める。 1.15B のパラメータ LM に基づく TTS モデルを用いて、嗜好の整合性は常に知性、話者類似性、代用主観的評価スコアを向上することを示した。
論文参考訳（メタデータ） (2024-09-19T01:58:19Z)
Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。 DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文参考訳（メタデータ） (2024-08-14T11:29:47Z)
Pareto-Optimal Learning from Preferences with Hidden Context [17.590330740964266]
本稿では,多元的アライメントを実現するPOPLを提案する。理論的および実証的な評価は,POPLが報酬関数とポリシーの学習において,基本的手法を超越していることを示している。また,POPLは,グループフェアネスの特定の概念を最適化する手法の基盤としても機能することを示す。
論文参考訳（メタデータ） (2024-06-21T18:57:38Z)
Group Robust Preference Optimization in Reward-free RLHF [23.622835830345725]
そこで本研究では,大規模言語モデルと各グループの嗜好を密に整合させる新しいグループロバスト選好最適化法を提案する。これを達成するため、GRPOは異なるグループの重要性を適応的かつ順次重み付けし、累積損失が悪化したグループを優先順位付けする。我々は,最悪のパフォーマンス群の性能向上,グループ間の損失不均衡の低減,確率精度の向上について検討した。
論文参考訳（メタデータ） (2024-05-30T17:50:04Z)
Self-Play Preference Optimization for Language Model Alignment [75.83359213697854]
近年の進歩は、嗜好の確率で直接作業することで、人間の嗜好をより正確に反映できることを示している。本稿では,言語モデルアライメントのためのセルフプレイ方式を提案する。我々の手法はSPPO(Self-Play Preference Optimization)と呼ばれ、繰り返しポリシー更新を利用してナッシュ均衡を確実に近似する。
論文参考訳（メタデータ） (2024-05-01T17:59:20Z)
Comparing Bad Apples to Good Oranges: Aligning Large Language Models via Joint Preference Optimization [105.3612692153615]
命令応答対に対して協調的に好みを抽出する新しい軸を提案する。命令と応答ペアを併用することで、大きな言語モデルのアライメントを大幅に向上させることができる。
論文参考訳（メタデータ） (2024-03-31T02:05:40Z)
Aligning Crowd Feedback via Distributional Preference Reward Modeling [28.754532173765686]
本研究では,大規模言語モデルと多様な人間の嗜好を一致させるために,DPRM(Distributedal Preference Reward Model)を提案する。実験の結果,DPRM は LLM と人口嗜好の整合性を著しく向上させ,より正確で偏りがなく,文脈的に適切な応答をもたらすことが示された。
論文参考訳（メタデータ） (2024-02-15T07:29:43Z)
MaxMin-RLHF: Alignment with Diverse Human Preferences [101.57443597426374]
Reinforcement Learning from Human Feedback (RLHF) は、言語モデルと人間の嗜好を一致させる。予測最大化アルゴリズムを用いて嗜好分布の混合を学習し、人間の嗜好をよりよく表現する。従来のRLHFアルゴリズムよりも16%以上の勝利率向上を実現している。
論文参考訳（メタデータ） (2024-02-14T03:56:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。