論文の概要: Multi-Preference Lambda-weighted Listwise DPO for Dynamic Preference Alignment
- arxiv url: http://arxiv.org/abs/2506.19780v2
- Date: Thu, 26 Jun 2025 17:28:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-27 13:31:57.748401
- Title: Multi-Preference Lambda-weighted Listwise DPO for Dynamic Preference Alignment
- Title(参考訳): 動的選好アライメントのためのマルチパラメータLambda-weighted Listwise DPO
- Authors: Yuhui Sun, Xiyao Wang, Zixi Li, Jinman Zhao,
- Abstract要約: 大規模な教師なし言語モデル (LM) は、幅広い世界の知識と推論能力を捉えている。
マルチパラメータLambda-weighted Listwise DPOという新しいフレームワークを提案する。
提案手法は、リストワイドな嗜好フィードバックと、ユーザ意図の異なるフレキシブルなアライメントの両方を、再学習せずにサポートしている。
- 参考スコア(独自算出の注目度): 5.661040361394486
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While large-scale unsupervised language models (LMs) capture broad world knowledge and reasoning capabilities, steering their behavior toward desired objectives remains challenging due to the lack of explicit supervision. Existing alignment techniques, such as reinforcement learning from human feedback (RLHF), rely on training a reward model and performing reinforcement learning to align with human preferences. However, RLHF is often computationally intensive, unstable, and sensitive to hyperparameters. To address these limitations, Direct Preference Optimization (DPO) was introduced as a lightweight and stable alternative, enabling direct alignment of language models with pairwise preference data via classification loss. However, DPO and its extensions generally assume a single static preference distribution, limiting flexibility in multi-objective or dynamic alignment settings. In this paper, we propose a novel framework: Multi-Preference Lambda-weighted Listwise DPO, which extends DPO to incorporate multiple human preference dimensions (e.g., helpfulness, harmlessness, informativeness) and enables dynamic interpolation through a controllable simplex-weighted formulation. Our method supports both listwise preference feedback and flexible alignment across varying user intents without re-training. Empirical and theoretical analysis demonstrates that our method is as effective as traditional DPO on static objectives while offering greater generality and adaptability for real-world deployment.
- Abstract(参考訳): 大規模な教師なし言語モデル(LM)は、幅広い世界の知識と推論能力を捉えているが、明示的な監督が欠如しているため、彼らの振る舞いを望ましい目的に向けて制御することは依然として困難である。
人間のフィードバックからの強化学習(RLHF)のような既存のアライメント技術は、報酬モデルのトレーニングと、人間の好みに合わせて強化学習を実行することに依存している。
しかし、RLHFはしばしば計算集約的で不安定であり、ハイパーパラメータに敏感である。
これらの制限に対処するため、DPO(Direct Preference Optimization)は軽量で安定した代替手段として導入された。
しかし、DPOとその拡張は一般に単一の静的な選好分布を仮定し、多目的または動的アライメント設定の柔軟性を制限する。
本稿では,DPOを拡張して複数の人選好次元(例えば,有益性,無害性,情報性)を組み込むことで,制御可能な単純度重み付けによる動的補間を可能にする,多目的ラムダ重み付きリスワイズDPOを提案する。
提案手法は、リストワイドな嗜好フィードバックと、ユーザ意図の異なるフレキシブルなアライメントの両方を、再学習せずにサポートしている。
実験的および理論的解析により,本手法は実世界の展開に対してより汎用性と適応性を提供しつつ,静的な目的に対して従来のDPOと同じくらい有効であることが示された。
関連論文リスト
- Multi-Objective Preference Optimization: Improving Human Alignment of Generative Models [15.799929216215672]
制約付きKL正規化最適化としてアライメントをフレーム化するMOPOアルゴリズムを提案する。
以前の作業とは異なり、MOPOはペアワイズ好みのデータを直接操作し、ポイントワイズ報酬の仮定を必要とせず、プロンプトコンテキストエンジニアリングを避ける。
論文 参考訳(メタデータ) (2025-05-16T05:58:26Z) - A Survey of Direct Preference Optimization [103.59317151002693]
LLM(Large Language Models)は、前例のない生成能力を示す。
人的価値との整合性は、有用で無害なデプロイメントを保証する上で、依然として重要です。
直接優先度最適化(DPO)は、最近、合理化された代替案として注目されている。
論文 参考訳(メタデータ) (2025-03-12T08:45:15Z) - Robust Multi-Objective Preference Alignment with Online DPO [6.434799451791957]
多目的選好アライメントは、パーソナライズ可能で、有用で、安全であるAIシステムの開発に不可欠である。
既存のアプローチは、トレーニングに計算コストがかかるか、モデル動作を十分に制御できないかのいずれかである。
本稿では,多目的オンラインDPOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-03-01T02:01:49Z) - Unified Preference Optimization: Language Model Alignment Beyond the Preference Frontier [0.5120567378386615]
大規模言語モデル(LLM)の整合化のための統一的アプローチを提案する。
好みと補助目的の単純な分解に基づいて、ユーザとデザイナーの好みを最適化するためにLLMをチューニングできる。
論文 参考訳(メタデータ) (2024-05-28T08:35:48Z) - Multi-Reference Preference Optimization for Large Language Models [56.84730239046117]
複数の参照モデルを用いた直接選好最適化のための新しいクローズドフォームの定式化を提案する。
得られたアルゴリズムであるMulti-Reference Preference Optimization (MRPO)は、様々な参照モデルからより広範な事前知識を活用する。
MRPOを微調整したLLMは,データ不足や多量性に関わらず,様々な嗜好データにおいてより一般化されていることを示す。
論文 参考訳(メタデータ) (2024-05-26T00:29:04Z) - Beyond One-Preference-Fits-All Alignment: Multi-Objective Direct Preference Optimization [76.09576643028362]
複数のアライメント目的に対してMODPO(Multi-Objective Direct Preference Optimization)を提案する。
MODPOは、言語モデリングを直接報酬モデルに折り畳み、暗黙の集団報酬モデルとして言語モデルを訓練する。
理論的には MORLHF と同じ最適解が得られるが、実質的にはより安定で効率的である。
論文 参考訳(メタデータ) (2023-10-05T17:35:26Z) - Direct Preference Optimization: Your Language Model is Secretly a Reward Model [119.65409513119963]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。
DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。
我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-29T17:57:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。