Fugu-MT 論文翻訳(概要): Beyond One-Preference-for-All: Multi-Objective Direct Preference Optimization for Language Models

論文の概要: Beyond One-Preference-for-All: Multi-Objective Direct Preference Optimization for Language Models

arxiv url: http://arxiv.org/abs/2310.03708v2
Date: Tue, 17 Oct 2023 16:29:35 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-18 20:06:00.556045
Title: Beyond One-Preference-for-All: Multi-Objective Direct Preference Optimization for Language Models
Title（参考訳）: one-preference-for-all 言語モデルの多目的直接選好最適化
Authors: Zhanhui Zhou, Jie Liu, Chao Yang, Jing Shao, Yu Liu, Xiangyu Yue, Wanli Ouyang, Yu Qiao
Abstract要約: Multi-Objective Direct Preference Optimization (MODPO) は、複数のアライメント対象に対して直接参照最適化(DPO)を拡張するRLフリーアルゴリズムである。 LM学習を直接報酬モデリングに折り畳み、原則に基づく報酬の重み付けされた合計とLMを整合させる。 MORLHFと比較して3倍の計算量で、様々な好みに対応する最も競争力のあるLMフロントの1つを一貫して生成する。
参考スコア（独自算出の注目度）: 78.50294936259026
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: A single language model (LM), despite aligning well with an average labeler through reinforcement learning from human feedback (RLHF), may not universally suit diverse human preferences. Recent approaches thus pursue customization, training separate principle-based reward models to represent different alignment objectives (e.g. helpfulness, harmlessness, or honesty). Different LMs can then be trained for different preferences through multi-objective RLHF (MORLHF) with different objective weightings. Yet, RLHF is unstable and resource-heavy, especially for MORLHF with diverse and usually conflicting objectives. In this paper, we present Multi-Objective Direct Preference Optimization (MODPO), an RL-free algorithm that extends Direct Preference Optimization (DPO) for multiple alignment objectives. Essentially, MODPO folds LM learning directly into reward modeling, aligning LMs with the weighted sum of all principle-based rewards using pure cross-entropy loss. While theoretically guaranteed to produce the same optimal solutions as MORLHF, MODPO is practically more stable and computationally efficient, obviating value function modeling and online sample collection. Empirical results in safety alignment and long-form question answering confirm that MODPO matches or outperforms existing methods, consistently producing one of the most competitive LM fronts that cater to diverse preferences with 3 times fewer computations compared with MORLHF.
Abstract（参考訳）: 単一言語モデル(LM)は、人間からのフィードバック(RLHF)からの強化学習を通じて平均的なラベラーと整合するが、多種多様な人間の嗜好に普遍的に適合しない。したがって、近年のアプローチはカスタマイズを追求し、異なるアライメント目標(例えば、有益性、無害性、正直性)を表現するために、原則に基づく報酬モデルを個別に訓練する。異なるLMは、異なる目的重み付けを持つ多目的RLHF(MORLHF)によって異なる好みのために訓練することができる。しかし、RLHFは不安定で、特に多様で通常矛盾する目的を持つMORLHFにとって、資源が豊富である。本稿では,複数のアライメント目的に対して直接参照最適化(DPO)を拡張するRLフリーアルゴリズムであるMODPOを提案する。本質的には、MODPOはLM学習を直接報酬モデリングに折り畳み、純粋なクロスエントロピー損失を用いたすべての原則に基づく報酬の重み付け和と一致する。理論上は MORLHF と同じ最適解を生成することが保証されているが、MODPO は事実上より安定であり、計算効率が良く、値関数のモデリングやオンラインサンプル収集が不可能である。安全アライメントと長時間の質問応答の実証結果から、MODPOは既存の手法と一致し、MORLHFの3倍の計算量で様々な好みに適合する最も競争力のあるLMフロントの1つを一貫して生成することを確認した。

関連論文リスト

Multi-Objective Preference Optimization: Improving Human Alignment of Generative Models [15.799929216215672]
制約付きKL正規化最適化としてアライメントをフレーム化するMOPOアルゴリズムを提案する。以前の作業とは異なり、MOPOはペアワイズ好みのデータを直接操作し、ポイントワイズ報酬の仮定を必要とせず、プロンプトコンテキストエンジニアリングを避ける。
論文参考訳（メタデータ） (2025-05-16T05:58:26Z)
Robust Multi-Objective Preference Alignment with Online DPO [6.434799451791957]
多目的選好アライメントは、パーソナライズ可能で、有用で、安全であるAIシステムの開発に不可欠である。既存のアプローチは、トレーニングに計算コストがかかるか、モデル動作を十分に制御できないかのいずれかである。本稿では,多目的オンラインDPOアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-03-01T02:01:49Z)
MPO: An Efficient Post-Processing Framework for Mixing Diverse Preference Alignment [14.541973333460149]
Mixing Preference Optimization (MPO)は、単一目的ポリシーを集約するための後処理フレームワークである。 MPOは様々な好みにまたがるバランスの取れた性能を実現し、計算コストを大幅に削減した既存モデルより優れている。
論文参考訳（メタデータ） (2025-02-25T23:22:12Z)
Personalized Preference Fine-tuning of Diffusion Models [75.22218338096316]
拡散モデルとパーソナライズされた嗜好を整合させるマルチリワード最適化の目的であるPDを導入する。 PPDでは、拡散モデルがユーザーの個人の好みを数秒で学習する。提案手法は,Stable Cascadeに対して平均76%の勝利率を達成し,特定のユーザの好みをより正確に反映した画像を生成する。
論文参考訳（メタデータ） (2025-01-11T22:38:41Z)
MetaAlign: Align Large Language Models with Diverse Preferences during Inference Time [50.41806216615488]
大規模言語モデル(LLM)は、広範なテキストコーパスから広範な知識と顕著な能力を取得する。 LLMをより使いやすくするためには、それらを人間の好みに合わせることが不可欠である。提案手法は,LLMが推論時に指定される様々な明示的あるいは暗黙的な選好と動的に整合するのを支援することを目的としている。
論文参考訳（メタデータ） (2024-10-18T05:31:13Z)
Decoding-Time Language Model Alignment with Multiple Objectives [116.42095026960598]
既存の手法は主に、1つの報酬関数に対してLMを最適化することに集中し、それらの適応性は様々な目的に制限される。本稿では,予測の線形結合から次のトークンを出力する復号時間アルゴリズムである$textbfmulti-objective decoding (MOD)$を提案する。提案手法は, 自然条件下であっても, 既存のアプローチが準最適であることを示すとともに, 提案手法の最適性を保証する。
論文参考訳（メタデータ） (2024-06-27T02:46:30Z)
mDPO: Conditional Preference Optimization for Multimodal Large Language Models [52.607764280030196]
直接選好最適化(DPO)は,大規模言語モデル(LLM)のアライメントに有効な手法であることが示されている。最近の研究は、DPOをマルチモーダルシナリオに適用しようと試みているが、一貫した改善を達成することは困難である。画像の嗜好を最適化することで、言語のみの嗜好の過度な優先順位付けを防止するマルチモーダルDPOであるmDPOを提案する。
論文参考訳（メタデータ） (2024-06-17T17:59:58Z)
Multi-objective Reinforcement learning from AI Feedback [0.0]
本稿では、AIフィードバック(RLAIF)からの強化学習を用いて訓練された言語モデルのアライメントと性能を改善するための新しいアプローチを提案する。すべての人間の嗜好を表現するために、単一の嗜好モデルを訓練する標準的なアプローチとは対照的に、MORLAIFは、このタスクを毒性、事実性、梅毒といったより単純な原則に分解する。我々の実験は、MORLAIFが標準のRLAIFベースラインより優れており、MORLAIFはより小さな言語モデルを用いて、より大きな言語モデルを調整するために使用できることを示している。
論文参考訳（メタデータ） (2024-06-11T14:24:00Z)
Hybrid Preference Optimization: Augmenting Direct Preference Optimization with Auxiliary Objectives [0.5120567378386615]
大規模言語モデル(LLM)を協調するハイブリッドアプローチを提案する。 DPO の暗黙的な報酬分解に対する単純な拡張により、任意の補助報酬の集合を最大化するために LLM をチューニングできる。提案手法であるHybrid Preference Optimization (HPO) は,ユーザの好みと補助的な設計目的の両方に効果的に一般化できることを示す。
論文参考訳（メタデータ） (2024-05-28T08:35:48Z)
Multi-Reference Preference Optimization for Large Language Models [56.84730239046117]
複数の参照モデルを用いた直接選好最適化のための新しいクローズドフォームの定式化を提案する。得られたアルゴリズムであるMulti-Reference Preference Optimization (MRPO)は、様々な参照モデルからより広範な事前知識を活用する。 MRPOを微調整したLLMは,データ不足や多量性に関わらず,様々な嗜好データにおいてより一般化されていることを示す。
論文参考訳（メタデータ） (2024-05-26T00:29:04Z)
Personalized Soups: Personalized Large Language Model Alignment via Post-hoc Parameter Merging [148.77027765872006]
パーソナライズされたヒューマンフィードバック(RLPHF)問題からの強化学習について検討する。 LLMは、多目的強化学習(MORL)問題としてアライメントをモデル化することで、複数の好みに整列する。我々は、好みを複数の次元に分解することで、パーソナライズされたアライメントを実現することができることを示す。
論文参考訳（メタデータ） (2023-10-17T20:22:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。