論文の概要: Arithmetic Control of LLMs for Diverse User Preferences: Directional
Preference Alignment with Multi-Objective Rewards
- arxiv url: http://arxiv.org/abs/2402.18571v2
- Date: Thu, 29 Feb 2024 04:33:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-01 11:16:03.541140
- Title: Arithmetic Control of LLMs for Diverse User Preferences: Directional
Preference Alignment with Multi-Objective Rewards
- Title(参考訳): 多様なユーザ嗜好に対するllmの算術制御:多目的報酬を用いた指向性選好アライメント
- Authors: Haoxiang Wang, Yong Lin, Wei Xiong, Rui Yang, Shizhe Diao, Shuang Qiu,
Han Zhao, Tong Zhang
- Abstract要約: 大規模言語モデル(LLM)の整合化のためのDPA(Directional Preference Alignment)フレームワークを導入する。
スカラー・リワードのRLHFとは異なり、DPAは多目的報酬モデルを導入し、多様な好みプロファイルを表現している。
本手法は有用性と冗長性の間のトレードオフを算術的に簡単に制御する。
- 参考スコア(独自算出の注目度): 32.799198549439716
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fine-grained control over large language models (LLMs) remains a significant
challenge, hindering their adaptability to diverse user needs. While
Reinforcement Learning from Human Feedback (RLHF) shows promise in aligning
LLMs, its reliance on scalar rewards often limits its ability to capture
diverse user preferences in real-world applications. To address this
limitation, we introduce the Directional Preference Alignment (DPA) framework.
Unlike the scalar-reward RLHF, DPA incorporates multi-objective reward modeling
to represent diverse preference profiles. Additionally, DPA models user
preferences as directions (i.e., unit vectors) in the reward space to achieve
user-dependent preference control. Our method involves training a
multi-objective reward model and then fine-tuning the LLM with a
preference-conditioned variant of Rejection Sampling Finetuning (RSF), an RLHF
method adopted by Llama 2. This method enjoys a better performance trade-off
across various reward objectives. In comparison with the scalar-reward RLHF,
DPA offers users intuitive control over LLM generation: they can arithmetically
specify their desired trade-offs (e.g., more helpfulness with less verbosity).
We also validate the effectiveness of DPA with real-world alignment experiments
on Mistral-7B. Our method provides straightforward arithmetic control over the
trade-off between helpfulness and verbosity while maintaining competitive
performance with strong baselines such as Direct Preference Optimization (DPO).
- Abstract(参考訳): 大きな言語モデル(LLM)のきめ細かい制御は依然として大きな課題であり、多様なユーザニーズへの適応性を妨げている。
Reinforcement Learning from Human Feedback (RLHF)は、LLMの整合性を示すが、スカラー報酬への依存は、現実世界のアプリケーションで多様なユーザの好みを捉える能力を制限することが多い。
この制限に対処するため、DPA(Directional Preference Alignment)フレームワークを導入します。
スカラーワードrlhfとは異なり、dpaは多様な好みプロファイルを表現するために多目的報酬モデリングを取り入れている。
さらに、DPAは報酬空間の方向(すなわち単位ベクトル)としてユーザの好みをモデル化し、ユーザ依存の好み制御を実現する。
Llama 2 で採用されている RLHF 法である Rejection Smpling Finetuning (RSF) の優先条件付き変種を用いて,多目的報酬モデルのトレーニングを行い,LLM を微調整する。
この方法は、様々な報奨目的に対してより良いパフォーマンスのトレードオフをもたらす。
DPA はスカラー・リワード RLHF と比較して、ユーザが LLM 生成を直感的に制御できる。
また,実世界アライメント実験によるdpaの有効性を検証する。
提案手法は,DPO(Direct Preference Optimization)などの強力なベースラインと競合する性能を維持しつつ,有用性と冗長性の間のトレードオフを簡易に算術的に制御する。
関連論文リスト
- Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness [27.43137305486112]
本稿では,自己監督的選好度損失とアライメント損失を組み合わせた自己監督的選好度損失を構成する,新しい自己監督的選好最適化(SPO)フレームワークを提案する。
その結果,SPOを既存の好み最適化手法とシームレスに統合し,最先端性能を実現することができた。
論文 参考訳(メタデータ) (2024-09-26T12:37:26Z) - Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。
実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-29T17:59:07Z) - Hybrid Preference Optimization: Augmenting Direct Preference Optimization with Auxiliary Objectives [0.5120567378386615]
大規模言語モデル(LLM)を協調するハイブリッドアプローチを提案する。
DPO の暗黙的な報酬分解に対する単純な拡張により、任意の補助報酬の集合を最大化するために LLM をチューニングできる。
提案手法であるHybrid Preference Optimization (HPO) は,ユーザの好みと補助的な設計目的の両方に効果的に一般化できることを示す。
論文 参考訳(メタデータ) (2024-05-28T08:35:48Z) - Multi-Reference Preference Optimization for Large Language Models [56.84730239046117]
複数の参照モデルを用いた直接選好最適化のための新しいクローズドフォームの定式化を提案する。
得られたアルゴリズムであるMulti-Reference Preference Optimization (MRPO)は、様々な参照モデルからより広範な事前知識を活用する。
MRPOを微調整したLLMは,データ不足や多量性に関わらず,様々な嗜好データにおいてより一般化されていることを示す。
論文 参考訳(メタデータ) (2024-05-26T00:29:04Z) - RS-DPO: A Hybrid Rejection Sampling and Direct Preference Optimization Method for Alignment of Large Language Models [7.676477609461592]
人間のフィードバックからの強化学習(RLHF)は、大きな言語モデルとユーザの意図を結びつけるために広く採用されている。
DPOは、ポリシーモデルではなく、人間のアノテーションと代替LDMから生成される対照的な反応に依存している。
本稿では,サンプリングリジェクション(RS)とDPOを体系的に組み合わせることで,両課題に対処する。
提案手法は,資源環境が制限されたLLMを効果的に微調整し,ユーザ意図との整合性を向上する。
論文 参考訳(メタデータ) (2024-02-15T16:00:58Z) - Relative Preference Optimization: Enhancing LLM Alignment through Contrasting Responses across Identical and Diverse Prompts [95.09994361995389]
Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。
RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文 参考訳(メタデータ) (2024-02-12T22:47:57Z) - Beyond One-Preference-Fits-All Alignment: Multi-Objective Direct Preference Optimization [76.09576643028362]
複数のアライメント目的に対してMODPO(Multi-Objective Direct Preference Optimization)を提案する。
MODPOは、言語モデリングを直接報酬モデルに折り畳み、暗黙の集団報酬モデルとして言語モデルを訓練する。
理論的には MORLHF と同じ最適解が得られるが、実質的にはより安定で効率的である。
論文 参考訳(メタデータ) (2023-10-05T17:35:26Z) - Direct Preference Optimization: Your Language Model is Secretly a Reward Model [119.65409513119963]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。
DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。
我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-29T17:57:46Z) - Reinforcement Learning from Diverse Human Preferences [68.4294547285359]
本稿では,人選好ラベルをクラウドソーシングし,多様な嗜好から学習する手法を開発した。
提案手法はDMcontrolとMeta-worldの様々なタスクでテストされる。
多様なフィードバックから学ぶと、既存の好みベースのRLアルゴリズムよりも一貫性があり、大幅に改善されている。
論文 参考訳(メタデータ) (2023-01-27T15:18:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。