論文の概要: Panacea: Pareto Alignment via Preference Adaptation for LLMs
- arxiv url: http://arxiv.org/abs/2402.02030v2
- Date: Thu, 23 May 2024 13:49:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-25 07:19:21.796556
- Title: Panacea: Pareto Alignment via Preference Adaptation for LLMs
- Title(参考訳): Panacea: LLMの優先適応によるパレートアライメント
- Authors: Yifan Zhong, Chengdong Ma, Xiaoyuan Zhang, Ziran Yang, Haojun Chen, Qingfu Zhang, Siyuan Qi, Yaodong Yang,
- Abstract要約: Panaceaは、多次元の選好最適化問題としてアライメントを再構築する革新的なアプローチである。
主要な課題は、モデルの振舞いを導くために低次元の嗜好ベクトルを使うことである。
パナセアは特異値分解(SVD)に基づく低ランク適応を使用するように設計されている。
- 参考スコア(独自算出の注目度): 18.278537948335092
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current methods for large language model alignment typically use scalar human preference labels. However, this convention tends to oversimplify the multi-dimensional and heterogeneous nature of human preferences, leading to reduced expressivity and even misalignment. This paper presents Panacea, an innovative approach that reframes alignment as a multi-dimensional preference optimization problem. Panacea trains a single model capable of adapting online and Pareto-optimally to diverse sets of preferences without the need for further tuning. A major challenge here is using a low-dimensional preference vector to guide the model's behavior, despite it being governed by an overwhelmingly large number of parameters. To address this, Panacea is designed to use singular value decomposition (SVD)-based low-rank adaptation, which allows the preference vector to be simply injected online as singular values. Theoretically, we prove that Panacea recovers the entire Pareto front with common loss aggregation methods under mild conditions. Moreover, our experiments demonstrate, for the first time, the feasibility of aligning a single LLM to represent an exponentially vast spectrum of human preferences through various optimization methods. Our work marks a step forward in effectively and efficiently aligning models to diverse and intricate human preferences in a controllable and Pareto-optimal manner.
- Abstract(参考訳): 大規模な言語モデルアライメントの現在の手法は、スカラーな人間の好みラベルを使用するのが一般的である。
しかし、この慣習は、人間の嗜好の多次元的・異質的な性質を過度に単純化する傾向にあり、表現力の低下や過ちさえも生じている。
本稿では,多次元優先最適化問題としてアライメントを再構成する革新的手法であるPanaceaを提案する。
パナセアは、さらなるチューニングを必要とせず、オンラインとパレトを最適化して様々な好みのセットに適応できる単一のモデルを訓練する。
ここでの大きな課題は、圧倒的に多くのパラメータによって支配されているにもかかわらず、低次元の嗜好ベクトルを使用してモデルの振舞いを導くことである。
これを解決するために、パナセアは特異値分解(SVD)ベースの低ランク適応を使用するように設計されている。
理論的には、パナセアは穏やかな条件下で共通の損失集計法によりパレトフロント全体を回復する。
さらに,本実験では,様々な最適化手法により,ヒトの嗜好の指数的に広いスペクトルを表現するために,単一のLDMを調整できる可能性が初めて示された。
我々の研究は、制御可能でパレート最適化的な方法で、モデルを多様で複雑な人間の嗜好に効果的かつ効率的に整合させるための一歩を踏み出した。
関連論文リスト
- BAPO: Base-Anchored Preference Optimization for Personalized Alignment in Large Language Models [26.526171463511332]
本稿では,パーソナライズされた好み最適化が大規模言語モデル(LLM)に与える影響について検討する。
BAPOは、グローバルな知識や一般的なアライメントを最小限に抑えながら、多様なユーザの好みに効果的に適応する。
論文 参考訳(メタデータ) (2024-06-30T13:30:04Z) - mDPO: Conditional Preference Optimization for Multimodal Large Language Models [52.607764280030196]
直接選好最適化(DPO)は,大規模言語モデル(LLM)のアライメントに有効な手法であることが示されている。
最近の研究は、DPOをマルチモーダルシナリオに適用しようと試みているが、一貫した改善を達成することは困難である。
画像の嗜好を最適化することで、言語のみの嗜好の過度な優先順位付けを防止するマルチモーダルDPOであるmDPOを提案する。
論文 参考訳(メタデータ) (2024-06-17T17:59:58Z) - Adaptive Preference Scaling for Reinforcement Learning with Human Feedback [103.36048042664768]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムと人間の価値を合わせるための一般的なアプローチである。
本稿では,分散ロバスト最適化(DRO)に基づく適応的優先損失を提案する。
提案手法は多用途であり,様々な選好最適化フレームワークに容易に適用可能である。
論文 参考訳(メタデータ) (2024-06-04T20:33:22Z) - Multi-Reference Preference Optimization for Large Language Models [56.84730239046117]
複数の参照モデルを用いた直接選好最適化のための新しいクローズドフォームの定式化を提案する。
得られたアルゴリズムであるMulti-Reference Preference Optimization (MRPO)は、様々な参照モデルからより広範な事前知識を活用する。
MRPOを微調整したLLMは,データ不足や多量性に関わらず,様々な嗜好データにおいてより一般化されていることを示す。
論文 参考訳(メタデータ) (2024-05-26T00:29:04Z) - SPO: Multi-Dimensional Preference Sequential Alignment With Implicit Reward Modeling [34.32744849352087]
本研究では,人間の好みに合わせて,大規模言語モデルを逐次微調整する手法を提案する。
理論的には閉形式最適SPOポリシーと損失関数を導出する。
異なる大きさのLLMと複数の評価データセットの実証結果から、SPOはLLMを人間の嗜好の多次元にわたって整列させることに成功した。
論文 参考訳(メタデータ) (2024-05-21T12:47:17Z) - Controllable Preference Optimization: Toward Controllable
Multi-Objective Alignment [107.63756895544842]
人工知能におけるアライメントは、モデル応答と人間の好みと値の一貫性を追求する。
既存のアライメント技術は、主に一方向であり、様々な目的に対して、最適以下のトレードオフと柔軟性の低下につながる。
制御可能な選好最適化(CPO)を導入し、異なる目的に対する選好スコアを明確に指定する。
論文 参考訳(メタデータ) (2024-02-29T12:12:30Z) - Rewards-in-Context: Multi-objective Alignment of Foundation Models with Dynamic Preference Adjustment [46.44464839353993]
リワード・イン・コンテキスト(Rewards-in-Context, RiC)を導入する。
RiCは単一のファンデーションモデルの教師付き微調整のみを必要とし、推論時間中にユーザの好みを動的に調整する。
論文 参考訳(メタデータ) (2024-02-15T18:58:31Z) - Beyond One-Preference-Fits-All Alignment: Multi-Objective Direct
Preference Optimization [78.50294936259026]
我々は、最小限のオーバーヘッドで複数のアライメント目標に対して、MODPO(Multi-Objective Direct Preference Optimization)を提案する。
MODPOは言語モデリングを直接報酬モデリングに折り畳み、全ての目的を特定の重み付けと組み合わせた暗黙的な集団報酬モデル(cRM)としてLMを訓練する。
理論上は MORLHF と同じ最適解を生成することが保証されているが、MODPO は事実上より安定で計算的に効率的である。
論文 参考訳(メタデータ) (2023-10-05T17:35:26Z) - Human Preference-Based Learning for High-dimensional Optimization of
Exoskeleton Walking Gaits [55.59198568303196]
この研究は、LineCoSparという、高次元でユーザの好みを学習するヒューマン・イン・ザ・ループの好みベースのフレームワークを提示する。
シミュレーションと人為的試行において,LineCoSparは高次元の選好最適化のためのサンプル効率のよい手法であることを実証的に検証した。
この結果はエキソ骨格の歩行合成に影響を及ぼし,臨床応用と患者のリハビリテーションに有効である。
論文 参考訳(メタデータ) (2020-03-13T22:02:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。