論文の概要: Panacea: Pareto Alignment via Preference Adaptation for LLMs
- arxiv url: http://arxiv.org/abs/2402.02030v1
- Date: Sat, 3 Feb 2024 05:01:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 22:37:48.756971
- Title: Panacea: Pareto Alignment via Preference Adaptation for LLMs
- Title(参考訳): Panacea: LLMの優先適応によるパレートアライメント
- Authors: Yifan Zhong, Chengdong Ma, Xiaoyuan Zhang, Ziran Yang, Qingfu Zhang,
Siyuan Qi, Yaodong Yang
- Abstract要約: Panaceaは、多次元の選好最適化問題としてアライメントを再構築する革新的なアプローチである。
主要な課題は、モデルの振舞いを導くために低次元の嗜好ベクトルを使うことである。
パナセアは特異値分解(SVD)に基づく低ランク適応を使用するように設計されている。
- 参考スコア(独自算出の注目度): 20.02186654371018
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current methods for large language model alignment typically use scalar human
preference labels. However, this convention tends to oversimplify the
multi-dimensional and heterogeneous nature of human preferences, leading to
reduced expressivity and even misalignment. This paper presents Panacea, an
innovative approach that reframes alignment as a multi-dimensional preference
optimization problem. Panacea trains a single model capable of adapting online
and Pareto-optimally to diverse sets of preferences without the need for
further tuning. A major challenge here is using a low-dimensional preference
vector to guide the model's behavior, despite it being governed by an
overwhelmingly large number of parameters. To address this, Panacea is designed
to use singular value decomposition (SVD)-based low-rank adaptation, which
allows the preference vector to be simply injected online as singular values.
Theoretically, we prove that Panacea recovers the entire Pareto front with
common loss aggregation methods under mild conditions. Moreover, our
experiments demonstrate, for the first time, the feasibility of aligning a
single LLM to represent a spectrum of human preferences through various
optimization methods. Our work marks a step forward in effectively and
efficiently aligning models to diverse and intricate human preferences in a
controllable and Pareto-optimal manner.
- Abstract(参考訳): 現在の大規模言語モデルアライメントの方法は、通常、スカラー人間の好みラベルを使用する。
しかし、この慣習は人間の好みの多次元的・異質な性質を過度に単純化し、表現力の低下や誤認につながる傾向がある。
本稿では,多次元優先最適化問題としてアライメントを再構成する革新的手法であるPanaceaを提案する。
panaceaは、オンラインとパレートを最適化して、さらなるチューニングを必要とせずに様々な好みに適応できる単一モデルを訓練する。
ここでの大きな課題は、非常に多くのパラメータによって制御されているにもかかわらず、低次元の選好ベクトルを使用してモデルの振る舞いを導くことである。
これに対処するため、panaceaは特異値分解(single value decomposition:svd)ベースの低ランク適応を使用するように設計されている。
理論的には, パナセアは軽度条件下で共通の損失凝集法でパレトフロント全体を回復する。
さらに,様々な最適化手法を用いて,人間の好みのスペクトルを表現するために単一のllmを調整できることを示す実験を行った。
私たちの研究は、モデルを効率的かつ効率的に、多様で複雑に調整し、制御可能でパレート最適な方法で人間の好みに合わせるための一歩を踏み出します。
関連論文リスト
- Geometric-Averaged Preference Optimization for Soft Preference Labels [78.2746007085333]
LLMを人間の嗜好と整合させる多くのアルゴリズムは、人間の嗜好は二進的かつ決定論的であると仮定する。
本研究では,分散ソフトな選好ラベルを導入し,損失関数におけるLLM出力確率の重み付き幾何平均を用いて直接選好最適化(DPO)を改善する。
論文 参考訳(メタデータ) (2024-09-10T17:54:28Z) - Preference-Optimized Pareto Set Learning for Blackbox Optimization [1.9628841617148691]
すべての目的を同時に最適化できる単一のソリューションはありません。
典型的なMOO問題では、目的間の好みを交換する最適解(パレート集合)を見つけることが目的である。
我々の定式化は、例えば微分可能なクロスエントロピー法によって解決できる二段階最適化問題につながる。
論文 参考訳(メタデータ) (2024-08-19T13:23:07Z) - mDPO: Conditional Preference Optimization for Multimodal Large Language Models [52.607764280030196]
直接選好最適化(DPO)は,大規模言語モデル(LLM)のアライメントに有効な手法であることが示されている。
最近の研究は、DPOをマルチモーダルシナリオに適用しようと試みているが、一貫した改善を達成することは困難である。
画像の嗜好を最適化することで、言語のみの嗜好の過度な優先順位付けを防止するマルチモーダルDPOであるmDPOを提案する。
論文 参考訳(メタデータ) (2024-06-17T17:59:58Z) - Adaptive Preference Scaling for Reinforcement Learning with Human Feedback [103.36048042664768]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムと人間の価値を合わせるための一般的なアプローチである。
本稿では,分散ロバスト最適化(DRO)に基づく適応的優先損失を提案する。
提案手法は多用途であり,様々な選好最適化フレームワークに容易に適用可能である。
論文 参考訳(メタデータ) (2024-06-04T20:33:22Z) - Multi-Reference Preference Optimization for Large Language Models [56.84730239046117]
複数の参照モデルを用いた直接選好最適化のための新しいクローズドフォームの定式化を提案する。
得られたアルゴリズムであるMulti-Reference Preference Optimization (MRPO)は、様々な参照モデルからより広範な事前知識を活用する。
MRPOを微調整したLLMは,データ不足や多量性に関わらず,様々な嗜好データにおいてより一般化されていることを示す。
論文 参考訳(メタデータ) (2024-05-26T00:29:04Z) - SPO: Multi-Dimensional Preference Sequential Alignment With Implicit Reward Modeling [34.32744849352087]
本研究では,人間の好みに合わせて,大規模言語モデルを逐次微調整する手法を提案する。
理論的には閉形式最適SPOポリシーと損失関数を導出する。
異なる大きさのLLMと複数の評価データセットの実証結果から、SPOはLLMを人間の嗜好の多次元にわたって整列させることに成功した。
論文 参考訳(メタデータ) (2024-05-21T12:47:17Z) - Controllable Preference Optimization: Toward Controllable Multi-Objective Alignment [103.12563033438715]
人工知能におけるアライメントは、モデル応答と人間の好みと値の一貫性を追求する。
既存のアライメント技術は、主に一方向であり、様々な目的に対して、最適以下のトレードオフと柔軟性の低下につながる。
制御可能な選好最適化(CPO)を導入し、異なる目的に対する選好スコアを明確に指定する。
論文 参考訳(メタデータ) (2024-02-29T12:12:30Z) - Rewards-in-Context: Multi-objective Alignment of Foundation Models with Dynamic Preference Adjustment [46.44464839353993]
リワード・イン・コンテキスト(Rewards-in-Context, RiC)を導入する。
RiCは単一のファンデーションモデルの教師付き微調整のみを必要とし、推論時間中にユーザの好みを動的に調整する。
論文 参考訳(メタデータ) (2024-02-15T18:58:31Z) - Human Preference-Based Learning for High-dimensional Optimization of
Exoskeleton Walking Gaits [55.59198568303196]
この研究は、LineCoSparという、高次元でユーザの好みを学習するヒューマン・イン・ザ・ループの好みベースのフレームワークを提示する。
シミュレーションと人為的試行において,LineCoSparは高次元の選好最適化のためのサンプル効率のよい手法であることを実証的に検証した。
この結果はエキソ骨格の歩行合成に影響を及ぼし,臨床応用と患者のリハビリテーションに有効である。
論文 参考訳(メタデータ) (2020-03-13T22:02:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。