論文の概要: Panacea: Pareto Alignment via Preference Adaptation for LLMs
- arxiv url: http://arxiv.org/abs/2402.02030v1
- Date: Sat, 3 Feb 2024 05:01:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 22:37:48.756971
- Title: Panacea: Pareto Alignment via Preference Adaptation for LLMs
- Title(参考訳): Panacea: LLMの優先適応によるパレートアライメント
- Authors: Yifan Zhong, Chengdong Ma, Xiaoyuan Zhang, Ziran Yang, Qingfu Zhang,
Siyuan Qi, Yaodong Yang
- Abstract要約: Panaceaは、多次元の選好最適化問題としてアライメントを再構築する革新的なアプローチである。
主要な課題は、モデルの振舞いを導くために低次元の嗜好ベクトルを使うことである。
パナセアは特異値分解(SVD)に基づく低ランク適応を使用するように設計されている。
- 参考スコア(独自算出の注目度): 20.02186654371018
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current methods for large language model alignment typically use scalar human
preference labels. However, this convention tends to oversimplify the
multi-dimensional and heterogeneous nature of human preferences, leading to
reduced expressivity and even misalignment. This paper presents Panacea, an
innovative approach that reframes alignment as a multi-dimensional preference
optimization problem. Panacea trains a single model capable of adapting online
and Pareto-optimally to diverse sets of preferences without the need for
further tuning. A major challenge here is using a low-dimensional preference
vector to guide the model's behavior, despite it being governed by an
overwhelmingly large number of parameters. To address this, Panacea is designed
to use singular value decomposition (SVD)-based low-rank adaptation, which
allows the preference vector to be simply injected online as singular values.
Theoretically, we prove that Panacea recovers the entire Pareto front with
common loss aggregation methods under mild conditions. Moreover, our
experiments demonstrate, for the first time, the feasibility of aligning a
single LLM to represent a spectrum of human preferences through various
optimization methods. Our work marks a step forward in effectively and
efficiently aligning models to diverse and intricate human preferences in a
controllable and Pareto-optimal manner.
- Abstract(参考訳): 現在の大規模言語モデルアライメントの方法は、通常、スカラー人間の好みラベルを使用する。
しかし、この慣習は人間の好みの多次元的・異質な性質を過度に単純化し、表現力の低下や誤認につながる傾向がある。
本稿では,多次元優先最適化問題としてアライメントを再構成する革新的手法であるPanaceaを提案する。
panaceaは、オンラインとパレートを最適化して、さらなるチューニングを必要とせずに様々な好みに適応できる単一モデルを訓練する。
ここでの大きな課題は、非常に多くのパラメータによって制御されているにもかかわらず、低次元の選好ベクトルを使用してモデルの振る舞いを導くことである。
これに対処するため、panaceaは特異値分解(single value decomposition:svd)ベースの低ランク適応を使用するように設計されている。
理論的には, パナセアは軽度条件下で共通の損失凝集法でパレトフロント全体を回復する。
さらに,様々な最適化手法を用いて,人間の好みのスペクトルを表現するために単一のllmを調整できることを示す実験を行った。
私たちの研究は、モデルを効率的かつ効率的に、多様で複雑に調整し、制御可能でパレート最適な方法で人間の好みに合わせるための一歩を踏み出します。
関連論文リスト
- Training Deep Learning Models with Norm-Constrained LMOs [56.00317694850397]
正規球上の線形最小化オラクル(LMO)を利用する最適化手法について検討する。
この問題の幾何学に適応するためにLMOを用いた新しいアルゴリズム群を提案し, 意外なことに, 制約のない問題に適用可能であることを示す。
論文 参考訳(メタデータ) (2025-02-11T13:10:34Z) - Refining Alignment Framework for Diffusion Models with Intermediate-Step Preference Ranking [50.325021634589596]
拡散モデルと人間の嗜好を整合させるためのTalored Optimization Preference(TailorPO)フレームワークを提案する。
提案手法は,ステップワイド報酬に基づいて,中間雑音のサンプルを直接ランク付けし,勾配方向の問題を効果的に解決する。
実験結果から,本手法は審美的,人為的な画像生成能力を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2025-02-01T16:08:43Z) - Personalized Preference Fine-tuning of Diffusion Models [75.22218338096316]
拡散モデルとパーソナライズされた嗜好を整合させるマルチリワード最適化の目的であるPDを導入する。
PPDでは、拡散モデルがユーザーの個人の好みを数秒で学習する。
提案手法は,Stable Cascadeに対して平均76%の勝利率を達成し,特定のユーザの好みをより正確に反映した画像を生成する。
論文 参考訳(メタデータ) (2025-01-11T22:38:41Z) - Few-shot Steerable Alignment: Adapting Rewards and LLM Policies with Neural Processes [50.544186914115045]
大きな言語モデル(LLM)は、日々のアプリケーションにますます組み込まれています。
個人ユーザの多様な嗜好との整合性を確保することは、重要な課題となっている。
数発のステアライメントのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-18T16:14:59Z) - Adaptive Preference Scaling for Reinforcement Learning with Human Feedback [103.36048042664768]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムと人間の価値を合わせるための一般的なアプローチである。
本稿では,分散ロバスト最適化(DRO)に基づく適応的優先損失を提案する。
提案手法は多用途であり,様々な選好最適化フレームワークに容易に適用可能である。
論文 参考訳(メタデータ) (2024-06-04T20:33:22Z) - Multi-Reference Preference Optimization for Large Language Models [56.84730239046117]
複数の参照モデルを用いた直接選好最適化のための新しいクローズドフォームの定式化を提案する。
得られたアルゴリズムであるMulti-Reference Preference Optimization (MRPO)は、様々な参照モデルからより広範な事前知識を活用する。
MRPOを微調整したLLMは,データ不足や多量性に関わらず,様々な嗜好データにおいてより一般化されていることを示す。
論文 参考訳(メタデータ) (2024-05-26T00:29:04Z) - SPO: Multi-Dimensional Preference Sequential Alignment With Implicit Reward Modeling [34.32744849352087]
本研究では,人間の好みに合わせて,大規模言語モデルを逐次微調整する手法を提案する。
理論的には閉形式最適SPOポリシーと損失関数を導出する。
異なる大きさのLLMと複数の評価データセットの実証結果から、SPOはLLMを人間の嗜好の多次元にわたって整列させることに成功した。
論文 参考訳(メタデータ) (2024-05-21T12:47:17Z) - Rewards-in-Context: Multi-objective Alignment of Foundation Models with Dynamic Preference Adjustment [46.44464839353993]
リワード・イン・コンテキスト(Rewards-in-Context, RiC)を導入する。
RiCは単一のファンデーションモデルの教師付き微調整のみを必要とし、推論時間中にユーザの好みを動的に調整する。
論文 参考訳(メタデータ) (2024-02-15T18:58:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。