Fugu-MT 論文翻訳(概要): Panacea: Pareto Alignment via Preference Adaptation for LLMs

論文の概要: Panacea: Pareto Alignment via Preference Adaptation for LLMs

arxiv url: http://arxiv.org/abs/2402.02030v1
Date: Sat, 3 Feb 2024 05:01:04 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-06 22:37:48.756971
Title: Panacea: Pareto Alignment via Preference Adaptation for LLMs
Title（参考訳）: Panacea: LLMの優先適応によるパレートアライメント
Authors: Yifan Zhong, Chengdong Ma, Xiaoyuan Zhang, Ziran Yang, Qingfu Zhang, Siyuan Qi, Yaodong Yang
Abstract要約: Panaceaは、多次元の選好最適化問題としてアライメントを再構築する革新的なアプローチである。主要な課題は、モデルの振舞いを導くために低次元の嗜好ベクトルを使うことである。パナセアは特異値分解(SVD)に基づく低ランク適応を使用するように設計されている。
参考スコア（独自算出の注目度）: 20.02186654371018
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Current methods for large language model alignment typically use scalar human preference labels. However, this convention tends to oversimplify the multi-dimensional and heterogeneous nature of human preferences, leading to reduced expressivity and even misalignment. This paper presents Panacea, an innovative approach that reframes alignment as a multi-dimensional preference optimization problem. Panacea trains a single model capable of adapting online and Pareto-optimally to diverse sets of preferences without the need for further tuning. A major challenge here is using a low-dimensional preference vector to guide the model's behavior, despite it being governed by an overwhelmingly large number of parameters. To address this, Panacea is designed to use singular value decomposition (SVD)-based low-rank adaptation, which allows the preference vector to be simply injected online as singular values. Theoretically, we prove that Panacea recovers the entire Pareto front with common loss aggregation methods under mild conditions. Moreover, our experiments demonstrate, for the first time, the feasibility of aligning a single LLM to represent a spectrum of human preferences through various optimization methods. Our work marks a step forward in effectively and efficiently aligning models to diverse and intricate human preferences in a controllable and Pareto-optimal manner.
Abstract（参考訳）: 現在の大規模言語モデルアライメントの方法は、通常、スカラー人間の好みラベルを使用する。しかし、この慣習は人間の好みの多次元的・異質な性質を過度に単純化し、表現力の低下や誤認につながる傾向がある。本稿では,多次元優先最適化問題としてアライメントを再構成する革新的手法であるPanaceaを提案する。 panaceaは、オンラインとパレートを最適化して、さらなるチューニングを必要とせずに様々な好みに適応できる単一モデルを訓練する。ここでの大きな課題は、非常に多くのパラメータによって制御されているにもかかわらず、低次元の選好ベクトルを使用してモデルの振る舞いを導くことである。これに対処するため、panaceaは特異値分解(single value decomposition:svd)ベースの低ランク適応を使用するように設計されている。理論的には, パナセアは軽度条件下で共通の損失凝集法でパレトフロント全体を回復する。さらに,様々な最適化手法を用いて,人間の好みのスペクトルを表現するために単一のllmを調整できることを示す実験を行った。私たちの研究は、モデルを効率的かつ効率的に、多様で複雑に調整し、制御可能でパレート最適な方法で人間の好みに合わせるための一歩を踏み出します。

関連論文リスト

Multi-Objective Preference Optimization: Improving Human Alignment of Generative Models [15.799929216215672]
制約付きKL正規化最適化としてアライメントをフレーム化するMOPOアルゴリズムを提案する。以前の作業とは異なり、MOPOはペアワイズ好みのデータを直接操作し、ポイントワイズ報酬の仮定を必要とせず、プロンプトコンテキストエンジニアリングを避ける。
論文参考訳（メタデータ） (2025-05-16T05:58:26Z)
Adaptive Helpfulness-Harmlessness Alignment with Preference Vectors [13.630818884973127]
タスク演算にインスパイアされた新しいフレームワークであるPreference Vectorを提案する。単一の目的内で複数の選好を最適化する代わりに、個々の選好について別々のモデルをトレーニングし、選好ベクトルとして振る舞いシフトを抽出し、テスト時に動的にマージします。実験の結果,提案するPreference Vectorフレームワークは,過度な保守性のない利便性の向上,好みのトレードオフのスムーズな制御,スケーラブルなマルチ参照アライメントをサポートすることがわかった。
論文参考訳（メタデータ） (2025-04-27T12:16:51Z)
Latent Embedding Adaptation for Human Preference Alignment in Diffusion Planners [16.863492060519157]
本研究は,自動意思決定システムにおける軌跡のパーソナライズという課題に対処する。本研究では,個人の好みに迅速に適応できる資源効率の高い手法を提案する。
論文参考訳（メタデータ） (2025-03-24T05:11:58Z)
UC-MOA: Utility-Conditioned Multi-Objective Alignment for Distributional Pareto-Optimality [52.49062565901046]
Reinforcement Learning from Human Feedback (RLHF) は、大きな言語モデルと人間の価値を整合させる基盤となっている。既存のアプローチは、人間の好みの多次元、分布的なニュアンスを捉えるのに苦労している。本稿では,これらの制約を克服する新しいフレームワークであるUtility-Conditioned Multi-Objective Alignment (UC-MOA)を紹介する。
論文参考訳（メタデータ） (2025-03-10T09:52:42Z)
Training Deep Learning Models with Norm-Constrained LMOs [56.00317694850397]
正規球上の線形最小化オラクル(LMO)を利用する最適化手法について検討する。この問題の幾何学に適応するためにLMOを用いた新しいアルゴリズム群を提案し, 意外なことに, 制約のない問題に適用可能であることを示す。
論文参考訳（メタデータ） (2025-02-11T13:10:34Z)
Refining Alignment Framework for Diffusion Models with Intermediate-Step Preference Ranking [50.325021634589596]
拡散モデルと人間の嗜好を整合させるためのTalored Optimization Preference(TailorPO)フレームワークを提案する。提案手法は,ステップワイド報酬に基づいて,中間雑音のサンプルを直接ランク付けし,勾配方向の問題を効果的に解決する。実験結果から,本手法は審美的,人為的な画像生成能力を大幅に向上させることが示された。
論文参考訳（メタデータ） (2025-02-01T16:08:43Z)
Personalized Preference Fine-tuning of Diffusion Models [75.22218338096316]
拡散モデルとパーソナライズされた嗜好を整合させるマルチリワード最適化の目的であるPDを導入する。 PPDでは、拡散モデルがユーザーの個人の好みを数秒で学習する。提案手法は,Stable Cascadeに対して平均76%の勝利率を達成し,特定のユーザの好みをより正確に反映した画像を生成する。
論文参考訳（メタデータ） (2025-01-11T22:38:41Z)
Few-shot Steerable Alignment: Adapting Rewards and LLM Policies with Neural Processes [50.544186914115045]
大きな言語モデル(LLM)は、日々のアプリケーションにますます組み込まれています。個人ユーザの多様な嗜好との整合性を確保することは、重要な課題となっている。数発のステアライメントのための新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-12-18T16:14:59Z)
Geometric-Averaged Preference Optimization for Soft Preference Labels [78.2746007085333]
LLMを人間の嗜好と整合させる多くのアルゴリズムは、人間の嗜好は二進的かつ決定論的であると仮定する。本研究では,分散ソフトな選好ラベルを導入し,損失関数におけるLLM出力確率の重み付き幾何平均を用いて直接選好最適化(DPO)を改善する。
論文参考訳（メタデータ） (2024-09-10T17:54:28Z)
Preference-Optimized Pareto Set Learning for Blackbox Optimization [1.9628841617148691]
すべての目的を同時に最適化できる単一のソリューションはありません。典型的なMOO問題では、目的間の好みを交換する最適解(パレート集合)を見つけることが目的である。我々の定式化は、例えば微分可能なクロスエントロピー法によって解決できる二段階最適化問題につながる。
論文参考訳（メタデータ） (2024-08-19T13:23:07Z)
mDPO: Conditional Preference Optimization for Multimodal Large Language Models [52.607764280030196]
直接選好最適化(DPO)は,大規模言語モデル(LLM)のアライメントに有効な手法であることが示されている。最近の研究は、DPOをマルチモーダルシナリオに適用しようと試みているが、一貫した改善を達成することは困難である。画像の嗜好を最適化することで、言語のみの嗜好の過度な優先順位付けを防止するマルチモーダルDPOであるmDPOを提案する。
論文参考訳（メタデータ） (2024-06-17T17:59:58Z)
Adaptive Preference Scaling for Reinforcement Learning with Human Feedback [103.36048042664768]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムと人間の価値を合わせるための一般的なアプローチである。本稿では,分散ロバスト最適化(DRO)に基づく適応的優先損失を提案する。提案手法は多用途であり,様々な選好最適化フレームワークに容易に適用可能である。
論文参考訳（メタデータ） (2024-06-04T20:33:22Z)
Multi-Reference Preference Optimization for Large Language Models [56.84730239046117]
複数の参照モデルを用いた直接選好最適化のための新しいクローズドフォームの定式化を提案する。得られたアルゴリズムであるMulti-Reference Preference Optimization (MRPO)は、様々な参照モデルからより広範な事前知識を活用する。 MRPOを微調整したLLMは,データ不足や多量性に関わらず,様々な嗜好データにおいてより一般化されていることを示す。
論文参考訳（メタデータ） (2024-05-26T00:29:04Z)
SPO: Multi-Dimensional Preference Sequential Alignment With Implicit Reward Modeling [34.32744849352087]
本研究では,人間の好みに合わせて,大規模言語モデルを逐次微調整する手法を提案する。理論的には閉形式最適SPOポリシーと損失関数を導出する。異なる大きさのLLMと複数の評価データセットの実証結果から、SPOはLLMを人間の嗜好の多次元にわたって整列させることに成功した。
論文参考訳（メタデータ） (2024-05-21T12:47:17Z)
Controllable Preference Optimization: Toward Controllable Multi-Objective Alignment [103.12563033438715]
人工知能におけるアライメントは、モデル応答と人間の好みと値の一貫性を追求する。既存のアライメント技術は、主に一方向であり、様々な目的に対して、最適以下のトレードオフと柔軟性の低下につながる。制御可能な選好最適化(CPO)を導入し、異なる目的に対する選好スコアを明確に指定する。
論文参考訳（メタデータ） (2024-02-29T12:12:30Z)
Rewards-in-Context: Multi-objective Alignment of Foundation Models with Dynamic Preference Adjustment [46.44464839353993]
リワード・イン・コンテキスト(Rewards-in-Context, RiC)を導入する。 RiCは単一のファンデーションモデルの教師付き微調整のみを必要とし、推論時間中にユーザの好みを動的に調整する。
論文参考訳（メタデータ） (2024-02-15T18:58:31Z)
Human Preference-Based Learning for High-dimensional Optimization of Exoskeleton Walking Gaits [55.59198568303196]
この研究は、LineCoSparという、高次元でユーザの好みを学習するヒューマン・イン・ザ・ループの好みベースのフレームワークを提示する。シミュレーションと人為的試行において,LineCoSparは高次元の選好最適化のためのサンプル効率のよい手法であることを実証的に検証した。この結果はエキソ骨格の歩行合成に影響を及ぼし,臨床応用と患者のリハビリテーションに有効である。
論文参考訳（メタデータ） (2020-03-13T22:02:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。