論文の概要: AMoPO: Adaptive Multi-objective Preference Optimization without Reward Models and Reference Models
- arxiv url: http://arxiv.org/abs/2506.07165v1
- Date: Sun, 08 Jun 2025 14:31:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 21:10:47.082257
- Title: AMoPO: Adaptive Multi-objective Preference Optimization without Reward Models and Reference Models
- Title(参考訳): AMoPO: 逆モデルと参照モデルのない適応型多目的選好最適化
- Authors: Qi Liu, Jingqing Ruan, Hao Li, Haodong Zhao, Desheng Wang, Jiansong Chen, Wan Guanglu, Xunliang Cai, Zhi Zheng, Tong Xu,
- Abstract要約: AMoPOは、選好次元間の動的バランスを実現する新しいフレームワークである。
本稿では,次元認識尺度を暗黙の報酬として用いるために,多目的最適化パラダイムを導入する。
実証的な結果は、AMoPOが最先端のベースラインを28.5%上回っていることを示している。
- 参考スコア(独自算出の注目度): 18.249363312256722
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing multi-objective preference alignment methods for large language models (LLMs) face limitations: (1) the inability to effectively balance various preference dimensions, and (2) reliance on auxiliary reward/reference models introduces computational complexity. To address these challenges, we propose Adaptive Multi-objective Preference Optimization (AMoPO), a novel framework that achieves dynamic balance across preference dimensions. By introducing the multi-objective optimization paradigm to use the dimension-aware generation metrics as implicit rewards, AMoPO aligns LLMs with diverse preferences without additional reward models or reference models. We introduce an adaptive weight assignment mechanism that models the generation space as a Gaussian distribution, allowing dynamic prioritization of preference dimensions. Empirical results demonstrate that AMoPO outperforms state-of-the-art baselines by 28.5%, and the experiments on 7B, 14B, and 32B models reveal the scaling ability of AMoPO. Moreover, additional analysis of multiple dimensions verifies its adaptability and effectiveness. These findings validate AMoPO's capability to achieve dimension-aware preference alignment, highlighting its superiority. Our codes and datasets are available at https://github.com/Javkonline/AMoPO.
- Abstract(参考訳): 既存の大規模言語モデル (LLM) の多目的選好アライメント手法は,(1) 様々な選好次元を効果的にバランスできないこと,(2) 補助報酬/参照モデルに依存しないこと,といった制約に直面している。
これらの課題に対処するため、我々は、優先次元間の動的バランスを実現する新しいフレームワークであるAdaptive Multi-Objective Preference Optimization (AMoPO)を提案する。
多目的最適化パラダイムを導入して、次元認識生成メトリクスを暗黙の報酬として使用することにより、AMoPOはLLMを追加の報酬モデルや参照モデルなしで様々な嗜好と整合させる。
本稿では,生成空間をガウス分布としてモデル化し,選好次元の動的優先順位付けを可能にする適応重み付け機構を提案する。
実験の結果、AMoPOは最先端のベースラインを28.5%上回り、7B、14B、32BモデルはAMoPOのスケーリング能力を示している。
さらに、多重次元のさらなる解析は、適応性と有効性を検証する。
以上の結果から, AMoPO のアライメントアライメント能力は, AMoPO のアライメントアライメントの優位性を強調した。
私たちのコードとデータセットはhttps://github.com/Javkonline/AMoPO.comで公開されています。
関連論文リスト
- MaPPO: Maximum a Posteriori Preference Optimization with Prior Knowledge [35.703451475662995]
本稿では,好みから学習するフレームワークであるPosteriori Preference Optimization (MaPPO)を提案する。
MaPPOは、事前の報酬推定値を、原則的最大値MaP(Posteriori)目標に統合する。
MaPPOはDPOの亜種を一貫して改善したプラグインとして使用できる。
論文 参考訳(メタデータ) (2025-07-27T05:26:50Z) - Preference-Guided Diffusion for Multi-Objective Offline Optimization [64.08326521234228]
オフライン多目的最適化のための優先誘導拡散モデルを提案する。
我々の指導は、ある設計が他の設計を支配する確率を予測するために訓練された選好モデルである。
本結果は,多種多様な高品質な解を生成する上での分類器誘導拡散モデルの有効性を浮き彫りにした。
論文 参考訳(メタデータ) (2025-03-21T16:49:38Z) - Robust Multi-Objective Preference Alignment with Online DPO [6.434799451791957]
多目的選好アライメントは、パーソナライズ可能で、有用で、安全であるAIシステムの開発に不可欠である。
既存のアプローチは、トレーニングに計算コストがかかるか、モデル動作を十分に制御できないかのいずれかである。
本稿では,多目的オンラインDPOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-03-01T02:01:49Z) - Optimizing Sequential Recommendation Models with Scaling Laws and Approximate Entropy [104.48511402784763]
SRモデルの性能法則は,モデルの性能とデータ品質の関係を理論的に調査し,モデル化することを目的としている。
データ品質を評価するために、従来のデータ量メトリクスと比較して、より曖昧なアプローチを示すために、近似エントロピー(ApEn)を提案する。
論文 参考訳(メタデータ) (2024-11-30T10:56:30Z) - mDPO: Conditional Preference Optimization for Multimodal Large Language Models [52.607764280030196]
直接選好最適化(DPO)は,大規模言語モデル(LLM)のアライメントに有効な手法であることが示されている。
最近の研究は、DPOをマルチモーダルシナリオに適用しようと試みているが、一貫した改善を達成することは困難である。
画像の嗜好を最適化することで、言語のみの嗜好の過度な優先順位付けを防止するマルチモーダルDPOであるmDPOを提案する。
論文 参考訳(メタデータ) (2024-06-17T17:59:58Z) - Multi-Reference Preference Optimization for Large Language Models [56.84730239046117]
複数の参照モデルを用いた直接選好最適化のための新しいクローズドフォームの定式化を提案する。
得られたアルゴリズムであるMulti-Reference Preference Optimization (MRPO)は、様々な参照モデルからより広範な事前知識を活用する。
MRPOを微調整したLLMは,データ不足や多量性に関わらず,様々な嗜好データにおいてより一般化されていることを示す。
論文 参考訳(メタデータ) (2024-05-26T00:29:04Z) - Diffusion Model for Data-Driven Black-Box Optimization [54.25693582870226]
我々は、強力な生成AI技術である拡散モデルに注目し、ブラックボックス最適化の可能性について検討する。
本研究では,1)実数値報酬関数のノイズ測定と,2)対比較に基づく人間の嗜好の2種類のラベルについて検討する。
提案手法は,設計最適化問題を条件付きサンプリング問題に再構成し,拡散モデルのパワーを有効活用する。
論文 参考訳(メタデータ) (2024-03-20T00:41:12Z) - Rewards-in-Context: Multi-objective Alignment of Foundation Models with Dynamic Preference Adjustment [46.44464839353993]
リワード・イン・コンテキスト(Rewards-in-Context, RiC)を導入する。
RiCは単一のファンデーションモデルの教師付き微調整のみを必要とし、推論時間中にユーザの好みを動的に調整する。
論文 参考訳(メタデータ) (2024-02-15T18:58:31Z) - Beyond One-Preference-Fits-All Alignment: Multi-Objective Direct Preference Optimization [76.09576643028362]
複数のアライメント目的に対してMODPO(Multi-Objective Direct Preference Optimization)を提案する。
MODPOは、言語モデリングを直接報酬モデルに折り畳み、暗黙の集団報酬モデルとして言語モデルを訓練する。
理論的には MORLHF と同じ最適解が得られるが、実質的にはより安定で効率的である。
論文 参考訳(メタデータ) (2023-10-05T17:35:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。