論文の概要: AMoPO: Adaptive Multi-objective Preference Optimization without Reward Models and Reference Models
- arxiv url: http://arxiv.org/abs/2506.07165v1
- Date: Sun, 08 Jun 2025 14:31:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 21:10:47.082257
- Title: AMoPO: Adaptive Multi-objective Preference Optimization without Reward Models and Reference Models
- Title(参考訳): AMoPO: 逆モデルと参照モデルのない適応型多目的選好最適化
- Authors: Qi Liu, Jingqing Ruan, Hao Li, Haodong Zhao, Desheng Wang, Jiansong Chen, Wan Guanglu, Xunliang Cai, Zhi Zheng, Tong Xu,
- Abstract要約: AMoPOは、選好次元間の動的バランスを実現する新しいフレームワークである。
本稿では,次元認識尺度を暗黙の報酬として用いるために,多目的最適化パラダイムを導入する。
実証的な結果は、AMoPOが最先端のベースラインを28.5%上回っていることを示している。
- 参考スコア(独自算出の注目度): 18.249363312256722
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing multi-objective preference alignment methods for large language models (LLMs) face limitations: (1) the inability to effectively balance various preference dimensions, and (2) reliance on auxiliary reward/reference models introduces computational complexity. To address these challenges, we propose Adaptive Multi-objective Preference Optimization (AMoPO), a novel framework that achieves dynamic balance across preference dimensions. By introducing the multi-objective optimization paradigm to use the dimension-aware generation metrics as implicit rewards, AMoPO aligns LLMs with diverse preferences without additional reward models or reference models. We introduce an adaptive weight assignment mechanism that models the generation space as a Gaussian distribution, allowing dynamic prioritization of preference dimensions. Empirical results demonstrate that AMoPO outperforms state-of-the-art baselines by 28.5%, and the experiments on 7B, 14B, and 32B models reveal the scaling ability of AMoPO. Moreover, additional analysis of multiple dimensions verifies its adaptability and effectiveness. These findings validate AMoPO's capability to achieve dimension-aware preference alignment, highlighting its superiority. Our codes and datasets are available at https://github.com/Javkonline/AMoPO.
- Abstract(参考訳): 既存の大規模言語モデル (LLM) の多目的選好アライメント手法は,(1) 様々な選好次元を効果的にバランスできないこと,(2) 補助報酬/参照モデルに依存しないこと,といった制約に直面している。
これらの課題に対処するため、我々は、優先次元間の動的バランスを実現する新しいフレームワークであるAdaptive Multi-Objective Preference Optimization (AMoPO)を提案する。
多目的最適化パラダイムを導入して、次元認識生成メトリクスを暗黙の報酬として使用することにより、AMoPOはLLMを追加の報酬モデルや参照モデルなしで様々な嗜好と整合させる。
本稿では,生成空間をガウス分布としてモデル化し,選好次元の動的優先順位付けを可能にする適応重み付け機構を提案する。
実験の結果、AMoPOは最先端のベースラインを28.5%上回り、7B、14B、32BモデルはAMoPOのスケーリング能力を示している。
さらに、多重次元のさらなる解析は、適応性と有効性を検証する。
以上の結果から, AMoPO のアライメントアライメント能力は, AMoPO のアライメントアライメントの優位性を強調した。
私たちのコードとデータセットはhttps://github.com/Javkonline/AMoPO.comで公開されています。
関連論文リスト
- Robust Multi-Objective Preference Alignment with Online DPO [6.434799451791957]
多目的選好アライメントは、パーソナライズ可能で、有用で、安全であるAIシステムの開発に不可欠である。
既存のアプローチは、トレーニングに計算コストがかかるか、モデル動作を十分に制御できないかのいずれかである。
本稿では,多目的オンラインDPOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-03-01T02:01:49Z) - mDPO: Conditional Preference Optimization for Multimodal Large Language Models [52.607764280030196]
直接選好最適化(DPO)は,大規模言語モデル(LLM)のアライメントに有効な手法であることが示されている。
最近の研究は、DPOをマルチモーダルシナリオに適用しようと試みているが、一貫した改善を達成することは困難である。
画像の嗜好を最適化することで、言語のみの嗜好の過度な優先順位付けを防止するマルチモーダルDPOであるmDPOを提案する。
論文 参考訳(メタデータ) (2024-06-17T17:59:58Z) - Multi-Reference Preference Optimization for Large Language Models [56.84730239046117]
複数の参照モデルを用いた直接選好最適化のための新しいクローズドフォームの定式化を提案する。
得られたアルゴリズムであるMulti-Reference Preference Optimization (MRPO)は、様々な参照モデルからより広範な事前知識を活用する。
MRPOを微調整したLLMは,データ不足や多量性に関わらず,様々な嗜好データにおいてより一般化されていることを示す。
論文 参考訳(メタデータ) (2024-05-26T00:29:04Z) - Rewards-in-Context: Multi-objective Alignment of Foundation Models with Dynamic Preference Adjustment [46.44464839353993]
リワード・イン・コンテキスト(Rewards-in-Context, RiC)を導入する。
RiCは単一のファンデーションモデルの教師付き微調整のみを必要とし、推論時間中にユーザの好みを動的に調整する。
論文 参考訳(メタデータ) (2024-02-15T18:58:31Z) - Beyond One-Preference-Fits-All Alignment: Multi-Objective Direct Preference Optimization [76.09576643028362]
複数のアライメント目的に対してMODPO(Multi-Objective Direct Preference Optimization)を提案する。
MODPOは、言語モデリングを直接報酬モデルに折り畳み、暗黙の集団報酬モデルとして言語モデルを訓練する。
理論的には MORLHF と同じ最適解が得られるが、実質的にはより安定で効率的である。
論文 参考訳(メタデータ) (2023-10-05T17:35:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。