論文の概要: Learning to Optimize Multi-Objective Alignment Through Dynamic Reward Weighting
- arxiv url: http://arxiv.org/abs/2509.11452v1
- Date: Sun, 14 Sep 2025 21:56:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:23.090458
- Title: Learning to Optimize Multi-Objective Alignment Through Dynamic Reward Weighting
- Title(参考訳): 動的リワード重み付けによる多目的アライメントの最適化学習
- Authors: Yining Lu, Zilong Wang, Shiyang Li, Xin Liu, Changlong Yu, Qingyu Yin, Zhan Shi, Zixuan Zhang, Meng Jiang,
- Abstract要約: マルチリワード学習における以前の研究は、通常、固定重み付き線形スカラー化を使用しており、効果的なオンライン学習を捉えることができない。
目的整合性を高めるための2つのアプローチ、オンライン学習のためのもの、宇宙探査のためのものを紹介する。
- 参考スコア(独自算出の注目度): 48.87957020168614
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prior works in multi-objective reinforcement learning typically use linear reward scalarization with fixed weights, which provably fail to capture non-convex Pareto fronts and thus yield suboptimal results. This limitation becomes especially critical in online preference alignment for large language models. Here, stochastic trajectories generated by parameterized policies create highly non-linear and non-convex mappings from parameters to objectives that no single static weighting scheme can find optimal trade-offs. We address this limitation by introducing dynamic reward weighting, which adaptively adjusts reward weights during the online reinforcement learning process. Unlike existing approaches that rely on fixed-weight interpolation, our dynamic weighting continuously balances and prioritizes objectives in training, facilitating effective exploration of Pareto fronts in objective space. We introduce two approaches of increasing sophistication and generalizability: (1) hypervolume-guided weight adaptation and (2) gradient-based weight optimization, offering a versatile toolkit for online multi-objective alignment. Our extensive experiments demonstrate their compatibility with commonly used online reinforcement learning algorithms (including GRPO, REINFORCE, and RLOO), effectiveness across multiple mathematical reasoning datasets, and applicability to different model families, consistently achieving Pareto dominant solutions with fewer training steps than fixed-weight linear scalarization baselines.
- Abstract(参考訳): 多目的強化学習における先行研究は、通常、固定重み付き線形報酬スカラー化を使用しており、非凸パレートフロントの捕捉に失敗し、従って準最適結果を得る。
この制限は、大規模言語モデルのオンライン嗜好調整において特に重要となる。
ここでは、パラメータ化されたポリシーによって生成される確率的軌跡は、パラメータから目的への高度に非線形かつ非凸なマッピングを生成し、単一の静的重み付けスキームが最適なトレードオフを見つけることができない。
オンライン強化学習プロセスにおいて、報酬重み付けを適応的に調整する動的報酬重み付けを導入することで、この制限に対処する。
固定重補間に依存する既存のアプローチとは異なり、我々の動的重み付けは継続的なバランスを保ち、トレーニングの目的を優先し、客観的空間におけるパレートフロントの効率的な探索を促進する。
1)超体積誘導重み適応と(2)勾配に基づく重み最適化の2つのアプローチを導入し、オンライン多目的アライメントのための多目的ツールキットを提供する。
広範にわたる実験により,オンライン強化学習アルゴリズム(GRPO,REINFORCE,ROOを含む)との整合性,複数の数学的推論データセットに対する有効性,モデルファミリに対する適用性などが実証され,定重線形スカラー化ベースラインよりもトレーニングステップの少ないPareto支配的なソリューションが一貫して達成された。
関連論文リスト
- Multi-Preference Lambda-weighted Listwise DPO for Small-Scale Model Alignment [5.276657230880984]
大規模言語モデル(LLM)は、幅広い言語タスクに対して強力な一般化を示すが、しばしば人間の好みに反する出力を生成する。
直接最適化選好(DPO)は、二項選好対に対する分類タスクとしてアライメントを扱い、プロセスを単純化する。
我々は、より詳細な人間のフィードバックからモデルを学習できるマルチパラメータLambda-weighted Listwise DPOを提案する。
本手法は, 実世界の展開に適した効率, 制御可能, きめ細かな適応を実現しつつ, 標準DPOのアライメント性能を常に向上させる。
論文 参考訳(メタデータ) (2025-06-24T16:47:17Z) - Towards Efficient Pareto Set Approximation via Mixture of Experts Based Model Fusion [53.33473557562837]
大規模深層ニューラルネットワークに対する多目的最適化問題を解くことは、損失ランドスケープの複雑さと高価な計算コストのために難しい課題である。
本稿では,専門家(MoE)をベースとしたモデル融合を用いて,この問題を実用的でスケーラブルに解決する手法を提案する。
特殊な単一タスクモデルの重みをまとめることで、MoEモジュールは複数の目的間のトレードオフを効果的に捉えることができる。
論文 参考訳(メタデータ) (2024-06-14T07:16:18Z) - Rewards-in-Context: Multi-objective Alignment of Foundation Models with Dynamic Preference Adjustment [46.44464839353993]
リワード・イン・コンテキスト(Rewards-in-Context, RiC)を導入する。
RiCは単一のファンデーションモデルの教師付き微調整のみを必要とし、推論時間中にユーザの好みを動的に調整する。
論文 参考訳(メタデータ) (2024-02-15T18:58:31Z) - Model-Based Reinforcement Learning with Multi-Task Offline Pretraining [59.82457030180094]
本稿では,オフラインデータから新しいタスクへ,潜在的に有用なダイナミックスや動作デモを伝達するモデルベースRL法を提案する。
主な考え方は、世界モデルを行動学習のシミュレーターとしてだけでなく、タスクの関連性を測定するツールとして使うことである。
本稿では,Meta-WorldとDeepMind Control Suiteの最先端手法と比較して,我々のアプローチの利点を実証する。
論文 参考訳(メタデータ) (2023-06-06T02:24:41Z) - PD-MORL: Preference-Driven Multi-Objective Reinforcement Learning
Algorithm [0.18416014644193063]
本稿では,連続ロボット作業にスケーラブルな選好空間全体をカバーするために,単一のユニバーサルネットワークをトレーニングする新しいMORLアルゴリズムを提案する。
PD-MORLは、連続制御タスクに挑戦するために最大25%大きなハイパーボリュームを達成する。
論文 参考訳(メタデータ) (2022-08-16T19:23:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。