論文の概要: Pareto-Guided Optimal Transport for Multi-Reward Alignment
- arxiv url: http://arxiv.org/abs/2605.13155v1
- Date: Wed, 13 May 2026 08:19:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:27.905866
- Title: Pareto-Guided Optimal Transport for Multi-Reward Alignment
- Title(参考訳): 多方向アライメントのためのPareto-Guided Optimal Transport
- Authors: Ying Ba, Tianyu Zhang, Mohan Zhou, Yalong Bai, Wenyi Mo, Guiwei Zhang, Bing Su, Ji-Rong Wen,
- Abstract要約: 我々は、不均一な報酬上限の下で、統一されたグローバルターゲットに対して最適化する方法を示す。
我々は、様々な報酬信号特性に合わせたオンラインとオフラインの最適化戦略を開発した。
提案手法は, 関節支配率(JDR)が11%向上し, 人体評価において約80%の勝利率を達成した。
- 参考スコア(独自算出の注目度): 59.776579791864805
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image generation models have achieved remarkable progress in preference optimization, yet achieving robust alignment across diverse reward models remains a significant challenge. Existing multi-reward fusion approaches rely on weighted summation, which is costly to tune and insufficient for balancing conflicting objectives. More critically, optimization with reward models is highly susceptible to reward hacking, where reward scores increase while the perceived quality of generated images deteriorates. We demonstrate that optimizing against a unified global target under heterogeneous reward upper bounds can induce reward hacking, a risk further exacerbated by the inherent instability of weak reward models. To mitigate this, we propose a Pareto Frontier-Guided Optimal Transport (PG-OT) framework. Our method constructs a prompt-specific Pareto frontier and maps dominated samples toward it via distribution-aware optimal transport. Furthermore, we develop both online and offline optimization strategies tailored to diverse reward signal characteristics. To provide a more rigorous assessment, we introduce the Joint Domination Rate (JDR) and Joint Collapse Rate (JCR) as principled metrics to quantify multi-reward synergy and reward hacking. Experimental results show that our approach outperforms strong baselines with an 11% gain in JDR and achieves a near 80% win rate in human evaluations.
- Abstract(参考訳): テキスト・ツー・イメージ生成モデルは、好みの最適化において顕著な進歩を遂げているが、多様な報酬モデル間で堅牢なアライメントを達成することは、依然として大きな課題である。
既存のマルチリワード融合アプローチは、競合する目的のバランスをとるのに高価で不十分な重み付け和に頼っている。
より重要なことは、報酬モデルによる最適化は、生成された画像の品質が劣化している間に報酬スコアが増加するようなハッキングに対して非常に影響を受けやすいことである。
不均一な報酬上限の下での統一的グローバルターゲットに対する最適化は、より弱い報酬モデル固有の不安定性によってさらに悪化するリスクである報酬ハッキングを誘発することを示した。
これを軽減するために,Pareto Frontier-Guided Optimal Transport (PG-OT) フレームワークを提案する。
提案手法は, プロンプト特異的なパレートフロンティアを構築し, 分布を考慮した最適輸送により, サンプルをその方向へマップする。
さらに,様々な報酬信号特性に合わせたオンラインとオフラインの最適化手法を開発した。
より厳密な評価のために,マルチリワードのシナジーと報酬ハッキングを定量化するための原則として,JDR(Joint Domination Rate)とJCR(Joint Collapse Rate)を導入する。
実験の結果,JDRでは11%の上昇率で高いベースラインを達成し,人的評価では80%近い勝利率を達成した。
関連論文リスト
- TMPO: Trajectory Matching Policy Optimization for Diverse and Efficient Diffusion Alignment [52.570581883709345]
本稿では,報酬を人間レベルの報酬分布マッチングに置き換えるトラジェクティブマッチングポリシバランス最適化(TMPO)を提案する。
TMPOは最先端の手法に対する生成的多様性を9.1%向上させ、下流および効率の指標で競合性能を達成する。
大規模フロープレフィックスのマルチトラックトレーニング時間を短縮するため、TMPOはDynamic Tree Smplingモデルを導入し、動的にスケジュールされたステップでトラジェクトリがdenoisingとブランチを共有する。
論文 参考訳(メタデータ) (2026-05-09T04:41:02Z) - Reward Score Matching: Unifying Reward-based Fine-tuning for Flow and Diffusion Models [54.597200388738656]
Reward-based fine-tuningは、事前訓練された拡散またはフローベース生成モデルを、より高い逆サンプルに向けて操ることを目的としている。
報酬スコアマッチング (RSM) と呼ばれる共通フレームワークで記述できることが示される。
論文 参考訳(メタデータ) (2026-04-19T12:47:52Z) - Adaptive Milestone Reward for GUI Agents [38.548364518806046]
本稿では,Adaptive Milestone Reward (ADMIRE) 機構を提案する。
ADMIREは、軌道をマイルストーンに固定することで、検証可能な適応的な報酬システムを構築する。
実験によると、ADMIREは成功率において10%以上の絶対的な改善をもたらす。
論文 参考訳(メタデータ) (2026-02-12T03:31:40Z) - GARDO: Reinforcing Diffusion Models without Reward Hacking [54.841464430913476]
オンライン強化学習(RL)による微調整拡散モデルにより,テキストと画像のアライメントが向上する可能性が示された。
このミスマッチは、しばしば報酬のハッキングにつながり、プロキシスコアは増加し、実際の画像品質は低下し、生成の多様性は崩壊する。
我々は、サンプル効率、効率的な探索、報酬ハッキングの軽減という競合する要求に対処するため、Gated and Adaptive Regularization with Diversity-Aware Optimization (GARDO)を提案する。
論文 参考訳(メタデータ) (2025-12-30T10:55:45Z) - Overcoming Reward Overoptimization via Adversarial Policy Optimization with Lightweight Uncertainty Estimation [46.61909578101735]
AdvPO(Adversarial Policy Optimization)は、人間からの強化学習における報酬過度最適化の問題に対する新しい解決策である。
本稿では,報酬モデルの最後の層埋め込みにのみ依存して,報酬の不確実性を定量化する軽量な手法を提案する。
論文 参考訳(メタデータ) (2024-03-08T09:20:12Z) - Mind the Gap: Offline Policy Optimization for Imperfect Rewards [14.874900923808408]
多様な不完全な報酬を処理できる統合オフラインポリシー最適化手法である textitRGM (Reward Gap Minimization) を提案する。
下位層の双対性を生かして,オンラインインタラクションを伴わずにサンプルベースの学習を可能にする,抽出可能なアルゴリズムを導出する。
論文 参考訳(メタデータ) (2023-02-03T11:39:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。