Fugu-MT 論文翻訳(概要): Pareto-Guided Optimal Transport for Multi-Reward Alignment

論文の概要: Pareto-Guided Optimal Transport for Multi-Reward Alignment

arxiv url: http://arxiv.org/abs/2605.13155v1
Date: Wed, 13 May 2026 08:19:48 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-14 23:30:27.905866
Title: Pareto-Guided Optimal Transport for Multi-Reward Alignment
Title（参考訳）: 多方向アライメントのためのPareto-Guided Optimal Transport
Authors: Ying Ba, Tianyu Zhang, Mohan Zhou, Yalong Bai, Wenyi Mo, Guiwei Zhang, Bing Su, Ji-Rong Wen,
Abstract要約: 我々は、不均一な報酬上限の下で、統一されたグローバルターゲットに対して最適化する方法を示す。我々は、様々な報酬信号特性に合わせたオンラインとオフラインの最適化戦略を開発した。提案手法は, 関節支配率(JDR)が11%向上し, 人体評価において約80%の勝利率を達成した。
参考スコア（独自算出の注目度）: 59.776579791864805
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Text-to-image generation models have achieved remarkable progress in preference optimization, yet achieving robust alignment across diverse reward models remains a significant challenge. Existing multi-reward fusion approaches rely on weighted summation, which is costly to tune and insufficient for balancing conflicting objectives. More critically, optimization with reward models is highly susceptible to reward hacking, where reward scores increase while the perceived quality of generated images deteriorates. We demonstrate that optimizing against a unified global target under heterogeneous reward upper bounds can induce reward hacking, a risk further exacerbated by the inherent instability of weak reward models. To mitigate this, we propose a Pareto Frontier-Guided Optimal Transport (PG-OT) framework. Our method constructs a prompt-specific Pareto frontier and maps dominated samples toward it via distribution-aware optimal transport. Furthermore, we develop both online and offline optimization strategies tailored to diverse reward signal characteristics. To provide a more rigorous assessment, we introduce the Joint Domination Rate (JDR) and Joint Collapse Rate (JCR) as principled metrics to quantify multi-reward synergy and reward hacking. Experimental results show that our approach outperforms strong baselines with an 11% gain in JDR and achieves a near 80% win rate in human evaluations.
Abstract（参考訳）: テキスト・ツー・イメージ生成モデルは、好みの最適化において顕著な進歩を遂げているが、多様な報酬モデル間で堅牢なアライメントを達成することは、依然として大きな課題である。既存のマルチリワード融合アプローチは、競合する目的のバランスをとるのに高価で不十分な重み付け和に頼っている。より重要なことは、報酬モデルによる最適化は、生成された画像の品質が劣化している間に報酬スコアが増加するようなハッキングに対して非常に影響を受けやすいことである。不均一な報酬上限の下での統一的グローバルターゲットに対する最適化は、より弱い報酬モデル固有の不安定性によってさらに悪化するリスクである報酬ハッキングを誘発することを示した。これを軽減するために,Pareto Frontier-Guided Optimal Transport (PG-OT) フレームワークを提案する。提案手法は, プロンプト特異的なパレートフロンティアを構築し, 分布を考慮した最適輸送により, サンプルをその方向へマップする。さらに,様々な報酬信号特性に合わせたオンラインとオフラインの最適化手法を開発した。より厳密な評価のために,マルチリワードのシナジーと報酬ハッキングを定量化するための原則として,JDR(Joint Domination Rate)とJCR(Joint Collapse Rate)を導入する。実験の結果,JDRでは11%の上昇率で高いベースラインを達成し,人的評価では80%近い勝利率を達成した。

論文の概要: Pareto-Guided Optimal Transport for Multi-Reward Alignment

関連論文リスト