論文の概要: TMPO: Trajectory Matching Policy Optimization for Diverse and Efficient Diffusion Alignment
- arxiv url: http://arxiv.org/abs/2605.10983v2
- Date: Wed, 13 May 2026 08:00:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 17:13:58.86994
- Title: TMPO: Trajectory Matching Policy Optimization for Diverse and Efficient Diffusion Alignment
- Title(参考訳): TMPO:多変量および効率的な拡散アライメントのための軌道マッチングポリシー最適化
- Authors: Jiaming Li, Chenyu Zhu, Nanxi Yi, Youjun Bao, Li Sun, Quanying Lv, Xiang Fang, Daizong Liu, Jianjun Li, Kun He, Bowen Zhou, Zhiyuan Ma,
- Abstract要約: 本稿では,報酬を人間レベルの報酬分布マッチングに置き換えるトラジェクティブマッチングポリシバランス最適化(TMPO)を提案する。
TMPOは最先端の手法に対する生成的多様性を9.1%向上させ、下流および効率の指標で競合性能を達成する。
大規模フロープレフィックスのマルチトラックトレーニング時間を短縮するため、TMPOはDynamic Tree Smplingモデルを導入し、動的にスケジュールされたステップでトラジェクトリがdenoisingとブランチを共有する。
- 参考スコア(独自算出の注目度): 52.570581883709345
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) has shown extraordinary potential in aligning diffusion models to downstream tasks, yet most of them still suffer from significant reward hacking, which degrades generative diversity and quality by inducing visual mode collapse and amplifying unreliable rewards. We identify the root cause as the mode-seeking nature of these methods, which maximize expected reward without effectively constraining probability distribution over acceptable trajectories, causing concentration on a few high-reward paths. In contrast, we propose Trajectory Matching Policy Optimization (TMPO), which replaces scalar reward maximization with trajectory-level reward distribution matching. Specifically, TMPO introduces a Softmax Trajectory Balance (Softmax-TB) objective to match the policy probabilities of K trajectories to a reward-induced Boltzmann distribution. We prove that this objective inherits the mode-covering property of forward KL divergence, preserving coverage over all acceptable trajectories while optimizing reward. To further reduce multi-trajectory training time on large-scale flow-matching models, TMPO incorporates Dynamic Stochastic Tree Sampling, where trajectories share denoising prefixes and branch at dynamically scheduled steps, reducing redundant computation while improving training effectiveness. Extensive results across diverse alignment tasks such as human preference, compositional generation and text rendering show that TMPO improves generative diversity over state-of-the-art methods by 9.1%, and achieves competitive performance in all downstream and efficiency metrics, attaining the optimal trade-off between reward and diversity.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、拡散モデルと下流タスクの整合性を示すが、そのほとんどは、生成的多様性と品質を低下させ、視覚モードの崩壊を誘発し、信頼できない報酬を増幅する重大な報酬ハッキングに悩まされている。
これらの手法のモード探索特性として根本原因を同定し、許容軌道上の確率分布を効果的に制限することなく期待される報酬を最大化し、いくつかの高逆経路に集中させる。
対照的に,スカラー報酬最大化をトラジェクトリレベルの報酬分布マッチングに置き換えるトラジェクトリマッチングポリシー最適化(TMPO)を提案する。
具体的には、TMPOは、K軌道の政策確率と報酬誘起ボルツマン分布とを一致させるために、Softmax Trajectory Balance (Softmax-TB) の目的を導入する。
我々は,この目的が前方KL分岐のモード被覆特性を継承し,全ての許容軌道を網羅し,報酬を最適化することを示した。
大規模フローマッチングモデルにおける多軌道トレーニング時間をさらに短縮するため、TMPOはDynamic Stochastic Tree Sampling(動的確率木サンプリング)を導入する。
人選好, 構成生成, テキストレンダリングなどの多彩なアライメントタスクに対する広範な結果から, TMPOは最先端の手法よりも生成的多様性を9.1%向上させ, 下流と効率の指標の競争性能を向上し, 報酬と多様性の最適なトレードオフを実現する。
関連論文リスト
- MARBLE: Multi-Aspect Reward Balance for Diffusion RL [71.6241143519038]
強化学習は、拡散モデルと人間の嗜好を整合させる主要なアプローチとなっている。
既存のプラクティスは、報酬ごとに1つのスペシャリストモデルをトレーニングすることで、複数の報酬を処理します。
我々は,各報酬に対する独立な優位推定器を維持する勾配空間最適化フレームワークMARBLEを提案する。
論文 参考訳(メタデータ) (2026-05-07T16:20:42Z) - HAD: Combining Hierarchical Diffusion with Metric-Decoupled RL for End-to-End Driving [51.268878540511054]
我々は階層的拡散政策を備えたエンドツーエンドの計画フレームワークであるHADを提案する。
我々は,NAVSIMとHUGSIMの両方でHADが新たな最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2026-04-04T04:12:47Z) - SetPO: Set-Level Policy Optimization for Diversity-Preserving LLM Reasoning [50.93295951454092]
本稿では,カーネル化類似性を用いたサンプル軌道上で定義された設定レベル多様性の目的について紹介する。
提案手法は,各サンプル軌跡に対する余剰余剰貢献を導出し,この目的を政策最適化のためのプラグイン・アドバンテージ・シェーピング用語として統合する。
様々なモデルスケールで実験を行い、提案アルゴリズムの有効性を示し、様々なベンチマークでPass@1とPass@Kの双方において、強いベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2026-02-01T07:13:20Z) - GARDO: Reinforcing Diffusion Models without Reward Hacking [54.841464430913476]
オンライン強化学習(RL)による微調整拡散モデルにより,テキストと画像のアライメントが向上する可能性が示された。
このミスマッチは、しばしば報酬のハッキングにつながり、プロキシスコアは増加し、実際の画像品質は低下し、生成の多様性は崩壊する。
我々は、サンプル効率、効率的な探索、報酬ハッキングの軽減という競合する要求に対処するため、Gated and Adaptive Regularization with Diversity-Aware Optimization (GARDO)を提案する。
論文 参考訳(メタデータ) (2025-12-30T10:55:45Z) - VARD: Efficient and Dense Fine-Tuning for Diffusion Models with Value-based RL [28.95582264086289]
VAlue-based Reinforced Diffusion (VARD) は、中間状態から報酬の期待を予測する値関数を初めて学習する新しい手法である。
提案手法は,バックプロパゲーションによる効果的な,安定したトレーニングを可能にしつつ,事前訓練されたモデルに近づき続ける。
論文 参考訳(メタデータ) (2025-05-21T17:44:37Z) - Test-time Alignment of Diffusion Models without Reward Over-optimization [8.981605934618349]
拡散モデルは生成的タスクにおいて優れているが、特定の目的とそれらを整合させることは依然として困難である。
そこで本研究では,SMC(Sequential Monte Carlo)をベースとした学習自由なテスト時間手法を提案する。
単一逆最適化、多目的シナリオ、オンラインブラックボックス最適化において、その効果を実証する。
論文 参考訳(メタデータ) (2025-01-10T09:10:30Z) - Mimicking Better by Matching the Approximate Action Distribution [48.95048003354255]
そこで我々は,Imitation Learning from Observationsのための新しい,サンプル効率の高いオンライン政治アルゴリズムMAADを紹介する。
我々は、専門家のパフォーマンスを達成するためには、かなり少ないインタラクションが必要であり、現在最先端の政治手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T12:43:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。