論文の概要: TAGRPO: Boosting GRPO on Image-to-Video Generation with Direct Trajectory Alignment
- arxiv url: http://arxiv.org/abs/2601.05729v1
- Date: Fri, 09 Jan 2026 11:15:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-12 17:41:49.954073
- Title: TAGRPO: Boosting GRPO on Image-to-Video Generation with Direct Trajectory Alignment
- Title(参考訳): TAGRPO: 直接軌道アライメントによる画像・映像生成におけるGRPOの強化
- Authors: Jin Wang, Jianxiang Lu, Guangzheng Xu, Comi Chen, Haoyu Yang, Linqing Wang, Peng Chen, Mingtao Chen, Zhichao Hu, Longhuang Wu, Shuai Shao, Qinglin Lu, Ping Luo,
- Abstract要約: コントラスト学習にインスパイアされたI2Vモデルの堅牢なフレームワークであるTAGRPOを提案する。
我々のアプローチは、同一の初期ノイズから生成されたロールアウトビデオが、最適化のための優れたガイダンスを提供するという観察に基づいている。
- 参考スコア(独自算出の注目度): 28.18756041538092
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent studies have demonstrated the efficacy of integrating Group Relative Policy Optimization (GRPO) into flow matching models, particularly for text-to-image and text-to-video generation. However, we find that directly applying these techniques to image-to-video (I2V) models often fails to yield consistent reward improvements. To address this limitation, we present TAGRPO, a robust post-training framework for I2V models inspired by contrastive learning. Our approach is grounded in the observation that rollout videos generated from identical initial noise provide superior guidance for optimization. Leveraging this insight, we propose a novel GRPO loss applied to intermediate latents, encouraging direct alignment with high-reward trajectories while maximizing distance from low-reward counterparts. Furthermore, we introduce a memory bank for rollout videos to enhance diversity and reduce computational overhead. Despite its simplicity, TAGRPO achieves significant improvements over DanceGRPO in I2V generation.
- Abstract(参考訳): 近年,グループ相対政策最適化(GRPO)をフローマッチングモデルに統合することの有効性が実証されている。
しかし,画像対ビデオ(I2V)モデルにこれらの手法を直接適用しても,一貫した報酬改善が得られない場合が多い。
この制限に対処するために,コントラスト学習に触発されたI2Vモデルのための堅牢な後学習フレームワークTAGRPOを提案する。
我々のアプローチは、同一の初期ノイズから生成されたロールアウトビデオが、最適化のための優れたガイダンスを提供するという観察に基づいている。
この知見を生かして、中間潜水剤に適用した新しいGRPO損失を提案し、低逆軌道からの距離を最大化しつつ、高逆軌道との直接アライメントを奨励する。
さらに,動画配信のためのメモリバンクを導入し,多様性を高め,計算オーバーヘッドを低減する。
その単純さにもかかわらず、TAGRPOはI2V世代でDanceGRPOよりも大幅に改善されている。
関連論文リスト
- Reg-DPO: SFT-Regularized Direct Preference Optimization with GT-Pair for Improving Video Generation [19.119239411510936]
GT-Pairは、実動画をポジティブとして、モデル生成動画をネガティブとして、高品質な選好ペアを構築する。
また、SFT損失を正規化用語として組み込んだReg-DPOをDPO損失に組み込み、トレーニング安定性と生成精度を高める。
論文 参考訳(メタデータ) (2025-11-03T11:04:22Z) - Sample By Step, Optimize By Chunk: Chunk-Level GRPO For Text-to-Image Generation [29.015994347609936]
Group Relative Policy Optimization (GRPO)は、フローマッチングベースのテキスト・ツー・イメージ(T2I)生成に強い可能性を示している。
我々は、最適化のパラダイムをステップレベルからチャンクレベルにシフトすることで、これらの問題を効果的に軽減できると主張している。
Chunk-GRPOは、T2I生成のための最初のチャンクレベルGRPOベースのアプローチである。
論文 参考訳(メタデータ) (2025-10-24T15:50:36Z) - Pref-GRPO: Pairwise Preference Reward-based GRPO for Stable Text-to-Image Reinforcement Learning [34.75717081153747]
生成された画像を評価する現在の方法は、ハッキングに報奨を与える可能性がある。
Pref-GRPOを提案する。これは、最適化目標をスコアから好みのフィッティングにシフトさせ、より安定したトレーニングを確実にする。
既存のT2Iベンチマークは粗い評価基準によって制限されており、包括的なモデル評価を妨げる。
We introduced UniGenBench, a unified T2I benchmark including 600 prompts across 5 mainmes and 20 subthemes。
論文 参考訳(メタデータ) (2025-08-28T13:11:24Z) - DeepVideo-R1: Video Reinforcement Fine-Tuning via Difficulty-aware Regressive GRPO [37.07375927420007]
グループ相対政策最適化は、群正規化報酬を持つPPOスタイルの強化アルゴリズムを用いて、驚くべき成功を収めた。
本稿では、GRPOを探索し、効果的な学習を悪化させる2つの問題を特定する。
本稿では,Reg-GRPOで訓練されたビデオ大言語モデルであるDeepVideo-R1を提案する。
論文 参考訳(メタデータ) (2025-06-09T06:15:54Z) - ReasonGen-R1: CoT for Autoregressive Image generation models through SFT and RL [54.100889131719626]
連鎖推論と強化学習がNLPの突破口となった。
我々はReasonGen-R1を紹介した。ReasonGen-R1は自動回帰画像生成器に明示的なテキストベースの「思考」スキルを付与するフレームワークである。
ReasonGen-R1は、強いベースラインや先行技術モデルよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2025-05-30T17:59:48Z) - Fine-Tuning Next-Scale Visual Autoregressive Models with Group Relative Policy Optimization [1.1510009152620668]
強化学習(Reinforcement Learning, RL)を用いた微調整事前学習生成モデルは, 出力と人間の嗜好を整合させる効果的なアプローチとして登場した。
RLに基づくファインチューニングは、VARモデルに対して効率的かつ効果的であり、特に高速な推論速度の恩恵を受けていることを示す。
論文 参考訳(メタデータ) (2025-05-29T10:45:38Z) - Policy Optimized Text-to-Image Pipeline Design [73.9633527029941]
本稿では,テキスト・ツー・イメージ生成のための新しい強化学習フレームワークを提案する。
提案手法は、まず、画像品質のスコアをインタプリタ-ワークフローの組み合わせから直接予測できる報奨モデルのアンサンブルを訓練する。
次に、最初の語彙学習とGRPOに基づく最適化という2段階のトレーニング戦略を実装した。
論文 参考訳(メタデータ) (2025-05-27T17:50:47Z) - VerIPO: Cultivating Long Reasoning in Video-LLMs via Verifier-Gudied Iterative Policy Optimization [59.39976343879587]
VerIPOは、深く長期的な推論チェーンを生成するためのビデオLLMの能力を徐々に改善することを目指している。
トレーニングループはGRPOの拡張検索とDPOのターゲット最適化の恩恵を受けている。
我々の訓練されたモデルは、大規模命令調整ビデオ-LLMの直接推定を超えている。
論文 参考訳(メタデータ) (2025-05-25T06:41:28Z) - DanceGRPO: Unleashing GRPO on Visual Generation [42.567425922760144]
強化学習(Reinforcement Learning, RL)は, 微調整型生成モデルにおいて有望なアプローチである。
DDPOやDPOKのような既存の手法は、大規模で多様なプロンプトセットへのスケーリングにおいて基本的な制限に直面している。
本稿では,グループ相対政策最適化の革新的適応を通じて,これらの制約に対処するフレームワークであるDanceGRPOを提案する。
論文 参考訳(メタデータ) (2025-05-12T17:59:34Z) - Can We Generate Images with CoT? Let's Verify and Reinforce Image Generation Step by Step [86.69947123512836]
CoT(Chain-of-Thought)推論は、複雑な理解タスクに取り組むために大規模なモデルで広く研究されている。
自己回帰画像生成を促進するために,CoT推論の可能性について,初めて包括的調査を行った。
本稿では,自動回帰画像生成に特化したPARMとPARM++を提案する。
論文 参考訳(メタデータ) (2025-01-23T18:59:43Z) - Improving Video Generation with Human Feedback [105.81833319891537]
我々は,人間のフィードバックを利用して映像生成問題を緩和するシステムパイプラインを開発した。
我々は,多次元ビデオ報酬モデルであるVideoRewardを紹介し,アノテーションと様々なデザイン選択が報奨効果に与える影響について検討する。
論文 参考訳(メタデータ) (2025-01-23T18:55:41Z) - A Generic Approach for Enhancing GANs by Regularized Latent Optimization [79.00740660219256]
本稿では,事前学習したGANを効果的かつシームレスに拡張できる,エミュレーティブモデル推論と呼ばれる汎用フレームワークを提案する。
我々の基本的な考え方は、ワッサーシュタイン勾配流法を用いて与えられた要求に対する最適潜時分布を効率的に推算することである。
論文 参考訳(メタデータ) (2021-12-07T05:22:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。