論文の概要: TAGRPO: Boosting GRPO on Image-to-Video Generation with Direct Trajectory Alignment
- arxiv url: http://arxiv.org/abs/2601.05729v1
- Date: Fri, 09 Jan 2026 11:15:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-12 17:41:49.954073
- Title: TAGRPO: Boosting GRPO on Image-to-Video Generation with Direct Trajectory Alignment
- Title(参考訳): TAGRPO: 直接軌道アライメントによる画像・映像生成におけるGRPOの強化
- Authors: Jin Wang, Jianxiang Lu, Guangzheng Xu, Comi Chen, Haoyu Yang, Linqing Wang, Peng Chen, Mingtao Chen, Zhichao Hu, Longhuang Wu, Shuai Shao, Qinglin Lu, Ping Luo,
- Abstract要約: コントラスト学習にインスパイアされたI2Vモデルの堅牢なフレームワークであるTAGRPOを提案する。
我々のアプローチは、同一の初期ノイズから生成されたロールアウトビデオが、最適化のための優れたガイダンスを提供するという観察に基づいている。
- 参考スコア(独自算出の注目度): 28.18756041538092
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent studies have demonstrated the efficacy of integrating Group Relative Policy Optimization (GRPO) into flow matching models, particularly for text-to-image and text-to-video generation. However, we find that directly applying these techniques to image-to-video (I2V) models often fails to yield consistent reward improvements. To address this limitation, we present TAGRPO, a robust post-training framework for I2V models inspired by contrastive learning. Our approach is grounded in the observation that rollout videos generated from identical initial noise provide superior guidance for optimization. Leveraging this insight, we propose a novel GRPO loss applied to intermediate latents, encouraging direct alignment with high-reward trajectories while maximizing distance from low-reward counterparts. Furthermore, we introduce a memory bank for rollout videos to enhance diversity and reduce computational overhead. Despite its simplicity, TAGRPO achieves significant improvements over DanceGRPO in I2V generation.
- Abstract(参考訳): 近年,グループ相対政策最適化(GRPO)をフローマッチングモデルに統合することの有効性が実証されている。
しかし,画像対ビデオ(I2V)モデルにこれらの手法を直接適用しても,一貫した報酬改善が得られない場合が多い。
この制限に対処するために,コントラスト学習に触発されたI2Vモデルのための堅牢な後学習フレームワークTAGRPOを提案する。
我々のアプローチは、同一の初期ノイズから生成されたロールアウトビデオが、最適化のための優れたガイダンスを提供するという観察に基づいている。
この知見を生かして、中間潜水剤に適用した新しいGRPO損失を提案し、低逆軌道からの距離を最大化しつつ、高逆軌道との直接アライメントを奨励する。
さらに,動画配信のためのメモリバンクを導入し,多様性を高め,計算オーバーヘッドを低減する。
その単純さにもかかわらず、TAGRPOはI2V世代でDanceGRPOよりも大幅に改善されている。
関連論文リスト
- Reg-DPO: SFT-Regularized Direct Preference Optimization with GT-Pair for Improving Video Generation [19.119239411510936]
GT-Pairは、実動画をポジティブとして、モデル生成動画をネガティブとして、高品質な選好ペアを構築する。
また、SFT損失を正規化用語として組み込んだReg-DPOをDPO損失に組み込み、トレーニング安定性と生成精度を高める。
論文 参考訳(メタデータ) (2025-11-03T11:04:22Z) - Policy Optimized Text-to-Image Pipeline Design [73.9633527029941]
本稿では,テキスト・ツー・イメージ生成のための新しい強化学習フレームワークを提案する。
提案手法は、まず、画像品質のスコアをインタプリタ-ワークフローの組み合わせから直接予測できる報奨モデルのアンサンブルを訓練する。
次に、最初の語彙学習とGRPOに基づく最適化という2段階のトレーニング戦略を実装した。
論文 参考訳(メタデータ) (2025-05-27T17:50:47Z) - DanceGRPO: Unleashing GRPO on Visual Generation [42.567425922760144]
強化学習(Reinforcement Learning, RL)は, 微調整型生成モデルにおいて有望なアプローチである。
DDPOやDPOKのような既存の手法は、大規模で多様なプロンプトセットへのスケーリングにおいて基本的な制限に直面している。
本稿では,グループ相対政策最適化の革新的適応を通じて,これらの制約に対処するフレームワークであるDanceGRPOを提案する。
論文 参考訳(メタデータ) (2025-05-12T17:59:34Z) - Can We Generate Images with CoT? Let's Verify and Reinforce Image Generation Step by Step [86.69947123512836]
CoT(Chain-of-Thought)推論は、複雑な理解タスクに取り組むために大規模なモデルで広く研究されている。
自己回帰画像生成を促進するために,CoT推論の可能性について,初めて包括的調査を行った。
本稿では,自動回帰画像生成に特化したPARMとPARM++を提案する。
論文 参考訳(メタデータ) (2025-01-23T18:59:43Z) - Improving Video Generation with Human Feedback [105.81833319891537]
我々は,人間のフィードバックを利用して映像生成問題を緩和するシステムパイプラインを開発した。
我々は,多次元ビデオ報酬モデルであるVideoRewardを紹介し,アノテーションと様々なデザイン選択が報奨効果に与える影響について検討する。
論文 参考訳(メタデータ) (2025-01-23T18:55:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。