論文の概要: Reward-Forcing: Autoregressive Video Generation with Reward Feedback
- arxiv url: http://arxiv.org/abs/2601.16933v1
- Date: Fri, 23 Jan 2026 17:47:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-26 14:27:27.787865
- Title: Reward-Forcing: Autoregressive Video Generation with Reward Feedback
- Title(参考訳): Reward-Forcing: Reward Feedbackによる自己回帰ビデオ生成
- Authors: Jingran Zhang, Ning Li, Yuanhao Ban, Andrew Bai, Justin Cui,
- Abstract要約: 報酬信号を使って生成プロセスをガイドし、より効率的でスケーラブルな自己回帰生成を可能にします。
モデル案内に報酬信号を用いることで,高い視覚的忠実度と時間的整合性を保ちながら,トレーニングを簡略化する。
- 参考スコア(独自算出の注目度): 12.303054669718248
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While most prior work in video generation relies on bidirectional architectures, recent efforts have sought to adapt these models into autoregressive variants to support near real-time generation. However, such adaptations often depend heavily on teacher models, which can limit performance, particularly in the absence of a strong autoregressive teacher, resulting in output quality that typically lags behind their bidirectional counterparts. In this paper, we explore an alternative approach that uses reward signals to guide the generation process, enabling more efficient and scalable autoregressive generation. By using reward signals to guide the model, our method simplifies training while preserving high visual fidelity and temporal consistency. Through extensive experiments on standard benchmarks, we find that our approach performs comparably to existing autoregressive models and, in some cases, surpasses similarly sized bidirectional models by avoiding constraints imposed by teacher architectures. For example, on VBench, our method achieves a total score of 84.92, closely matching state-of-the-art autoregressive methods that score 84.31 but require significant heterogeneous distillation.
- Abstract(参考訳): ビデオ生成におけるこれまでのほとんどの作業は双方向アーキテクチャに依存していたが、近年の取り組みは、これらのモデルを自動回帰変種に適応して、ほぼリアルタイムな生成をサポートすることを目指している。
しかし、このような適応はしばしば教師モデルに大きく依存しており、特に強い自己回帰的な教師がいない場合には、パフォーマンスを制限し、その結果、通常は双方向モデルよりも遅れる出力品質をもたらす。
本稿では,報酬信号を用いて生成過程を誘導し,より効率的でスケーラブルな自己回帰生成を実現する方法を提案する。
モデル案内に報酬信号を用いることで,高い視覚的忠実度と時間的整合性を保ちながら,トレーニングを簡略化する。
提案手法は, 従来の自己回帰モデルと相容れない性能を示すとともに, 教師の制約を回避して, 同様に大きな双方向モデルを超える場合もある。
例えば、VBenchでは84.92のスコアを達成し、84.31のスコアを持つが、かなりの不均一な蒸留を必要とする最先端の自己回帰法と密接に一致する。
関連論文リスト
- End-to-End Training for Autoregressive Video Diffusion via Self-Resampling [63.84672807009907]
自己回帰ビデオ拡散モデルは、世界シミュレーションの可能性を保っているが、列車テストミスマッチに起因する露出バイアスに弱い。
教師なしのフレームワークであるResampling Forcingを導入し、スクラッチから大規模まで自動回帰ビデオモデルのトレーニングを可能にする。
論文 参考訳(メタデータ) (2025-12-17T18:53:29Z) - Fine-tuning Flow Matching Generative Models with Intermediate Feedback [23.447961856739422]
フローベースの生成モデルは、テキスト・画像生成において顕著な成功を収めている。
既存のアプローチは、クレジット代入問題に苦しむ結果報酬からのみ学習する。
我々は3つの重要なイノベーションを通じてこれらの課題に対処する、堅牢なアクター批判フレームワークであるAC-Flowを紹介します。
論文 参考訳(メタデータ) (2025-10-20T20:08:03Z) - Hybrid Autoregressive-Diffusion Model for Real-Time Sign Language Production [0.0]
我々は手話生成のための自己回帰モデルと拡散モデルを組み合わせたハイブリッドアプローチを開発する。
微粒な体の動きを捉えるため,異なる音節から細かな特徴を別々に抽出するマルチスケール・ポース表現モジュールを設計した。
ポーズ生成過程を動的に導くために,共同レベルの信頼度スコアを利用する信頼度対応型因果注意機構を導入する。
論文 参考訳(メタデータ) (2025-07-12T01:34:50Z) - Align Your Flow: Scaling Continuous-Time Flow Map Distillation [63.927438959502226]
フローマップは、任意の2つのノイズレベルを1ステップで接続し、すべてのステップカウントで有効に保ちます。
画像生成ベンチマークにおいて、Align Your Flowと呼ばれるフローマップモデルを広範囲に検証する。
テキスト条件付き合成において、既存の非横断的訓練された数ステップのサンプルよりも優れたテキスト間フローマップモデルを示す。
論文 参考訳(メタデータ) (2025-06-17T15:06:07Z) - Boosting Alignment for Post-Unlearning Text-to-Image Generative Models [55.82190434534429]
大規模な生成モデルは、大量のデータによって推進される印象的な画像生成能力を示している。
これはしばしば必然的に有害なコンテンツや不適切なコンテンツを生み出し、著作権の懸念を引き起こす。
学習しない反復ごとに最適なモデル更新を求めるフレームワークを提案し、両方の目的に対して単調な改善を確実にする。
論文 参考訳(メタデータ) (2024-12-09T21:36:10Z) - Improving Non-autoregressive Generation with Mixup Training [51.61038444990301]
本稿では,事前学習したトランスモデルに基づく非自己回帰生成モデルを提案する。
我々はMIxソースと擬似ターゲットという,シンプルで効果的な反復訓練手法を提案する。
質問生成,要約,パラフレーズ生成を含む3つの世代ベンチマーク実験により,提案手法が新たな最先端結果を実現することを示す。
論文 参考訳(メタデータ) (2021-10-21T13:04:21Z) - Goal-directed Generation of Discrete Structures with Conditional
Generative Models [85.51463588099556]
本稿では,強化学習目標を直接最適化し,期待される報酬を最大化するための新しいアプローチを提案する。
提案手法は、ユーザ定義プロパティを持つ分子の生成と、所定の目標値を評価する短いピソン表現の同定という2つのタスクで検証する。
論文 参考訳(メタデータ) (2020-10-05T20:03:13Z) - Incorporating Reinforced Adversarial Learning in Autoregressive Image
Generation [39.55651747758391]
本稿では,自己回帰モデルに対するポリシー勾配最適化に基づく強化適応学習(RAL)を提案する。
RALはまた、VQ-VAEフレームワークの異なるモジュール間のコラボレーションを強化する。
提案手法は,64$times$64画像解像度でCelebaの最先端結果を実現する。
論文 参考訳(メタデータ) (2020-07-20T08:10:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。