論文の概要: Delta Forcing: Trust Region Steering for Interactive Autoregressive Video Generation
- arxiv url: http://arxiv.org/abs/2605.14382v2
- Date: Mon, 18 May 2026 15:08:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:45.997503
- Title: Delta Forcing: Trust Region Steering for Interactive Autoregressive Video Generation
- Title(参考訳): デルタ強制:インタラクティブな自己回帰ビデオ生成のための信頼領域ステアリング
- Authors: Yuheng Wu, Xiangbo Gao, Tianhao Chen, Xinghao Chen, Qing Yin, Zhengzhong Tu, Dongman Lee,
- Abstract要約: 既存のアプローチでは、双方向モデルを自動回帰生成器に蒸留し、ストリーミング長調律によりさらに適応する。
原因を条件バイアスとみなし,教師は条件に整合するが軌道に依存しない指導を行うことができる。
本稿では,適応信頼領域内の教師の信頼できない監督を制約するフレームワークであるDelta Forcingを提案する。
- 参考スコア(独自算出の注目度): 21.184522426405753
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Interactive real-time autoregressive video generation is essential for applications such as content creation and world modeling, where visual content must adapt to dynamically evolving event conditions. A fundamental challenge lies in balancing reactivity and stability: models must respond promptly to new events while maintaining temporal coherence over long horizons. Existing approaches distill bidirectional models into autoregressive generators and further adapt them via streaming long tuning, yet often exhibit persistent drift after condition changes. We identify the cause as conditional bias, where the teacher may provide condition-aligned but trajectory-agnostic guidance, biasing generation toward locally valid yet globally inconsistent modes. Inspired by Trust Region Policy Optimization, we propose Delta Forcing, a simple yet effective framework that constrains unreliable teacher supervision within an adaptive trust region. Specifically, Delta Forcing estimates transition consistency from the latent delta between teacher and generator trajectories, and uses it to balance teacher supervision with a monotonic continuity objective. This suppress unreliable teacher-induced shifts while preserving responsiveness to new events. Extensive experiments demonstrate that Delta Forcing significantly improves consistency while maintaining event reactivity.
- Abstract(参考訳): インタラクティブなリアルタイム自動回帰ビデオ生成は、視覚的コンテンツが動的に進化するイベント条件に適応する必要があるコンテンツ生成や世界モデリングのようなアプリケーションに不可欠である。
モデルは、長い地平線上の時間的コヒーレンスを維持しながら、新しいイベントに迅速に応答しなければなりません。
既存のアプローチでは、双方向モデルを自動回帰生成器に蒸留し、ストリーミング長調律によりさらに適応するが、条件変更後に持続的なドリフトを示すことが多い。
原因を条件付きバイアスとみなし、教師は条件に整合するが軌道に依存しない指導を行い、局所的に有効ながグローバルに矛盾するモードに偏りを生じさせる。
信頼領域政策最適化に着想を得て,適応信頼領域内の教師の信頼できない監督を制約する,シンプルかつ効果的なフレームワークであるデルタフォースを提案する。
具体的には、Delta Forcingは、教師とジェネレータの軌跡間の潜伏するデルタからの遷移一貫性を推定し、教師の監督と単調連続性目標とのバランスをとる。
これにより、教師が引き起こす変化が抑制され、新しい出来事に対する応答性が維持される。
大規模な実験では、Delta Forcingはイベントの反応性を維持しながら、一貫性を著しく向上する。
関連論文リスト
- RAVEN: Real-time Autoregressive Video Extrapolation with Consistency-model GRPO [53.38929612273108]
因果自己回帰ビデオ拡散モデルは、以前生成されたコンテンツから将来のチャンクを外挿することでリアルタイムストリーミング生成をサポートする。
本稿では,リアルタイム自動回帰ビデオ補間ネットワーク(RAVEN)を紹介した。これは,各自己ロールアウトを,クリーンな歴史的エンドポイントのインターリーブシーケンスに再パッケージするトレーニングタイムテストフレームワークである。
論文 参考訳(メタデータ) (2026-05-14T17:59:30Z) - Grounded Forcing: Bridging Time-Independent Semantics and Proximal Dynamics in Autoregressive Video Synthesis [4.005546471495742]
時間に依存しないセマンティクスと近位ダイナミクスを橋渡しする新しいフレームワークであるGrounded Forcingを紹介する。
また,グラウンドド・フォースは長距離の一貫性と視覚的安定性を著しく向上させ,インタラクティブなロングフォームビデオ合成のための堅牢な基盤を確立した。
論文 参考訳(メタデータ) (2026-04-08T11:03:22Z) - TaPD: Temporal-adaptive Progressive Distillation for Observation-Adaptive Trajectory Forecasting in Autonomous Driving [10.160418242076284]
軌道予測は自律走行に必須であり、車両は周囲のエージェントの動きを予測できる。
可変履歴長下での観測適応軌道予測のための統一的なプラグアンドプレイフレームワークであるTaPDを提案する。
Argoverse 1 と Argoverse 2 の実験は、TaPD が全ての観測範囲で強い基底線を一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2026-03-06T12:51:32Z) - Nipping the Drift in the Bud: Retrospective Rectification for Robust Vision-Language Navigation [26.497706746023407]
BudVLNは、現在の状態分布に合わせて監視を構築することで、オンラインのロールアウトから学習するオンラインフレームワークである。
BudVLNは、分散シフトを一貫して軽減し、成功率とSPLの両方で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-02-06T03:36:27Z) - On Exact Editing of Flow-Based Diffusion Models [97.0633397035926]
本研究では,フローベース編集を既知ソースによって駆動される分散変換問題として再構成する条件付き速度補正(CVC)を提案する。
CVCは、双対パースペクティブな速度変換機構を導入することにより、分配間変換における速度の役割を再考する。
我々は,CVCが優れた忠実度,セマンティックアライメント,多種多様なタスクに対する信頼性の高い編集動作を一貫して達成していることを示す。
論文 参考訳(メタデータ) (2025-12-30T06:29:20Z) - End-to-End Training for Autoregressive Video Diffusion via Self-Resampling [63.84672807009907]
自己回帰ビデオ拡散モデルは、世界シミュレーションの可能性を保っているが、列車テストミスマッチに起因する露出バイアスに弱い。
教師なしのフレームワークであるResampling Forcingを導入し、スクラッチから大規模まで自動回帰ビデオモデルのトレーニングを可能にする。
論文 参考訳(メタデータ) (2025-12-17T18:53:29Z) - BAgger: Backwards Aggregation for Mitigating Drift in Autoregressive Video Diffusion Models [50.986189632485285]
モデル自身のロールアウトから補正軌道を構築する自己教師型スキームであるバックワードアグリゲーション(BAgger)を導入する。
数段階の蒸留と分配整合損失に依存する従来のアプローチとは異なり、BAggerは標準的なスコアやフローマッチングの目的を持つ列車である。
因果拡散変換器でBAggerをインスタンス化し、テキスト・ツー・ビデオ、ビデオ・エクステンション、マルチプロンプト・ジェネレーションで評価する。
論文 参考訳(メタデータ) (2025-12-12T23:02:02Z) - Drift No More? Context Equilibria in Multi-Turn LLM Interactions [58.69551510148673]
コンテキストドリフト(Contexts drift)とは、ターン間のゴール一貫性のある振る舞いからモデルが出力する出力の段階的なばらつきである。
シングルターンエラーとは異なり、ドリフトは時間的に展開し、静的な評価指標では捉えにくい。
マルチターンドリフトは、避けられない崩壊というよりも、制御可能な平衡現象として理解できることを示す。
論文 参考訳(メタデータ) (2025-10-09T04:48:49Z) - Time-series Generation by Contrastive Imitation [87.51882102248395]
モーメントマッチングの目的によってモチベーションされ、複合的エラーを軽減し、局所的(しかし前方的な)遷移ポリシーを最適化する。
推論において、学習されたポリシーは反復的なサンプリングのジェネレータとして機能し、学習されたエネルギーはサンプルの品質を評価するための軌道レベル尺度として機能する。
論文 参考訳(メタデータ) (2023-11-02T16:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。