論文の概要: Grounded Forcing: Bridging Time-Independent Semantics and Proximal Dynamics in Autoregressive Video Synthesis
- arxiv url: http://arxiv.org/abs/2604.06939v1
- Date: Wed, 08 Apr 2026 11:03:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 17:30:51.484381
- Title: Grounded Forcing: Bridging Time-Independent Semantics and Proximal Dynamics in Autoregressive Video Synthesis
- Title(参考訳): 接地強制:自己回帰ビデオ合成におけるブリッジング時間非依存のセマンティックスと近位ダイナミクス
- Authors: Jintao Chen, Chengyu Bai, Junjun hu, Xinda Xue, Mu Xu,
- Abstract要約: 時間に依存しないセマンティクスと近位ダイナミクスを橋渡しする新しいフレームワークであるGrounded Forcingを紹介する。
また,グラウンドド・フォースは長距離の一貫性と視覚的安定性を著しく向上させ,インタラクティブなロングフォームビデオ合成のための堅牢な基盤を確立した。
- 参考スコア(独自算出の注目度): 4.005546471495742
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autoregressive video synthesis offers a promising pathway for infinite-horizon generation but is fundamentally hindered by three intertwined challenges: semantic forgetting from context limitations, visual drift due to positional extrapolation, and controllability loss during interactive instruction switching. Current methods often tackle these issues in isolation, limiting long-term coherence. We introduce Grounded Forcing, a novel framework that bridges time-independent semantics and proximal dynamics through three interlocking mechanisms. First, to address semantic forgetting, we propose a Dual Memory KV Cache that decouples local temporal dynamics from global semantic anchors, ensuring long-term semantic coherence and identity stability. Second, to suppress visual drift, we design Dual-Reference RoPE Injection, which confines positional embeddings within the training manifold while rendering global semantics time-invariant. Third, to resolve controllability issues, we develop Asymmetric Proximity Recache, which facilitates smooth semantic inheritance during prompt transitions via proximity-weighted cache updates. These components operate synergistically to tether the generative process to stable semantic cores while accommodating flexible local dynamics. Extensive experiments demonstrate that Grounded Forcing significantly enhances long-range consistency and visual stability, establishing a robust foundation for interactive long-form video synthesis.
- Abstract(参考訳): 自己回帰ビデオ合成は、無限水平生成のための有望な経路を提供するが、基本的にはコンテキスト制限からのセマンティックな忘れ込み、位置外挿による視覚的ドリフト、対話的な命令スイッチング時の制御可能性損失の3つの課題によって妨害される。
現在の手法はしばしばこれらの問題を分離して対処し、長期的な一貫性を制限している。
時間に依存しないセマンティクスと近位ダイナミクスを3つのインターロック機構を通じて橋渡しする新しいフレームワークであるGrounded Forcingを紹介した。
まず,グローバルなセマンティックアンカーから局所的時間的ダイナミクスを分離し,長期的セマンティックコヒーレンスとアイデンティティ安定性を確保するデュアルメモリKVキャッシュを提案する。
第2に、視覚的ドリフトを抑制するために、グローバルなセマンティクスの時間不変性をレンダリングしながら、トレーニング多様体内に位置埋め込みを限定するDual-Reference RoPE Injectionを設計する。
第3に、制御可能性問題を解決するために、近接重み付けされたキャッシュ更新による即時遷移時のスムーズなセマンティック継承を容易にする非対称な近接性再キャッシュを開発する。
これらのコンポーネントは、柔軟な局所力学を調節しながら、生成プロセスを安定なセマンティックコアに接続するために相乗的に機能する。
広汎な実験により、グラウンドドフォースは長距離の一貫性と視覚的安定性を大幅に向上させ、インタラクティブなロングフォームビデオ合成のための堅牢な基盤を確立した。
関連論文リスト
- Can Video Diffusion Models Predict Past Frames? Bidirectional Cycle Consistency for Reversible Interpolation [25.677744104220853]
ビデオフレームは、特定の動作セマンティクスに固執しながら、所定のエンドポイント間で現実的な中間フレームを合成することを目的としている。
本稿では,前向きと後向きの軌跡の対称性を強制する新しい双方向フレームワークを提案する。
本手法は,37フレームと73フレームの両方のタスクにおいて,画像品質,運動の滑らかさ,動的制御における最先端性能を実現する。
論文 参考訳(メタデータ) (2026-04-02T06:58:46Z) - OnlineX: Unified Online 3D Reconstruction and Understanding with Active-to-Stable State Evolution [34.8105632078785]
フィードフォワードフレームワークであるOnlineXを導入し、ストリーミング画像のみを用いて3次元の視覚的外観と言語フィールドをオンライン的に再構築する。
我々のフレームワークは、メモリ状態を専用のアクティブな状態と永続的な安定な状態に分離し、その後、前者からの情報を結合して後者に融合させ、忠実性と安定性の両方を達成する。
論文 参考訳(メタデータ) (2026-03-02T17:52:02Z) - TaCo: Capturing Spatio-Temporal Semantic Consistency in Remote Sensing Change Detection [54.22717266034045]
Ta-Coは時間的意味遷移のための一貫したセマンティックネットワークである。
我々は,Ta-Coがリモートセンシング検出タスクにおいて一貫したSOTA性能を実現することを示す。
この設計は推論中に余分な計算オーバーヘッドを伴わずにかなりの利得を得ることができる。
論文 参考訳(メタデータ) (2025-11-25T13:44:29Z) - RainDiff: End-to-end Precipitation Nowcasting Via Token-wise Attention Diffusion [64.49056527678606]
本稿では,U-Net拡散モデルだけでなく,レーダ時間エンコーダにも統合されたトークンワイドアテンションを提案する。
従来の手法とは異なり,本手法は,画素空間拡散の典型的な高資源コストを発生させることなく,アーキテクチャに注意を集中させる。
実験と評価により,提案手法は複雑な降水予測シナリオにおいて,最先端の手法,ロバストネスの局所的忠実度,一般化,優位性を著しく上回ることを示した。
論文 参考訳(メタデータ) (2025-10-16T17:59:13Z) - T3former: Temporal Graph Classification with Topological Machine Learning [4.4924444466378555]
時間グラフ分類は、サイバーセキュリティ、脳接続分析、トラフィック監視などのアプリケーションにおいて重要な役割を果たす。
我々は、スライドウィンドウトポロジカルおよびスペクトルディスクリプタを1級トークンとして活用し、特殊なディスクリプタ・アテンション機構によって統合された新しいトポロジカル・テンポロジカル・トランスフォーマーT3formerを紹介する。
T3formerは、動的ソーシャルネットワーク、脳機能接続データセット、トラフィックネットワークなど、複数のベンチマークで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-10-15T17:46:32Z) - Identity-Preserving Text-to-Video Generation Guided by Simple yet Effective Spatial-Temporal Decoupled Representations [131.33758144860988]
アイデンティティ保存型テキスト・ツー・ビデオ(IPT2V)生成は、一貫した人間のアイデンティティを持つ高忠実度ビデオを作成することを目的としている。
現在のエンドツーエンドフレームワークは、重要な空間的・時間的トレードオフを被る。
本稿では,表現をレイアウトの空間的特徴と運動力学の時間的特徴に分解する,シンプルで効果的な空間時空間分離フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-07T06:54:44Z) - StateSpaceDiffuser: Bringing Long Context to Diffusion World Models [52.92249035412797]
本稿では、状態空間モデルから機能を統合することで、拡散モデルが長時間コンテキストタスクの実行を可能にするStateSpaceDiffuserを紹介する。
この設計は拡散モデルの高忠実性合成を保ちながら長期記憶を復元する。
論文 参考訳(メタデータ) (2025-05-28T11:27:54Z) - STSA: Spatial-Temporal Semantic Alignment for Visual Dubbing [2.231167375820083]
空間的領域と時間的領域とのセマンティックな特徴の整合性は、顔の動きの安定化に有望なアプローチである、と我々は主張する。
本稿では,2経路アライメント機構と識別可能な意味表現を導入した時空間意味アライメント(STSA)手法を提案する。
論文 参考訳(メタデータ) (2025-03-29T11:04:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。