論文の概要: Pack and Force Your Memory: Long-form and Consistent Video Generation
- arxiv url: http://arxiv.org/abs/2510.01784v1
- Date: Thu, 02 Oct 2025 08:22:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:21.053052
- Title: Pack and Force Your Memory: Long-form and Consistent Video Generation
- Title(参考訳): Pack and Force your Memory: Long-form and Consistent Video Generation
- Authors: Xiaofei Wu, Guozhen Zhang, Zhiyong Xu, Yuan Zhou, Qinglin Lu, Xuming He,
- Abstract要約: ロングフォームビデオ生成は2つの課題を提示します。
モデルは、自動回帰復号に固有のエラーの蓄積を防止しながら、長距離依存関係をキャプチャしなければなりません。
MemoryPackとDirect Forcingは、長期ビデオ生成のコンテキスト一貫性と信頼性を大幅に向上させる。
- 参考スコア(独自算出の注目度): 26.53691150499802
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Long-form video generation presents a dual challenge: models must capture long-range dependencies while preventing the error accumulation inherent in autoregressive decoding. To address these challenges, we make two contributions. First, for dynamic context modeling, we propose MemoryPack, a learnable context-retrieval mechanism that leverages both textual and image information as global guidance to jointly model short- and long-term dependencies, achieving minute-level temporal consistency. This design scales gracefully with video length, preserves computational efficiency, and maintains linear complexity. Second, to mitigate error accumulation, we introduce Direct Forcing, an efficient single-step approximating strategy that improves training-inference alignment and thereby curtails error propagation during inference. Together, MemoryPack and Direct Forcing substantially enhance the context consistency and reliability of long-form video generation, advancing the practical usability of autoregressive video models.
- Abstract(参考訳): モデルは、自己回帰復号に固有のエラーの蓄積を防止しつつ、長距離依存をキャプチャする必要がある。
これらの課題に対処するため、私たちは2つのコントリビューションを行います。
まず、動的コンテキストモデリングにおいて、テキスト情報と画像情報の両方をグローバルガイダンスとして活用し、短期的・長期的依存関係を協調的にモデル化し、極小レベルの時間的整合性を実現する学習可能なコンテキスト検索機構であるMemoryPackを提案する。
この設計はビデオ長で優雅にスケールし、計算効率を保ち、線形複雑性を維持する。
第二に、エラーの蓄積を軽減するために、トレーニングと推論のアライメントを改善し、推論中にエラーの伝播を削減できる効率的な単一ステップ近似戦略であるDirect Forcingを導入する。
MemoryPackとDirect Forcingは、長期ビデオ生成のコンテキスト一貫性と信頼性を大幅に向上させ、自動回帰ビデオモデルの実用性を向上させる。
関連論文リスト
- Mixture of Contexts for Long Video Generation [72.96361488755986]
我々は長文ビデオ生成を内部情報検索タスクとして再放送する。
本稿では,学習可能なスパークアテンション・ルーティング・モジュールであるMixture of Contexts (MoC) を提案する。
データをスケールしてルーティングを徐々に分散させていくと、そのモデルは計算を適切な履歴に割り当て、アイデンティティ、アクション、シーンを数分のコンテンツで保存する。
論文 参考訳(メタデータ) (2025-08-28T17:57:55Z) - LoViC: Efficient Long Video Generation with Context Compression [68.22069741704158]
百万単位のオープンドメインビデオに基づいてトレーニングされたDiTベースのフレームワークであるLoViCを紹介する。
当社のアプローチの核心はFlexFormerです。ビデオとテキストを統合された潜在表現に共同で圧縮する表現型オートエンコーダです。
論文 参考訳(メタデータ) (2025-07-17T09:46:43Z) - VideoMerge: Towards Training-free Long Video Generation [46.108622251662176]
長いビデオ生成は、コンピュータビジョンにおける挑戦的で魅力的なトピックであり続けている。
本稿では,短時間のビデオのマージにシームレスに適応できるトレーニングフリーのVideoMergeを提案する。
論文 参考訳(メタデータ) (2025-03-13T00:47:59Z) - CD-NGP: A Fast Scalable Continual Representation for Dynamic Scenes [31.783117836434403]
CD-NGPは、メモリオーバーヘッドを減らし、スケーラビリティを向上させる継続的学習フレームワークである。
トレーニングメモリ使用量は14GBに大幅に削減され、DyNeRFのストリーミング帯域幅はわずか0.4MBである。
論文 参考訳(メタデータ) (2024-09-08T17:35:48Z) - RAVEN: Rethinking Adversarial Video Generation with Efficient Tri-plane Networks [93.18404922542702]
本稿では,長期的空間的および時間的依存関係に対処する新しいビデオ生成モデルを提案する。
提案手法は,3次元認識型生成フレームワークにインスパイアされた,明示的で単純化された3次元平面のハイブリッド表現を取り入れたものである。
我々のモデルは高精細度ビデオクリップを解像度256時間256$ピクセルで合成し、フレームレート30fpsで5ドル以上まで持続する。
論文 参考訳(メタデータ) (2024-01-11T16:48:44Z) - A Simple Recipe for Contrastively Pre-training Video-First Encoders Beyond 16 Frames [57.758863967770594]
我々は,大規模な画像テキストモデルを浅部時間融合によりビデオに転送する共通パラダイムを構築した。
1)標準ビデオデータセットにおけるビデオ言語アライメントの低下による空間能力の低下と,(2)処理可能なフレーム数のボトルネックとなるメモリ消費の増大である。
論文 参考訳(メタデータ) (2023-12-12T16:10:19Z) - Generating Long Videos of Dynamic Scenes [66.56925105992472]
本稿では、物体の動きを再現する映像生成モデル、カメラ視点の変化、時間とともに現れる新しいコンテンツについて述べる。
よくある障害ケースは、コンテンツが時間的一貫性を提供する誘導バイアスに過度に依存するため、決して変化しないことです。
論文 参考訳(メタデータ) (2022-06-07T16:29:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。