論文の概要: Mixture of Contexts for Long Video Generation
- arxiv url: http://arxiv.org/abs/2508.21058v1
- Date: Thu, 28 Aug 2025 17:57:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-29 18:12:02.55143
- Title: Mixture of Contexts for Long Video Generation
- Title(参考訳): 長期ビデオ生成におけるコンテキストの混合
- Authors: Shengqu Cai, Ceyuan Yang, Lvmin Zhang, Yuwei Guo, Junfei Xiao, Ziyan Yang, Yinghao Xu, Zhenheng Yang, Alan Yuille, Leonidas Guibas, Maneesh Agrawala, Lu Jiang, Gordon Wetzstein,
- Abstract要約: 我々は長文ビデオ生成を内部情報検索タスクとして再放送する。
本稿では,学習可能なスパークアテンション・ルーティング・モジュールであるMixture of Contexts (MoC) を提案する。
データをスケールしてルーティングを徐々に分散させていくと、そのモデルは計算を適切な履歴に割り当て、アイデンティティ、アクション、シーンを数分のコンテンツで保存する。
- 参考スコア(独自算出の注目度): 72.96361488755986
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Long video generation is fundamentally a long context memory problem: models must retain and retrieve salient events across a long range without collapsing or drifting. However, scaling diffusion transformers to generate long-context videos is fundamentally limited by the quadratic cost of self-attention, which makes memory and computation intractable and difficult to optimize for long sequences. We recast long-context video generation as an internal information retrieval task and propose a simple, learnable sparse attention routing module, Mixture of Contexts (MoC), as an effective long-term memory retrieval engine. In MoC, each query dynamically selects a few informative chunks plus mandatory anchors (caption, local windows) to attend to, with causal routing that prevents loop closures. As we scale the data and gradually sparsify the routing, the model allocates compute to salient history, preserving identities, actions, and scenes over minutes of content. Efficiency follows as a byproduct of retrieval (near-linear scaling), which enables practical training and synthesis, and the emergence of memory and consistency at the scale of minutes.
- Abstract(参考訳): 長いビデオ生成は、基本的には長いコンテキスト記憶の問題である:モデルは、崩壊やドリフトなしに、長い範囲にわたる健全なイベントを保持し、取り出す必要がある。
しかし、長文ビデオを生成するための拡散変換器のスケーリングは、メモリと計算が難易度が高く、長いシーケンスの最適化が難しい、という2次的な自己アテンションのコストによって、基本的に制限されている。
内部情報検索タスクとして長文ビデオ生成をリキャストし、よりシンプルで学習しやすいスパースアテンションルーティングモジュールであるMixture of Contexts (MoC) を有効長期記憶検索エンジンとして提案する。
MoCでは、各クエリは、ループの閉鎖を防ぐための因果ルーティングで、いくつかの情報的チャンクと必須アンカー(カプセル、ローカルウィンドウ)を動的に選択する。
データをスケールしてルーティングを徐々に分散させていくと、そのモデルは計算を適切な履歴に割り当て、アイデンティティ、アクション、シーンを数分のコンテンツで保存する。
効率性は、実際のトレーニングと合成を可能にし、数分のスケールでメモリと一貫性の出現を可能にする検索(ニア線形スケーリング)の副産物として従う。
関連論文リスト
- Towards Chunk-Wise Generation for Long Videos [40.93693702874981]
我々は,自己回帰的チャンク・バイ・チャンク戦略を用いて,長時間のビデオ生成に関する調査を行う。
長大なビデオタスクにショート・イメージ・チャンク・トゥ・ビデオ・モデルを適用することで生じる一般的な問題に対処する。
論文 参考訳(メタデータ) (2024-11-27T16:13:26Z) - ReWind: Understanding Long Videos with Instructed Learnable Memory [8.002949551539297]
VLM(Vision-Language Models)は、テキスト情報と視覚情報の統合的な理解を必要とするアプリケーションに不可欠である。
本稿では,時間的忠実さを保ちながら,より効率的な長時間ビデオ理解を実現するためのメモリベースの新しいVLMであるReWindを紹介する。
本稿では,視覚的質問応答(VQA)と時間的グラウンド処理におけるReWindの優れた性能を実証的に示す。
論文 参考訳(メタデータ) (2024-11-23T13:23:22Z) - SlowFast-VGen: Slow-Fast Learning for Action-Driven Long Video Generation [153.46240555355408]
SlowFast-VGenはアクション駆動長ビデオ生成のための新しいデュアルスピード学習システムである。
本稿では,世界ダイナミクスのスローラーニングのための条件付きビデオ拡散モデルを提案する。
本研究では,内在学習ループを外在学習ループにシームレスに統合する低速学習ループアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-30T17:55:52Z) - LongVU: Spatiotemporal Adaptive Compression for Long Video-Language Understanding [65.46303012350207]
LongVUは、長いビデオの視覚的詳細を保存しながら、ビデオトークンの数を減らす適応圧縮機構である。
DINOv2の機能を利用して、高い類似性を示す冗長なフレームを削除します。
時間的依存関係に基づいて,フレーム間の空間トークン削減を行う。
論文 参考訳(メタデータ) (2024-10-22T21:21:37Z) - Enhancing Long Video Understanding via Hierarchical Event-Based Memory [9.800516656566774]
本稿では,長いビデオの理解を深めるため,階層型イベントベースメモリ拡張LDM(HEM-LLM)を提案する。
まず,複数のイベントを長いビデオ内に分割する適応シーケンスセグメンテーション方式を設計する。
第2に、現在のイベントをモデル化しながら、ビデオ内の長期的相互依存関係を強化するために、前回のイベントに関する情報を圧縮し、注入する。
論文 参考訳(メタデータ) (2024-09-10T07:53:10Z) - Streaming Long Video Understanding with Large Language Models [83.11094441893435]
VideoStreamingは、ビデオ理解のための高度な視覚言語大モデル(VLLM)である。
一定の数のビデオストリーミングトークンを符号化し、伝播的に選択した任意の長さのビデオを理解することができる。
提案モデルは,長大なビデオベンチマークにおいて,優れた性能と高効率を実現する。
論文 参考訳(メタデータ) (2024-05-25T02:22:09Z) - Generating Long Videos of Dynamic Scenes [66.56925105992472]
本稿では、物体の動きを再現する映像生成モデル、カメラ視点の変化、時間とともに現れる新しいコンテンツについて述べる。
よくある障害ケースは、コンテンツが時間的一貫性を提供する誘導バイアスに過度に依存するため、決して変化しないことです。
論文 参考訳(メタデータ) (2022-06-07T16:29:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。