論文の概要: Long-Context Autoregressive Video Modeling with Next-Frame Prediction
- arxiv url: http://arxiv.org/abs/2503.19325v3
- Date: Sun, 18 May 2025 02:27:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 17:08:52.535461
- Title: Long-Context Autoregressive Video Modeling with Next-Frame Prediction
- Title(参考訳): 次フレーム予測を用いた長時間自己回帰ビデオモデリング
- Authors: Yuchao Gu, Weijia Mao, Mike Zheng Shou,
- Abstract要約: 長文ビデオモデリングは、生成モデルが世界シミュレータとして機能するために不可欠である。
長いビデオで直接トレーニングすることは自然な解決策だが、視覚トークンの急速な成長は計算的に禁止する。
フレームオートレグレッシブ(FAR)モデルを提案し、連続フレーム間の時間的依存関係をモデル化し、ビデオ拡散変換器よりも高速に収束し、トークンレベルの自己回帰モデルより優れる。
- 参考スコア(独自算出の注目度): 17.710915002557996
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Long-context video modeling is essential for enabling generative models to function as world simulators, as they must maintain temporal coherence over extended time spans. However, most existing models are trained on short clips, limiting their ability to capture long-range dependencies, even with test-time extrapolation. While training directly on long videos is a natural solution, the rapid growth of vision tokens makes it computationally prohibitive. To support exploring efficient long-context video modeling, we first establish a strong autoregressive baseline called Frame AutoRegressive (FAR). FAR models temporal dependencies between continuous frames, converges faster than video diffusion transformers, and outperforms token-level autoregressive models. Based on this baseline, we observe context redundancy in video autoregression. Nearby frames are critical for maintaining temporal consistency, whereas distant frames primarily serve as context memory. To eliminate this redundancy, we propose the long short-term context modeling using asymmetric patchify kernels, which apply large kernels to distant frames to reduce redundant tokens, and standard kernels to local frames to preserve fine-grained detail. This significantly reduces the training cost of long videos. Our method achieves state-of-the-art results on both short and long video generation, providing an effective baseline for long-context autoregressive video modeling.
- Abstract(参考訳): 長文ビデオモデリングは、時間的コヒーレンスを長期にわたって維持する必要があるため、生成モデルが世界シミュレータとして機能するために不可欠である。
しかしながら、既存のモデルのほとんどはショートクリップでトレーニングされており、テスト時間外挿であっても、長距離依存関係をキャプチャする能力を制限している。
長いビデオで直接トレーニングすることは自然な解決策だが、視覚トークンの急速な成長は計算的に禁止する。
効率的な長文ビデオモデリングの探索を支援するため,我々はまず,Frame AutoRegressive (FAR) と呼ばれる強力な自己回帰ベースラインを構築した。
FARモデルは、連続フレーム間の時間的依存関係をモデル化し、ビデオ拡散変換器よりも高速に収束し、トークンレベルの自己回帰モデルより優れている。
このベースラインに基づいて,ビデオ自己回帰における文脈冗長性を観察する。
近接フレームは時間的一貫性を維持するために重要であるが、遠方のフレームは主としてコンテキスト記憶として機能する。
この冗長性を回避するため,非対称なパッチファイドカーネルを用いた長期的コンテキストモデリングを提案し,冗長トークンを減らすために大きなカーネルを遠隔フレームに適用し,局所フレームに標準カーネルを適用して詳細を詳細に保存する。
これにより、長いビデオのトレーニングコストが大幅に削減される。
提案手法は,長文自動回帰ビデオモデリングに有効なベースラインを提供する。
関連論文リスト
- Multimodal Long Video Modeling Based on Temporal Dynamic Context [13.979661295432964]
時間的動的コンテキスト(TDC)と呼ばれるフレーム間の時間的関係を利用した動的長ビデオ符号化手法を提案する。
ビデオはフレーム間の類似性に基づいて意味的に一貫したシーンに分割し、各フレームを視覚音響エンコーダを使用してトークンにエンコードする。
極端に長いビデオを扱うために,複数のビデオセグメントから回答を段階的に抽出する学習自由連鎖戦略を提案する。
論文 参考訳(メタデータ) (2025-04-14T17:34:06Z) - BIMBA: Selective-Scan Compression for Long-Range Video Question Answering [46.199493246921435]
長いビデオにおけるビデオ質問回答(VQA)は、関連する情報を抽出する上で重要な課題である。
長大なビデオを扱うための効率的な状態空間モデルであるBIMBAを紹介する。
論文 参考訳(メタデータ) (2025-03-12T17:57:32Z) - Token-Efficient Long Video Understanding for Multimodal LLMs [101.70681093383365]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。
我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文 参考訳(メタデータ) (2025-03-06T06:17:38Z) - LongVU: Spatiotemporal Adaptive Compression for Long Video-Language Understanding [65.46303012350207]
LongVUは、長いビデオの視覚的詳細を保存しながら、ビデオトークンの数を減らす適応圧縮機構である。
DINOv2の機能を利用して、高い類似性を示す冗長なフレームを削除します。
時間的依存関係に基づいて,フレーム間の空間トークン削減を行う。
論文 参考訳(メタデータ) (2024-10-22T21:21:37Z) - Long Context Transfer from Language to Vision [74.78422371545716]
ビデオシーケンスは貴重な時間情報を提供するが、既存の大規模マルチモーダルモデル(LMM)は非常に長いビデオを理解するには不十分である。
本稿では,言語モデルの観点からこの問題にアプローチする。
言語バックボーンの文脈長を単純に外挿することで、LMMはビデオトレーニングなしで桁違いに多くの視覚的トークンを理解できるようになる。
論文 参考訳(メタデータ) (2024-06-24T17:58:06Z) - ViD-GPT: Introducing GPT-style Autoregressive Generation in Video Diffusion Models [66.84478240757038]
ビデオ拡散モデル(VDM)の大多数は、自己回帰的な方法で長いビデオを生成する。
我々は、VDMに因果生成(すなわち一方向)を導入し、過去のフレームを将来のフレームを生成するプロンプトとして利用する。
我々のVD-GPTは、長大なビデオ生成において、定量的かつ質的に最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-06-16T15:37:22Z) - Mirasol3B: A Multimodal Autoregressive model for time-aligned and contextual modalities [67.89368528234394]
マルチモーダル学習の主な課題の1つは、異質なモダリティを組み合わせる必要があることである。
ビデオとオーディオはテキストよりもはるかに高いレートで取得され、ほぼ時間内に整列される。
我々の手法は、確立されたマルチモーダルベンチマークの最先端性を達成し、はるかに大きなモデルより優れている。
論文 参考訳(メタデータ) (2023-11-09T19:15:12Z) - Long-Form Video-Language Pre-Training with Multimodal Temporal
Contrastive Learning [39.80936685227549]
大規模ビデオ言語事前学習では、ビデオ言語理解タスクが大幅に改善されている。
我々は、VILA(Long-Form VIdeo-LAnguage Pre-Training Model)を導入し、大規模な長文ビデオおよび段落データセットでトレーニングする。
我々は、7つの下流の長文ビデオ言語理解タスクでモデルを微調整し、新しい最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-10-12T09:08:27Z) - Learning Trajectory-Aware Transformer for Video Super-Resolution [50.49396123016185]
ビデオ超解像は、高解像度(HR)フレームを低解像度(LR)フレームから復元することを目的としている。
既存のアプローチは通常、隣接する限られたフレームからビデオフレームを並べて集約する。
ビデオ超解像用トランスフォーマー(TTVSR)を提案する。
論文 参考訳(メタデータ) (2022-04-08T03:37:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。