論文の概要: Long-Context Autoregressive Video Modeling with Next-Frame Prediction
- arxiv url: http://arxiv.org/abs/2503.19325v1
- Date: Tue, 25 Mar 2025 03:38:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-26 16:55:35.404587
- Title: Long-Context Autoregressive Video Modeling with Next-Frame Prediction
- Title(参考訳): 次フレーム予測を用いた長時間自己回帰ビデオモデリング
- Authors: Yuchao Gu, Weijia Mao, Mike Zheng Shou,
- Abstract要約: 本稿では、ビデオ自動回帰モデリングのための強力なベースラインであるFrame AutoRegressive (FAR)を紹介する。
我々は,視覚的冗長性による長文視覚モデリングが課題に直面しているのを観察する。
我々は、RoPEにフレキシブルな時間減衰を加えるテストタイム技術であるFlexRoPEを提案し、16倍の視覚コンテキストへの外挿を可能にする。
- 参考スコア(独自算出の注目度): 17.710915002557996
- License:
- Abstract: Long-context autoregressive modeling has significantly advanced language generation, but video generation still struggles to fully utilize extended temporal contexts. To investigate long-context video modeling, we introduce Frame AutoRegressive (FAR), a strong baseline for video autoregressive modeling. Just as language models learn causal dependencies between tokens (i.e., Token AR), FAR models temporal causal dependencies between continuous frames, achieving better convergence than Token AR and video diffusion transformers. Building on FAR, we observe that long-context vision modeling faces challenges due to visual redundancy. Existing RoPE lacks effective temporal decay for remote context and fails to extrapolate well to long video sequences. Additionally, training on long videos is computationally expensive, as vision tokens grow much faster than language tokens. To tackle these issues, we propose balancing locality and long-range dependency. We introduce FlexRoPE, an test-time technique that adds flexible temporal decay to RoPE, enabling extrapolation to 16x longer vision contexts. Furthermore, we propose long short-term context modeling, where a high-resolution short-term context window ensures fine-grained temporal consistency, while an unlimited long-term context window encodes long-range information using fewer tokens. With this approach, we can train on long video sequences with a manageable token context length. We demonstrate that FAR achieves state-of-the-art performance in both short- and long-video generation, providing a simple yet effective baseline for video autoregressive modeling.
- Abstract(参考訳): 長文自動回帰モデリングは言語生成が著しく進歩しているが、ビデオ生成は時間的コンテキストの拡張を完全に活用するのに依然として苦労している。
本稿では,ビデオ自動回帰モデリングのための強力なベースラインであるFrame AutoRegressive (FAR)を紹介する。
言語モデルがトークン間の因果依存性(例えばToken AR)を学ぶのと同じように、FARモデルは連続したフレーム間の時間的因果依存性をモデル化し、Token ARやビデオ拡散トランスフォーマーよりも収束性が高い。
FAR上に構築した長コンテキスト視覚モデリングは,視覚的冗長性による課題に直面している。
既存のRoPEは、リモートコンテキストに効果的な時間減衰を欠き、長いビデオシーケンスによく当てはまらない。
さらに、長いビデオのトレーニングは、視覚トークンが言語トークンよりも高速に成長するため、計算コストがかかる。
これらの問題に対処するために、局所性と長距離依存性のバランスをとることを提案する。
我々は、RoPEにフレキシブルな時間減衰を加えるテストタイム技術であるFlexRoPEを導入し、16倍の視覚コンテキストへの外挿を可能にした。
さらに,高分解能な短期コンテキストウィンドウが微細な時間的一貫性を保証し,長期コンテキストウィンドウがより少ないトークンを用いて長距離情報を符号化する,長期コンテキストモデリングを提案する。
このアプローチにより、管理可能なトークンコンテキスト長で長いビデオシーケンスをトレーニングできる。
我々は,FARが映像自動回帰モデリングのベースラインとして,短時間・長時間の双方で最先端の性能を実現することを実証した。
関連論文リスト
- VideoChat-Flash: Hierarchical Compression for Long-Context Video Modeling [43.485687038460895]
マルチモーダル大言語モデル(MLLM)における長文ビデオモデリングの重要性
本稿では,モデルアーキテクチャ,トレーニングデータ,トレーニング戦略,評価ベンチマークといった側面からこの問題に対処することを目的とする。
我々はVideoChat-Flashという強力なビデオMLLMを構築し、メインストリームのビデオベンチマークとショートビデオベンチマークの両方で主要なパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-12-31T18:01:23Z) - LongVU: Spatiotemporal Adaptive Compression for Long Video-Language Understanding [65.46303012350207]
LongVUは、長いビデオの視覚的詳細を保存しながら、ビデオトークンの数を減らす適応圧縮機構である。
DINOv2の機能を利用して、高い類似性を示す冗長なフレームを削除します。
時間的依存関係に基づいて,フレーム間の空間トークン削減を行う。
論文 参考訳(メタデータ) (2024-10-22T21:21:37Z) - Long Context Transfer from Language to Vision [74.78422371545716]
ビデオシーケンスは貴重な時間情報を提供するが、既存の大規模マルチモーダルモデル(LMM)は非常に長いビデオを理解するには不十分である。
本稿では,言語モデルの観点からこの問題にアプローチする。
言語バックボーンの文脈長を単純に外挿することで、LMMはビデオトレーニングなしで桁違いに多くの視覚的トークンを理解できるようになる。
論文 参考訳(メタデータ) (2024-06-24T17:58:06Z) - ViD-GPT: Introducing GPT-style Autoregressive Generation in Video Diffusion Models [66.84478240757038]
ビデオ拡散モデル(VDM)の大多数は、自己回帰的な方法で長いビデオを生成する。
我々は、VDMに因果生成(すなわち一方向)を導入し、過去のフレームを将来のフレームを生成するプロンプトとして利用する。
我々のVD-GPTは、長大なビデオ生成において、定量的かつ質的に最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-06-16T15:37:22Z) - Mirasol3B: A Multimodal Autoregressive model for time-aligned and contextual modalities [67.89368528234394]
マルチモーダル学習の主な課題の1つは、異質なモダリティを組み合わせる必要があることである。
ビデオとオーディオはテキストよりもはるかに高いレートで取得され、ほぼ時間内に整列される。
我々の手法は、確立されたマルチモーダルベンチマークの最先端性を達成し、はるかに大きなモデルより優れている。
論文 参考訳(メタデータ) (2023-11-09T19:15:12Z) - SViTT: Temporal Learning of Sparse Video-Text Transformers [65.93031164906812]
SViTTは,多フレーム推論が可能な疎ビデオテキストアーキテクチャであり,注目度の高い単純変換器よりもはるかに低コストである。
SViTTは、自己注意におけるトークン間のクエリキー通信を制限するエッジ空間と、非形式的視覚トークンを破棄する空間の2つの形式を採用している。
論文 参考訳(メタデータ) (2023-04-18T08:17:58Z) - Long-Form Video-Language Pre-Training with Multimodal Temporal
Contrastive Learning [39.80936685227549]
大規模ビデオ言語事前学習では、ビデオ言語理解タスクが大幅に改善されている。
我々は、VILA(Long-Form VIdeo-LAnguage Pre-Training Model)を導入し、大規模な長文ビデオおよび段落データセットでトレーニングする。
我々は、7つの下流の長文ビデオ言語理解タスクでモデルを微調整し、新しい最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-10-12T09:08:27Z) - Generating Long Videos of Dynamic Scenes [66.56925105992472]
本稿では、物体の動きを再現する映像生成モデル、カメラ視点の変化、時間とともに現れる新しいコンテンツについて述べる。
よくある障害ケースは、コンテンツが時間的一貫性を提供する誘導バイアスに過度に依存するため、決して変化しないことです。
論文 参考訳(メタデータ) (2022-06-07T16:29:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。