論文の概要: VideoMAR: Autoregressive Video Generatio with Continuous Tokens
- arxiv url: http://arxiv.org/abs/2506.14168v2
- Date: Wed, 18 Jun 2025 09:44:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-19 13:10:45.376413
- Title: VideoMAR: Autoregressive Video Generatio with Continuous Tokens
- Title(参考訳): VideoMAR: 連続トークンを使った自動回帰ビデオジェネラティクス
- Authors: Hu Yu, Biao Gong, Hangjie Yuan, DanDan Zheng, Weilong Chai, Jingdong Chen, Kecheng Zheng, Feng Zhao,
- Abstract要約: マスケベースの自己回帰モデルでは、連続空間における有望な画像生成能力が実証されている。
連続トークンを用いたデコーダのみの自己回帰画像-ビデオモデルである textbfVideoMAR を提案する。
VideoMARは以前の最先端(Cosmos I2V)よりはるかに少ないパラメータを必要とする。
- 参考スコア(独自算出の注目度): 33.906543515428424
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Masked-based autoregressive models have demonstrated promising image generation capability in continuous space. However, their potential for video generation remains under-explored. In this paper, we propose \textbf{VideoMAR}, a concise and efficient decoder-only autoregressive image-to-video model with continuous tokens, composing temporal frame-by-frame and spatial masked generation. We first identify temporal causality and spatial bi-directionality as the first principle of video AR models, and propose the next-frame diffusion loss for the integration of mask and video generation. Besides, the huge cost and difficulty of long sequence autoregressive modeling is a basic but crucial issue. To this end, we propose the temporal short-to-long curriculum learning and spatial progressive resolution training, and employ progressive temperature strategy at inference time to mitigate the accumulation error. Furthermore, VideoMAR replicates several unique capacities of language models to video generation. It inherently bears high efficiency due to simultaneous temporal-wise KV cache and spatial-wise parallel generation, and presents the capacity of spatial and temporal extrapolation via 3D rotary embeddings. On the VBench-I2V benchmark, VideoMAR surpasses the previous state-of-the-art (Cosmos I2V) while requiring significantly fewer parameters ($9.3\%$), training data ($0.5\%$), and GPU resources ($0.2\%$).
- Abstract(参考訳): マスケベースの自己回帰モデルでは、連続空間における有望な画像生成能力が実証されている。
しかし、ビデオ生成の可能性はまだ解明されていない。
本稿では,連続トークンを用いた簡潔かつ効率的なデコーダのみの自己回帰画像合成モデルである \textbf{VideoMAR} を提案する。
まず,ビデオARモデルの第一原理として時間的因果性と空間的双方向性を同定し,マスクとビデオ生成の統合のための次フレーム拡散損失を提案する。
さらに、長いシーケンスの自動回帰モデリングの膨大なコストと難易度は、基本的な問題であるが重要な問題である。
そこで本研究では,時間的短期から長期のカリキュラム学習と空間的漸進的分解訓練を提案し,累積誤差を軽減するために,推定時に進行的な温度戦略を用いる。
さらに、VideoMARは言語モデルのいくつかのユニークな能力をビデオ生成に再現する。
本質的には、時間的にKVキャッシュと空間的に並列な生成の同時による高い効率を保ち、3次元の回転埋め込みによる空間的および時間的外挿の能力を示す。
VBench-I2Vベンチマークでは、VideoMARは以前の最先端(Cosmos I2V)を上回り、パラメータ(9.3\%$)、トレーニングデータ(0.5\%$)、GPUリソース(0.2\%$)を必要とする。
関連論文リスト
- VideoMolmo: Spatio-Temporal Grounding Meets Pointing [73.25506085339252]
VideoMolmoは、ビデオシーケンスのきめ細かいポインティングに適したモデルだ。
新しい仮面融合はSAM2を双方向の点伝播に用いている。
The generalization of VideoMolmo, we introduced VPoMolS-temporal, a challenge out-of-distribution benchmark across two real-world scenarios。
論文 参考訳(メタデータ) (2025-06-05T17:59:29Z) - Mavors: Multi-granularity Video Representation for Multimodal Large Language Model [39.24524388617938]
$mathbfMavors$は、全体的ロングビデオモデリングのための新しいフレームワークである。
Mavorsは生のビデオコンテンツを2つのコアコンポーネントを通して潜在表現にエンコードする。
このフレームワークは、イメージを単一フレームビデオとして扱うことにより、画像とビデオの理解を統一する。
論文 参考訳(メタデータ) (2025-04-14T10:14:44Z) - Token-Efficient Long Video Understanding for Multimodal LLMs [101.70681093383365]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。
我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文 参考訳(メタデータ) (2025-03-06T06:17:38Z) - When Spatial meets Temporal in Action Recognition [34.53091498930863]
本稿では、時間情報を組み込んだ新しい前処理技術であるTIME(Temporal Integration and Motion Enhancement)について紹介する。
TIME層は、元のシーケンスを再構成し、時間順を保ちながら、時間的に進化するフレームを1つの空間グリッドに埋め込むことにより、新しいビデオフレームを生成する。
実験の結果,TIME層は認識精度を高め,映像処理タスクに有用な洞察を提供することがわかった。
論文 参考訳(メタデータ) (2024-11-22T16:39:45Z) - MotionAura: Generating High-Quality and Motion Consistent Videos using Discrete Diffusion [3.7270979204213446]
ビデオ処理の課題に対処するための4つの重要なコントリビューションを提示する。
まず,3次元逆ベクトル量子化バリエンコエンコオートコーダを紹介する。
次に,テキスト・ビデオ生成フレームワークであるMotionAuraを紹介する。
第3に,スペクトル変換器を用いたデノナイジングネットワークを提案する。
第4に,Sketch Guided Videopaintingのダウンストリームタスクを導入する。
論文 参考訳(メタデータ) (2024-10-10T07:07:56Z) - SIGMA:Sinkhorn-Guided Masked Video Modeling [69.31715194419091]
SIGMA (Sinkhorn-guided Masked Video Modelling) は、新しいビデオ事前学習法である。
時空管の特徴を,限られた数の学習可能なクラスタに均等に分散する。
10個のデータセットによる実験結果から,より高性能で時間的,堅牢な映像表現を学習する上で,SIGMAの有効性が検証された。
論文 参考訳(メタデータ) (2024-07-22T08:04:09Z) - RAVEN: Rethinking Adversarial Video Generation with Efficient Tri-plane Networks [93.18404922542702]
本稿では,長期的空間的および時間的依存関係に対処する新しいビデオ生成モデルを提案する。
提案手法は,3次元認識型生成フレームワークにインスパイアされた,明示的で単純化された3次元平面のハイブリッド表現を取り入れたものである。
我々のモデルは高精細度ビデオクリップを解像度256時間256$ピクセルで合成し、フレームレート30fpsで5ドル以上まで持続する。
論文 参考訳(メタデータ) (2024-01-11T16:48:44Z) - Swap Attention in Spatiotemporal Diffusions for Text-to-Video Generation [55.36617538438858]
本研究では,空間的知覚と時間的知覚の相互作用を強化する新しいアプローチを提案する。
我々はHD-VG-130Mという大規模かつオープンソースのビデオデータセットをキュレートする。
論文 参考訳(メタデータ) (2023-05-18T11:06:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。