論文の概要: CanvasMAR: Improving Masked Autoregressive Video Generation With Canvas
- arxiv url: http://arxiv.org/abs/2510.13669v1
- Date: Wed, 15 Oct 2025 15:29:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.737404
- Title: CanvasMAR: Improving Masked Autoregressive Video Generation With Canvas
- Title(参考訳): CanvasMAR:Canvasでマッシュアップされた自動回帰ビデオ生成を改善する
- Authors: Zian Li, Muhan Zhang,
- Abstract要約: Masked Autoregressive Model (MAR) は画像およびビデオ生成の強力なパラダイムとして最近登場した。
ビデオMARモデルは、スロースタート問題とオートレグレス全体のエラー蓄積という2つの大きな制限に悩まされている。
キャンバス機構を導入することでこれらの問題を緩和する新しいビデオMARモデルであるCanvasMARを提案する。
- 参考スコア(独自算出の注目度): 38.47685222595917
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Masked autoregressive models (MAR) have recently emerged as a powerful paradigm for image and video generation, combining the flexibility of masked modeling with the potential of continuous tokenizer. However, video MAR models suffer from two major limitations: the slow-start problem, caused by the lack of a structured global prior at early sampling stages, and error accumulation across the autoregression in both spatial and temporal dimensions. In this work, we propose CanvasMAR, a novel video MAR model that mitigates these issues by introducing a canvas mechanism--a blurred, global prediction of the next frame, used as the starting point for masked generation. The canvas provides global structure early in sampling, enabling faster and more coherent frame synthesis. Furthermore, we introduce compositional classifier-free guidance that jointly enlarges spatial (canvas) and temporal conditioning, and employ noise-based canvas augmentation to enhance robustness. Experiments on the BAIR and Kinetics-600 benchmarks demonstrate that CanvasMAR produces high-quality videos with fewer autoregressive steps. Our approach achieves remarkable performance among autoregressive models on Kinetics-600 dataset and rivals diffusion-based methods.
- Abstract(参考訳): マスク付き自己回帰モデル(Masked Autoregressive Model, MAR)は画像およびビデオ生成の強力なパラダイムとして最近登場し、マスク付きモデリングの柔軟性と継続的なトークン化の可能性を組み合わせた。
しかし、ビデオMARモデルには2つの大きな制限がある: 初期のサンプリング段階では、構造化されたグローバル事前の欠如に起因するスロースタート問題と、空間次元と時間次元の両方における自己回帰の誤差蓄積である。
本研究では,キャンバス機構を導入することでこれらの問題を緩和する新しいビデオMARモデルであるCanvasMARを提案する。
キャンバスはサンプリングの早い段階でグローバルな構造を提供し、より高速でよりコヒーレントなフレーム合成を可能にする。
さらに,空間的(キャンバス)と時間的条件付けを共同で拡張する合成分類器フリーガイダンスを導入し,強靭性を高めるために雑音に基づくキャンバス拡張を適用した。
BAIR と Kinetics-600 ベンチマークの実験では、CanvasMAR が自己回帰的なステップを少なくして高品質なビデオを生成することを示した。
提案手法は,Kinetics-600データセット上での自己回帰モデルにおいて顕著な性能を実現し,拡散法と競合する。
関連論文リスト
- ARSS: Taming Decoder-only Autoregressive Visual Generation for View Synthesis From Single View [11.346049532150127]
textbfARSSは、カメラの軌跡に条件付けされた単一の画像から新しいビューを生成するフレームワークである。
本手法は,拡散モデルに基づく最先端のビュー合成手法に比較可能か,あるいはそれ以上に機能する。
論文 参考訳(メタデータ) (2025-09-27T00:03:09Z) - VDEGaussian: Video Diffusion Enhanced 4D Gaussian Splatting for Dynamic Urban Scenes Modeling [68.65587507038539]
本稿では,動的都市景観モデリングのための拡散強調4次元ガウス平滑化フレームワークを提案する。
我々の重要な洞察は、テスト時間に適応したビデオ拡散モデルから頑健で時間的に一貫した事前情報を抽出することである。
提案手法は, 高速移動物体の動的モデリングを著しく向上させ, 2dBのPSNRゲインを近似的に達成する。
論文 参考訳(メタデータ) (2025-08-04T07:24:05Z) - Fast Autoregressive Models for Continuous Latent Generation [49.079819389916764]
自己回帰モデルは、特にNLPにおいて、シーケンシャルなデータ生成において顕著な成功を収めている。
最近の研究で、マスク付き自己回帰モデル(MAR)は拡散ヘッドを用いて連続空間内のトーケン分布をモデル化することによって量子化をバイパスする。
本稿では,MARの拡散ヘッドを軽量ショートカットヘッドに置き換える新しいフレームワークであるFast AutoRegressive Model (FAR)を提案する。
論文 参考訳(メタデータ) (2025-04-24T13:57:08Z) - DiffuEraser: A Diffusion Model for Video Inpainting [13.292164408616257]
安定拡散に基づく映像インペイントモデルであるDiffuEraserを導入し,より詳細な情報とコヒーレントな構造でマスクされた領域を埋める。
また,従来のモデルとDiffuEraserの両方の時間的受容領域を拡張し,ビデオ拡散モデルの時間的平滑化特性を活用して一貫性を高める。
論文 参考訳(メタデータ) (2025-01-17T08:03:02Z) - MarDini: Masked Autoregressive Diffusion for Video Generation at Scale [76.84820168294586]
MarDiniは、マスク付き自己回帰の利点を統合拡散モデル(DM)フレームワークに統合する、ビデオ拡散モデルの新たなファミリーである。
MarDiniは、ビデオグルーフのための新しい最先端の技術を、より高価な高度な画像とビデオのモデルに匹敵するビデオを効率よく生成する。
論文 参考訳(メタデータ) (2024-10-26T21:12:32Z) - Meissonic: Revitalizing Masked Generative Transformers for Efficient High-Resolution Text-to-Image Synthesis [62.57727062920458]
本稿では,非自己回帰型マスク画像モデリング(MIM)をSDXLのような最先端拡散モデルに匹敵するレベルまで高めるMeissonicを提案する。
高品質なトレーニングデータを活用し、人間の嗜好スコアから得られるマイクロ条件を統合し、特徴圧縮層を用いる。
我々のモデルは、高画質の高精細画像を生成する際に、SDXLのような既存のモデルに適合するだけでなく、しばしば性能を上回ります。
論文 参考訳(メタデータ) (2024-10-10T17:59:17Z) - Semantically Consistent Video Inpainting with Conditional Diffusion Models [16.42354856518832]
本稿では,条件付きビデオ拡散モデルを用いた問題解決フレームワークを提案する。
我々は,コンテキストにおける重要な長距離依存関係をキャプチャする塗装特化サンプリングスキームを導入する。
不完全フレーム中の既知の画素を条件付けするための新しい手法を考案する。
論文 参考訳(メタデータ) (2024-04-30T23:49:26Z) - Upscale-A-Video: Temporal-Consistent Diffusion Model for Real-World
Video Super-Resolution [65.91317390645163]
Upscale-A-Videoは、ビデオアップスケーリングのためのテキストガイド付き遅延拡散フレームワークである。
ローカルでは、一時的なレイヤをU-NetとVAE-Decoderに統合し、短いシーケンス内で一貫性を維持する。
また、テキストプロンプトによってテクスチャ生成と調整可能なノイズレベルをガイドし、復元と生成のバランスを取ることで、柔軟性も向上する。
論文 参考訳(メタデータ) (2023-12-11T18:54:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。