論文の概要: Markovian Scale Prediction: A New Era of Visual Autoregressive Generation
- arxiv url: http://arxiv.org/abs/2511.23334v1
- Date: Fri, 28 Nov 2025 16:42:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.984263
- Title: Markovian Scale Prediction: A New Era of Visual Autoregressive Generation
- Title(参考訳): マルコフスケール予測 : 視覚自己回帰生成の新しい時代
- Authors: Yu Zhang, Jingyi Liu, Yiwei Shi, Qi Zhang, Duoqian Miao, Changwei Wang, Longbing Cao,
- Abstract要約: 次世代の予測に基づく視覚的自己回帰モデリングは、自己回帰的視覚生成を活性化させた。
完全コンテキスト依存を伴わずに,性能と効率性を向上した新しいVARモデルを開発した。
- 参考スコア(独自算出の注目度): 45.94729411324636
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual AutoRegressive modeling (VAR) based on next-scale prediction has revitalized autoregressive visual generation. Although its full-context dependency, i.e., modeling all previous scales for next-scale prediction, facilitates more stable and comprehensive representation learning by leveraging complete information flow, the resulting computational inefficiency and substantial overhead severely hinder VAR's practicality and scalability. This motivates us to develop a new VAR model with better performance and efficiency without full-context dependency. To address this, we reformulate VAR as a non-full-context Markov process, proposing Markov-VAR. It is achieved via Markovian Scale Prediction: we treat each scale as a Markov state and introduce a sliding window that compresses certain previous scales into a compact history vector to compensate for historical information loss owing to non-full-context dependency. Integrating the history vector with the Markov state yields a representative dynamic state that evolves under a Markov process. Extensive experiments demonstrate that Markov-VAR is extremely simple yet highly effective: Compared to VAR on ImageNet, Markov-VAR reduces FID by 10.5% (256 $\times$ 256) and decreases peak memory consumption by 83.8% (1024 $\times$ 1024). We believe that Markov-VAR can serve as a foundation for future research on visual autoregressive generation and other downstream tasks.
- Abstract(参考訳): 次世代の予測に基づく視覚的自己回帰モデリング(VAR)は、自己回帰的視覚生成を活性化した。
その全コンテキスト依存、すなわち、次のスケールの予測のために過去のすべてのスケールをモデル化することで、完全な情報フロー、計算の非効率性、そしてかなりのオーバーヘッドがVARの実用性とスケーラビリティを著しく損なうことによって、より安定的で包括的な表現学習を促進する。
これにより、フルコンテキスト依存なしに、パフォーマンスと効率性が向上した新しいVARモデルの開発を動機付けます。
これを解決するために、VARを非フルコンテキストマルコフプロセスとして再定義し、マルコフ-VARを提案する。
マルコフ状態として各スケールを扱い、ある前のスケールをコンパクトな履歴ベクトルに圧縮し、非フルコンテキスト依存による履歴情報の損失を補うスライディングウィンドウを導入する。
履歴ベクトルとマルコフ状態を統合すると、マルコフ過程の下で進化する代表的動的状態が得られる。
ImageNetのVARと比較して、Markov-VARはFIDを10.5%(256ドル\times$256)削減し、ピークメモリ消費量を83.8%(1024ドル\times$1024)削減する。
我々はMarkov-VARが視覚的自己回帰生成やその他の下流タスクの研究の基盤となると信じている。
関連論文リスト
- RestoreVAR: Visual Autoregressive Generation for All-in-One Image Restoration [51.77917733024544]
潜時拡散モデル(LDM)はオールインワン画像復元法(AiOR)の知覚的品質を改善した。
LDMは反復的なデノゲーションプロセスによって推論が遅くなり、時間に敏感なアプリケーションでは実用的でない。
VAR(Visual Autoregressive Modeling)は、スケールスペースの自己回帰を行い、最先端の拡散変換器に匹敵する性能を実現する。
論文 参考訳(メタデータ) (2025-05-23T15:52:26Z) - Augmented Regression Models using Neurochaos Learning [1.534667887016089]
本稿では,ニューロカオス学習フレームワークから派生したトレーサミア特徴を従来の回帰アルゴリズムに統合した,ニューロカオス学習(NL)を用いた新しい回帰モデルを提案する。
提案手法は,10種類の実生活データセットと,$y = mx + c + epsilon$という形式の合成データセットを用いて評価した。
論文 参考訳(メタデータ) (2025-05-19T11:02:14Z) - MVAR: Visual Autoregressive Modeling with Scale and Spatial Markovian Conditioning [18.419771643052297]
本稿では,条件付き確率モデリングの複雑さを低減するために,マルコフ型視覚自己回帰モデリングフレームワークを提案する。
具体的には,次のスケール予測のために,隣接するスケールの特徴を入力としてのみ扱うスケールマルコフ軌道を導入する。
また,各トークンの注意を,隣接するスケールで対応する位置にある大きさ k の局所的近傍に限定する空間マルコフアテンションを提案する。
論文 参考訳(メタデータ) (2025-05-19T05:56:44Z) - FlowAR: Scale-wise Autoregressive Image Generation Meets Flow Matching [34.112157859384645]
本稿では,合理化スケール設計を特徴とする次世代のスケール予測手法であるFlowARを紹介する。
これにより、VARの複雑なマルチスケール残留トークン化器が不要になる。
課題であるImageNet-256ベンチマークにおけるFlowARの有効性を検証する。
論文 参考訳(メタデータ) (2024-12-19T18:59:31Z) - Autoregressive Video Generation without Vector Quantization [90.87907377618747]
本研究では,時間フレーム毎の予測の非量子化自己回帰モデルとしてビデオ生成問題を再構成する。
提案手法では,ベクトル量子化のない新しい自己回帰モデルであるNOVAを訓練する。
以上の結果から,NOVAはデータ効率,推論速度,視覚的忠実度,映像流速において,従来の自己回帰ビデオモデルよりもはるかに小さいモデルキャパシティを有することがわかった。
論文 参考訳(メタデータ) (2024-12-18T18:59:53Z) - Collaborative Decoding Makes Visual Auto-Regressive Modeling Efficient [52.96232442322824]
CoDe(Collaborative Decoding)は、Visual Auto-Regressive (VAR)フレームワーク用に設計された、新しい効率的なデコーディング戦略である。
CoDeは、大規模でのパラメータ要求の大幅な削減と、異なるスケールでの排他的生成パターンという、2つの重要な観察に乗じている。
CoDeは1.7倍のスピードアップを実現し、メモリ使用量を約50%削減し、画像品質を1.95から1.98に改善した。
論文 参考訳(メタデータ) (2024-11-26T15:13:15Z) - M-VAR: Decoupled Scale-wise Autoregressive Modeling for High-Quality Image Generation [39.97174784206976]
このスケールワイド自己回帰フレームワークは,テキストイントラスケールモデリングに効果的に分離可能であることを示す。
計算オーバーヘッドを大幅に削減するために,Mambaのような線形複雑度機構を適用した。
実験により,本手法は画像品質と生成速度の両方で既存モデルより優れていることが示された。
論文 参考訳(メタデータ) (2024-11-15T18:54:42Z) - Open-MAGVIT2: An Open-Source Project Toward Democratizing Auto-regressive Visual Generation [74.15447383432262]
Open-MAGVIT2プロジェクトは、GoogleのMAGVIT-v2トークンのオープンソースレプリケーションを生成する。
我々は、大規模なデータに基づいて事前訓練されたトークンーザを提供し、ゼロショットベンチマークでコスモスを著しく上回っている。
我々は3億から1.5Bまでの自己回帰画像生成モデル群を作成した。
論文 参考訳(メタデータ) (2024-09-06T17:14:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。