論文の概要: MVAR: Visual Autoregressive Modeling with Scale and Spatial Markovian Conditioning
- arxiv url: http://arxiv.org/abs/2505.12742v1
- Date: Mon, 19 May 2025 05:56:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.430995
- Title: MVAR: Visual Autoregressive Modeling with Scale and Spatial Markovian Conditioning
- Title(参考訳): MVAR:スケールと空間マルコフ条件付き視覚自己回帰モデリング
- Authors: Jinhua Zhang, Wei Long, Minghao Han, Weiyi You, Shuhang Gu,
- Abstract要約: 本稿では,条件付き確率モデリングの複雑さを低減するために,マルコフ型視覚自己回帰モデリングフレームワークを提案する。
具体的には,次のスケール予測のために,隣接するスケールの特徴を入力としてのみ扱うスケールマルコフ軌道を導入する。
また,各トークンの注意を,隣接するスケールで対応する位置にある大きさ k の局所的近傍に限定する空間マルコフアテンションを提案する。
- 参考スコア(独自算出の注目度): 18.419771643052297
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Essential to visual generation is efficient modeling of visual data priors. Conventional next-token prediction methods define the process as learning the conditional probability distribution of successive tokens. Recently, next-scale prediction methods redefine the process to learn the distribution over multi-scale representations, significantly reducing generation latency. However, these methods condition each scale on all previous scales and require each token to consider all preceding tokens, exhibiting scale and spatial redundancy. To better model the distribution by mitigating redundancy, we propose Markovian Visual AutoRegressive modeling (MVAR), a novel autoregressive framework that introduces scale and spatial Markov assumptions to reduce the complexity of conditional probability modeling. Specifically, we introduce a scale-Markov trajectory that only takes as input the features of adjacent preceding scale for next-scale prediction, enabling the adoption of a parallel training strategy that significantly reduces GPU memory consumption. Furthermore, we propose spatial-Markov attention, which restricts the attention of each token to a localized neighborhood of size k at corresponding positions on adjacent scales, rather than attending to every token across these scales, for the pursuit of reduced modeling complexity. Building on these improvements, we reduce the computational complexity of attention calculation from O(N^2) to O(Nk), enabling training with just eight NVIDIA RTX 4090 GPUs and eliminating the need for KV cache during inference. Extensive experiments on ImageNet demonstrate that MVAR achieves comparable or superior performance with both small model trained from scratch and large fine-tuned models, while reducing the average GPU memory footprint by 3.0x.
- Abstract(参考訳): 視覚生成には視覚データのモデリングが不可欠である。
従来の次世代予測手法では、このプロセスは連続したトークンの条件付き確率分布を学習するものとして定義されている。
近年,次世代の予測手法により,マルチスケール表現上の分布を学習するプロセスを再定義し,生成遅延を大幅に低減する。
しかしながら、これらの手法は、各トークンがすべての前のスケールでスケールすることを条件にし、前のトークンをすべて考慮し、スケールと空間的冗長性を示す必要がある。
冗長性を緩和して分布をモデル化するために,条件付き確率モデリングの複雑さを低減するために,スケールと空間的マルコフ仮定を導入した新しい自己回帰フレームワークであるマルコフ視覚自己回帰モデリング(MVAR)を提案する。
具体的には,GPUメモリ使用量を大幅に削減する並列トレーニング戦略の採用を可能にするため,隣接スケールの特徴を入力としてのみ用いたスケールマルコフトラジェクトリを提案する。
さらに,各トークンの注目度を,これらのスケールにまたがる全てのトークンに参加するのではなく,隣接するスケールで対応する位置にある大きさ k の局所的近傍に制限する空間マルコフアテンションを提案する。
これらの改善に基づき、O(N^2)からO(Nk)への注意計算の計算複雑性を低減し、8つのNVIDIA RTX 4090 GPUでのトレーニングを可能にし、推論時にKVキャッシュを不要にする。
ImageNetでの大規模な実験では、MVARはスクラッチからトレーニングされた小さなモデルと大きな微調整されたモデルの両方で同等または優れたパフォーマンスを実現し、平均的なGPUメモリフットプリントを3.0倍削減している。
関連論文リスト
- Saliency-driven Dynamic Token Pruning for Large Language Models [32.903622070917194]
塩分駆動型動的トケンプルーニング(SDTP)
軽量なサリエンシ駆動予測モジュールは、各トークンの重要度をその隠れ状態で推定するように設計されている。
ランキングに基づく最適化手法を提案し,評価スコアと予測重要スコアのランキングばらつきを最小化する。
論文 参考訳(メタデータ) (2025-04-06T15:15:07Z) - FlowAR: Scale-wise Autoregressive Image Generation Meets Flow Matching [34.112157859384645]
本稿では,合理化スケール設計を特徴とする次世代のスケール予測手法であるFlowARを紹介する。
これにより、VARの複雑なマルチスケール残留トークン化器が不要になる。
課題であるImageNet-256ベンチマークにおけるFlowARの有効性を検証する。
論文 参考訳(メタデータ) (2024-12-19T18:59:31Z) - M-VAR: Decoupled Scale-wise Autoregressive Modeling for High-Quality Image Generation [39.97174784206976]
このスケールワイド自己回帰フレームワークは,テキストイントラスケールモデリングに効果的に分離可能であることを示す。
計算オーバーヘッドを大幅に削減するために,Mambaのような線形複雑度機構を適用した。
実験により,本手法は画像品質と生成速度の両方で既存モデルより優れていることが示された。
論文 参考訳(メタデータ) (2024-11-15T18:54:42Z) - TokenUnify: Scalable Autoregressive Visual Pre-training with Mixture Token Prediction [61.295716741720284]
TokenUnifyは、ランダムトークン予測、次のトークン予測、次のトークン予測を統合する新しい事前学習手法である。
TokenUnifyと共同で,超高解像度の大規模電子顕微鏡画像データセットを構築した。
このデータセットには1億2000万以上の注釈付きボクセルが含まれており、これまでで最大のニューロンセグメンテーションデータセットとなっている。
論文 参考訳(メタデータ) (2024-05-27T05:45:51Z) - Consensus-Adaptive RANSAC [104.87576373187426]
本稿では,パラメータ空間の探索を学習する新しいRANSACフレームワークを提案する。
注意機構は、ポイント・ツー・モデル残差のバッチで動作し、軽量のワンステップ・トランスフォーマーで見いだされたコンセンサスを考慮するために、ポイント・ツー・モデル推定状態を更新する。
論文 参考訳(メタデータ) (2023-07-26T08:25:46Z) - ClusTR: Exploring Efficient Self-attention via Clustering for Vision
Transformers [70.76313507550684]
本稿では,密集自己注意の代替として,コンテンツに基づくスパースアテンション手法を提案する。
具体的には、合計トークン数を減少させるコンテンツベースの方法として、キーとバリュートークンをクラスタ化し、集約する。
結果として得られたクラスタ化されたTokenシーケンスは、元の信号のセマンティックな多様性を保持するが、より少ない計算コストで処理できる。
論文 参考訳(メタデータ) (2022-08-28T04:18:27Z) - EV-VGCNN: A Voxel Graph CNN for Event-based Object Classification [18.154951807178943]
イベントカメラは、少ない強度変化を報告し、ポータブルデバイス上での視覚知覚と理解のための低消費電力、高ダイナミックレンジ、高応答速度の顕著な利点を目立たせる。
イベントベースの学習手法は、従来の2次元学習アルゴリズムを適用するために、イベントを密度の高いフレームベースの表現に統合することで、オブジェクト認識において大きな成功を収めている。
これらのアプローチは、スパース・トゥ・ディエンス変換の期間中に多くの冗長な情報を導入し、重量と大容量のモデルを必要とするため、リアルタイムアプリケーションにおけるイベントカメラの可能性を制限する。
論文 参考訳(メタデータ) (2021-06-01T04:07:03Z) - Scaling Hidden Markov Language Models [118.55908381553056]
この研究は、HMMを言語モデリングデータセットに拡張するという課題を再考する。
本研究では,HMMを大規模状態空間に拡張する手法を提案する。
論文 参考訳(メタデータ) (2020-11-09T18:51:55Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Convolutional Tensor-Train LSTM for Spatio-temporal Learning [116.24172387469994]
本稿では,ビデオシーケンスの長期相関を効率的に学習できる高次LSTMモデルを提案する。
これは、時間をかけて畳み込み特徴を組み合わせることによって予測を行う、新しいテンソルトレインモジュールによって達成される。
この結果は,幅広いアプリケーションやデータセットにおいて,最先端のパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2020-02-21T05:00:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。