論文の概要: ToProVAR: Efficient Visual Autoregressive Modeling via Tri-Dimensional Entropy-Aware Semantic Analysis and Sparsity Optimization
- arxiv url: http://arxiv.org/abs/2602.22948v1
- Date: Thu, 26 Feb 2026 12:36:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.684579
- Title: ToProVAR: Efficient Visual Autoregressive Modeling via Tri-Dimensional Entropy-Aware Semantic Analysis and Sparsity Optimization
- Title(参考訳): ToProVAR: 3次元エントロピー対応セマンティック分析とスパーシティ最適化による効率的な視覚自己回帰モデリング
- Authors: Jiayu Chen, Ruoyu Lin, Zihao Zheng, Jingxin Li, Maoliang Li, Guojie Luo, Xiang chen,
- Abstract要約: Visual Autoregressive(VAR)モデルは生成品質を向上させるが、後期では重要な効率ボトルネックに直面している。
本稿では,従来のアプローチと根本的に異なるVARモデルの新たな最適化フレームワークを提案する。
提案手法は, セマンティックな忠実さと細部を著しく保ちながら, 生成プロセスの積極的な加速を実現する。
- 参考スコア(独自算出の注目度): 13.916180996567128
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual Autoregressive(VAR) models enhance generation quality but face a critical efficiency bottleneck in later stages. In this paper, we present a novel optimization framework for VAR models that fundamentally differs from prior approaches such as FastVAR and SkipVAR. Instead of relying on heuristic skipping strategies, our method leverages attention entropy to characterize the semantic projections across different dimensions of the model architecture. This enables precise identification of parameter dynamics under varying token granularity levels, semantic scopes, and generation scales. Building on this analysis, we further uncover sparsity patterns along three critical dimensions-token, layer, and scale-and propose a set of fine-grained optimization strategies tailored to these patterns. Extensive evaluation demonstrates that our approach achieves aggressive acceleration of the generation process while significantly preserving semantic fidelity and fine details, outperforming traditional methods in both efficiency and quality. Experiments on Infinity-2B and Infinity-8B models demonstrate that ToProVAR achieves up to 3.4x acceleration with minimal quality loss, effectively mitigating the issues found in prior work. Our code will be made publicly available.
- Abstract(参考訳): Visual Autoregressive(VAR)モデルは生成品質を向上させるが、後期では重要な効率ボトルネックに直面している。
本稿では,FastVARやSkipVARといった従来のアプローチと根本的に異なるVARモデルの新たな最適化フレームワークを提案する。
提案手法は、ヒューリスティックなスキップ戦略に頼るのではなく、注意エントロピーを利用してモデルアーキテクチャの異なる次元のセマンティック・プロジェクションを特徴づける。
これにより、さまざまなトークンの粒度レベル、セマンティックスコープ、生成スケールの下でパラメータのダイナミクスを正確に識別できる。
この分析に基づいて、我々はさらに3つの重要な次元(トケン、層、スケール)に沿った空間パターンを明らかにし、これらのパターンに合わせた微妙な最適化戦略を提案する。
総合評価の結果,提案手法は意味的忠実さと細部を著しく保ちながら生成プロセスの積極的な加速を実現し,効率と品質の両方において従来の手法よりも優れていた。
Infinity-2BとInfinity-8Bモデルの実験では、ToProVARは最小品質の損失で最大3.4倍の加速を実現し、以前の作業で発生する問題を効果的に軽減している。
私たちのコードは公開されます。
関連論文リスト
- Visual Autoregressive Modelling for Monocular Depth Estimation [69.01449528371916]
本稿では,視覚的自己回帰(VAR)に基づく単眼深度推定手法を提案する。
提案手法は,大規模テキスト・画像VARモデルに適応し,スケールワイド・コンディショナル・アップサンプリング機構を導入する。
本研究では,屋内ベンチマークにおける制約付きトレーニング条件下での最先端性能と,屋外データセットに適用した場合の強い性能について報告する。
論文 参考訳(メタデータ) (2025-12-27T17:08:03Z) - SparseWorld-TC: Trajectory-Conditioned Sparse Occupancy World Model [27.54931639768958]
本稿では, これからの3Dシーン占有状況の軌跡条件予測のための新しいアーキテクチャを提案する。
GPTやVGGTのような基本的な視覚や言語モデルにおける注意に基づくトランスフォーマーアーキテクチャにインスパイアされた我々は、中間的な鳥の視線(BEV)投影と、その明示的な幾何学的先行をバイパスする疎密な占有表現を採用した。
離散トークン化の有限容量制約とBEV表現の構造的制約の両方を回避し、1-3秒の占有予測のためのnuScenesベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2025-11-27T02:48:45Z) - Automated Modeling Method for Pathloss Model Discovery [1.7373039830910548]
本稿では,解釈可能性を維持しながら経路損失モデルの発見を加速する新しい手法を提案する。
一つはDeep Symbolic Regressionをベースとし、もうひとつは完全な解釈可能性を提供し、もうひとつはKolmogorov-Arnold Networksをベースとし、2段階の解釈性を提供する。
以上の結果から,コルモゴロフ・アルノルドネットワークは最小の予測誤差で1に近い決定値R2の係数を達成する一方,Deep Symbolic Regressionは適度な精度でコンパクトなモデルを生成することがわかった。
論文 参考訳(メタデータ) (2025-05-29T12:04:07Z) - Can We Generate Images with CoT? Let's Verify and Reinforce Image Generation Step by Step [86.69947123512836]
CoT(Chain-of-Thought)推論は、複雑な理解タスクに取り組むために大規模なモデルで広く研究されている。
自己回帰画像生成を促進するために,CoT推論の可能性について,初めて包括的調査を行った。
本稿では,自動回帰画像生成に特化したPARMとPARM++を提案する。
論文 参考訳(メタデータ) (2025-01-23T18:59:43Z) - An Efficient Occupancy World Model via Decoupled Dynamic Flow and Image-assisted Training [50.71892161377806]
DFIT-OccWorldは、分離されたダイナミックフローとイメージアシストトレーニング戦略を活用する、効率的な3D占有世界モデルである。
提案モデルでは, 静止ボクセルはポーズ変換により容易に得られるのに対し, 既存のボクセルフローを用いて既存の観測を歪曲することで, 将来のダイナミックボクセルを予測できる。
論文 参考訳(メタデータ) (2024-12-18T12:10:33Z) - SaRA: High-Efficient Diffusion Model Fine-tuning with Progressive Sparse Low-Rank Adaptation [52.6922833948127]
本研究では,事前学習した拡散モデルにおけるパラメータの重要性について検討する。
本稿では,これらの非効率パラメータをフル活用するための新しいモデル微調整法を提案する。
本手法は,下流アプリケーションにおける事前学習モデルの生成能力を向上する。
論文 参考訳(メタデータ) (2024-09-10T16:44:47Z) - Break a Lag: Triple Exponential Moving Average for Enhanced Optimization [2.0199251985015434]
本稿では,三重指数移動平均のパワーを利用する新しい最適化手法であるFAMEを紹介する。
FAMEはデータダイナミクスに対する応答性を高め、トレンド識別ラグを緩和し、学習効率を最適化する。
包括的評価は、画像分類、オブジェクト検出、セマンティックセグメンテーションを含む様々なコンピュータビジョンタスクを含み、FAMEを30の異なるアーキテクチャに統合する。
論文 参考訳(メタデータ) (2023-06-02T10:29:33Z) - Aligning Optimization Trajectories with Diffusion Models for Constrained
Design Generation [17.164961143132473]
本稿では,拡散モデルのサンプリング軌跡と従来の物理法に基づく最適化軌跡との整合性を示す学習フレームワークを提案する。
提案手法では,高コストプリプロセッシングや外部サロゲートモデル,ラベル付きデータの追加を必要とせずに,実用的で高性能な設計を2段階で生成することができる。
この結果から, TAは分布内構成における最先端の深層生成モデルより優れ, 推論計算コストを半減することがわかった。
論文 参考訳(メタデータ) (2023-05-29T09:16:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。