論文の概要: ActVAR: Activating Mixtures of Weights and Tokens for Efficient Visual Autoregressive Generation
- arxiv url: http://arxiv.org/abs/2511.12893v1
- Date: Mon, 17 Nov 2025 02:28:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:24.615219
- Title: ActVAR: Activating Mixtures of Weights and Tokens for Efficient Visual Autoregressive Generation
- Title(参考訳): ActVAR:効率的な視覚自己回帰生成のためのウェイトとトケの混合活性化
- Authors: Kaixin Zhang, Ruiqing Yang, Yuan Zhang, Shan You, Tao Huang,
- Abstract要約: 既存の静的プルーニングメソッドは、重みやトークンを永久に削除することでパフォーマンスを低下させる。
本稿では,モデル重みとトークンシーケンスにまたがって二重間隔を導入する動的アクティベーションフレームワークであるAct VARを提案する。
ImageNet $256times 256$ベンチマークの実験では、Act VARはパフォーマンスの低下を最小限に抑え、最大で21.2%のFLOPs削減を実現している。
- 参考スコア(独自算出の注目度): 24.639936266140385
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual Autoregressive (VAR) models enable efficient image generation via next-scale prediction but face escalating computational costs as sequence length grows. Existing static pruning methods degrade performance by permanently removing weights or tokens, disrupting pretrained dependencies. To address this, we propose ActVAR, a dynamic activation framework that introduces dual sparsity across model weights and token sequences to enhance efficiency without sacrificing capacity. ActVAR decomposes feedforward networks (FFNs) into lightweight expert sub-networks and employs a learnable router to dynamically select token-specific expert subsets based on content. Simultaneously, a gated token selector identifies high-update-potential tokens for computation while reconstructing unselected tokens to preserve global context and sequence alignment. Training employs a two-stage knowledge distillation strategy, where the original VAR model supervises the learning of routing and gating policies to align with pretrained knowledge. Experiments on the ImageNet $256\times 256$ benchmark demonstrate that ActVAR achieves up to $21.2\%$ FLOPs reduction with minimal performance degradation.
- Abstract(参考訳): ビジュアルオートレグレッシブ(VAR)モデルは、次のスケールの予測による効率的な画像生成を可能にするが、シーケンスの長さが大きくなるにつれて計算コストが増大する。
既存の静的プルーニングメソッドは、重みやトークンを永久に削除し、事前訓練された依存関係を中断することでパフォーマンスを低下させる。
そこで本研究では,モデル重みとトークンシーケンス間の二重間隔を導入した動的アクティベーションフレームワークであるActVARを提案する。
ActVARは、フィードフォワードネットワーク(FFN)を軽量なエキスパートサブネットワークに分解し、学習可能なルータを使用してコンテンツに基づいてトークン固有の専門家サブセットを動的に選択する。
同時に、ゲートトークンセレクタは、グローバルコンテキストとシーケンスアライメントを保持するために、選択されていないトークンを再構成しながら、計算のための最新のポテンシャルトークンを識別する。
トレーニングは、2段階の知識蒸留戦略を採用しており、元のVARモデルは、事前訓練された知識に合わせてルーティングとゲーティングポリシーの学習を監督する。
ImageNet $256\times 256$ベンチマークの実験では、ActVARはパフォーマンスの低下を最小限に抑えて最大21.2\%のFLOPs削減を実現している。
関連論文リスト
- Elastic ViTs from Pretrained Models without Retraining [74.5386166956142]
ビジョンファウンデーションモデルは優れたパフォーマンスを達成するが、事前決定されたサイズの限られたセットでしか利用できない。
本稿では, プルーニングされた視覚変換器のためのシングルショットネットワーク近似であるSnapViTを紹介する。
提案手法は,進化的アルゴリズムを用いて近似した勾配情報とクロスネットワーク構造相関を効率的に結合する。
論文 参考訳(メタデータ) (2025-10-20T16:15:03Z) - Representation Entanglement for Generation: Training Diffusion Transformers Is Much Easier Than You Think [63.25744258438214]
REPAとその変種は、事前訓練されたモデルから外部の視覚表現を取り入れることで、拡散モデルのトレーニング課題を効果的に軽減する。
偏見推論過程全体において欠落している外部アライメントは、識別的表現の可能性を完全に活用するに足らないと我々は主張する。
本稿では,事前学習した基礎モデルから,低レベル画像ラテントを1つの高レベルクラストークンで絡み合わせるRepresentation Entanglement for Generation (REG)を提案する。
論文 参考訳(メタデータ) (2025-07-02T08:29:18Z) - DyMU: Dynamic Merging and Virtual Unmerging for Efficient VLMs [124.52164183968145]
視覚言語モデル(VLM)の計算負担を軽減する,効率的なトレーニング不要なフレームワークであるDyMUを提案する。
まず、動的トークンマージ(DToMe)は、画像の複雑さに基づいて類似のトークンをマージすることで、視覚トークンの埋め込み数を削減します。
第二に、仮想トークンアンマージ(VTU)は、大きな言語モデル(LLM)の期待トークンシーケンスを、フルシーケンスの注意ダイナミクスを効率的に再構築することでシミュレートする。
論文 参考訳(メタデータ) (2025-04-23T18:38:18Z) - Features that Make a Difference: Leveraging Gradients for Improved Dictionary Learning [4.051777802443125]
スパースオートエンコーダ(SAE)は、ニューラルネットワーク表現を抽出するための有望なアプローチである。
我々は、TopKアクティベーション関数を増強することにより、$k$-sparseのオートエンコーダアーキテクチャを変更するGradient SAEを紹介する。
g-SAEが任意の文脈でモデルを操る上で平均的に効果的である潜伏者を学ぶ証拠が見つかる。
論文 参考訳(メタデータ) (2024-11-15T18:03:52Z) - Learning a Consensus Sub-Network with Polarization Regularization and One Pass Training [2.895034191799291]
プルーニングスキームは、静的プルーニングのための反復的なトレーニングと微調整、動的プルーニンググラフの繰り返し計算によって、余分なオーバーヘッドを生み出す。
本稿では,より軽量なサブネットワークを学習するためのパラメータ解析手法を提案する。
CIFAR-10, CIFAR-100, Tiny Imagenet で得られた結果から, ディープネットワークにおける接続の50%を, 1%の分類精度で除去できることが示唆された。
論文 参考訳(メタデータ) (2023-02-17T09:37:17Z) - Online Convolutional Re-parameterization [51.97831675242173]
2段階のパイプラインであるオンライン畳み込み再パラメータ化(OREPA)は、複雑なトレーニング時間ブロックを単一の畳み込みに絞ることで、巨大なトレーニングオーバーヘッドを低減することを目的としている。
最先端のre-paramモデルと比較して、OREPAはトレーニング時間のメモリコストを約70%削減し、トレーニング速度を約2倍向上させることができる。
また、オブジェクト検出とセマンティックセグメンテーションの実験を行い、下流タスクに一貫した改善を示す。
論文 参考訳(メタデータ) (2022-04-02T09:50:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。