論文の概要: Dynamic Mixture-of-Experts for Visual Autoregressive Model
- arxiv url: http://arxiv.org/abs/2510.08629v1
- Date: Wed, 08 Oct 2025 12:57:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:47.218928
- Title: Dynamic Mixture-of-Experts for Visual Autoregressive Model
- Title(参考訳): 視覚自己回帰モデルのためのダイナミック・ミックス・オブ・エクササイズ
- Authors: Jort Vincenti, Metod Jazbec, Guoxuan Xia,
- Abstract要約: 本稿では,Visual Autoregressive Modelsに統合された動的Mixture-of-Expertsルータを提案する。
FLOPは20%減少し,推測は11%高速化し,高密度ベースラインで得られる画質と一致した。
- 参考スコア(独自算出の注目度): 6.51882364384472
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Visual Autoregressive Models (VAR) offer efficient and high-quality image generation but suffer from computational redundancy due to repeated Transformer calls at increasing resolutions. We introduce a dynamic Mixture-of-Experts router integrated into VAR. The new architecture allows to trade compute for quality through scale-aware thresholding. This thresholding strategy balances expert selection based on token complexity and resolution, without requiring additional training. As a result, we achieve 20% fewer FLOPs, 11% faster inference and match the image quality achieved by the dense baseline.
- Abstract(参考訳): Visual Autoregressive Models (VAR) は、高効率で高品質な画像生成を提供するが、高解像度でのTransformer呼び出しの繰り返しによる計算冗長性に悩まされる。
VARに統合された動的Mixture-of-Expertsルータを提案する。
新しいアーキテクチャでは、スケールアウェアのしきい値処理を通じて、計算を品質のために交換することができる。
このしきい値戦略は、追加のトレーニングを必要とせず、トークンの複雑さと解決度に基づいて専門家の選択をバランスさせる。
その結果、FLOPは20%減少し、推論は11%高速化され、高密度ベースラインによって達成される画質と一致した。
関連論文リスト
- DyMU: Dynamic Merging and Virtual Unmerging for Efficient VLMs [124.52164183968145]
視覚言語モデル(VLM)の計算負担を軽減する,効率的なトレーニング不要なフレームワークであるDyMUを提案する。
まず、動的トークンマージ(DToMe)は、画像の複雑さに基づいて類似のトークンをマージすることで、視覚トークンの埋め込み数を削減します。
第二に、仮想トークンアンマージ(VTU)は、大きな言語モデル(LLM)の期待トークンシーケンスを、フルシーケンスの注意ダイナミクスを効率的に再構築することでシミュレートする。
論文 参考訳(メタデータ) (2025-04-23T18:38:18Z) - Exploring Linear Attention Alternative for Single Image Super-Resolution [28.267177967085143]
ディープラーニングベースのシングルイメージ超解像(SISR)技術は、低解像度(LR)画像を高解像度(HR)画像に拡張することに焦点を当てている。
本稿では,Receptance Weighted Key Value (RWKV) アーキテクチャと特徴抽出技術を組み合わせた新しい手法を提案する。
MambaIRモデルと比較すると,PSNRでは0.26%,SSIMでは0.16%の平均的な改善が得られた。
論文 参考訳(メタデータ) (2025-02-01T11:39:02Z) - M-VAR: Decoupled Scale-wise Autoregressive Modeling for High-Quality Image Generation [39.97174784206976]
このスケールワイド自己回帰フレームワークは,テキストイントラスケールモデリングに効果的に分離可能であることを示す。
計算オーバーヘッドを大幅に削減するために,Mambaのような線形複雑度機構を適用した。
実験により,本手法は画像品質と生成速度の両方で既存モデルより優れていることが示された。
論文 参考訳(メタデータ) (2024-11-15T18:54:42Z) - Dynamic Pre-training: Towards Efficient and Scalable All-in-One Image Restoration [100.54419875604721]
オールインワン画像復元は、各分解に対してタスク固有の非ジェネリックモデルを持たずに、統一されたモデルで異なるタイプの劣化に対処する。
我々は、オールインワン画像復元タスクのためのエンコーダデコーダ方式で設計されたネットワークの動的ファミリであるDyNetを提案する。
我々のDyNetは、よりバルク化と軽量化をシームレスに切り替えることができるので、効率的なモデルデプロイメントのための柔軟性を提供します。
論文 参考訳(メタデータ) (2024-04-02T17:58:49Z) - An Efficient Implicit Neural Representation Image Codec Based on Mixed Autoregressive Model for Low-Complexity Decoding [43.43996899487615]
画像圧縮のためのインプシットニューラル表現(INR)は、最先端のオートエンコーダモデルと比較して2つの重要な利点を提供する新興技術である。
我々は、現在のINRの復号時間を大幅に削減するために、新しいMixed AutoRegressive Model (MARM)を導入する。
MARMには提案したAutoRegressive Upsampler(ARU)ブロックが含まれている。
論文 参考訳(メタデータ) (2024-01-23T09:37:58Z) - Transforming Image Super-Resolution: A ConvFormer-based Efficient Approach [58.57026686186709]
本稿では, Convolutional Transformer Layer (ConvFormer) を導入し, ConvFormer-based Super-Resolution Network (CFSR) を提案する。
CFSRは畳み込みベースのアプローチとトランスフォーマーベースのアプローチの両方の利点を継承する。
CFSRは計算コストと性能のバランスが最適であることを示す実験である。
論文 参考訳(メタデータ) (2024-01-11T03:08:00Z) - Efficient Model Agnostic Approach for Implicit Neural Representation
Based Arbitrary-Scale Image Super-Resolution [5.704360536038803]
単一の画像超解像(SISR)は、主に深層畳み込みネットワークによって大きく進歩した。
従来のネットワークは、画像を一定のスケールにスケールアップすることに限定されており、任意のスケールのイメージを生成するために暗黙の神経機能を利用することになる。
我々は,任意のスケールで超解像を実現する,新しい,効率的なフレームワークであるMixture of Experts Implicit Super-Resolution(MoEISR)を導入する。
論文 参考訳(メタデータ) (2023-11-20T05:34:36Z) - Learning Stackable and Skippable LEGO Bricks for Efficient, Reconfigurable, and Variable-Resolution Diffusion Modeling [98.65190562585461]
拡散モデルはフォトリアリスティックな画像を生成するのに優れるが、計算コストは非常に高い。
現在のオプションであるU-NetやVision Transformerはリソース集約型のディープネットワークに依存していることが多い。
本研究は,ローカル・フィーチャー・エンリッチメントとグローバル・コンテント・オーケストレーションをシームレスに統合したLEGOブロックを紹介した。
論文 参考訳(メタデータ) (2023-10-10T07:52:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。