論文の概要: Dynamic Mixture-of-Experts for Visual Autoregressive Model
- arxiv url: http://arxiv.org/abs/2510.08629v1
- Date: Wed, 08 Oct 2025 12:57:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:47.218928
- Title: Dynamic Mixture-of-Experts for Visual Autoregressive Model
- Title(参考訳): 視覚自己回帰モデルのためのダイナミック・ミックス・オブ・エクササイズ
- Authors: Jort Vincenti, Metod Jazbec, Guoxuan Xia,
- Abstract要約: 本稿では,Visual Autoregressive Modelsに統合された動的Mixture-of-Expertsルータを提案する。
FLOPは20%減少し,推測は11%高速化し,高密度ベースラインで得られる画質と一致した。
- 参考スコア(独自算出の注目度): 6.51882364384472
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Visual Autoregressive Models (VAR) offer efficient and high-quality image generation but suffer from computational redundancy due to repeated Transformer calls at increasing resolutions. We introduce a dynamic Mixture-of-Experts router integrated into VAR. The new architecture allows to trade compute for quality through scale-aware thresholding. This thresholding strategy balances expert selection based on token complexity and resolution, without requiring additional training. As a result, we achieve 20% fewer FLOPs, 11% faster inference and match the image quality achieved by the dense baseline.
- Abstract(参考訳): Visual Autoregressive Models (VAR) は、高効率で高品質な画像生成を提供するが、高解像度でのTransformer呼び出しの繰り返しによる計算冗長性に悩まされる。
VARに統合された動的Mixture-of-Expertsルータを提案する。
新しいアーキテクチャでは、スケールアウェアのしきい値処理を通じて、計算を品質のために交換することができる。
このしきい値戦略は、追加のトレーニングを必要とせず、トークンの複雑さと解決度に基づいて専門家の選択をバランスさせる。
その結果、FLOPは20%減少し、推論は11%高速化され、高密度ベースラインによって達成される画質と一致した。
関連論文リスト
- Deep Lightweight Unrolled Network for High Dynamic Range Modulo Imaging [19.49437461280304]
Modulo-Imaging (MI)は、強度レベルに達すると信号強度をリセットすることでダイナミックなダイナミックレンジ画像を拡張するための有望な代替手段を提供する。
自己調整を容易にするScaling Equi項を導入し、モデルが元の分布外の新しい画像に適応できるようにする。
論文 参考訳(メタデータ) (2026-01-18T18:22:38Z) - SFTok: Bridging the Performance Gap in Discrete Tokenizers [72.9996757048065]
複数ステップの反復機構を組み込んだ離散トークン化機構である textbfSFTok を提案する。
画像当たり64トークンの高速圧縮速度で、SFTokはImageNetの最先端の再構築品質を達成する。
論文 参考訳(メタデータ) (2025-12-18T18:59:04Z) - Rethinking Autoregressive Models for Lossless Image Compression via Hierarchical Parallelism and Progressive Adaptation [75.58269386927076]
自己回帰(AR)モデルは、しばしば計算コストの禁止のために非現実的に除外される。
この研究は、階層的並列性とプログレッシブ適応に基づくフレームワークを導入して、このパラダイムを再考する。
各種データセット(自然,衛星,医療)の実験により,本手法が新たな最先端圧縮を実現することを確認した。
論文 参考訳(メタデータ) (2025-11-14T06:27:58Z) - PocketSR: The Super-Resolution Expert in Your Pocket Mobiles [69.26751136689533]
リアルワールド・イメージ・スーパーレゾリューション (RealSR) は、携帯電話が捉えたような、Wild内の画像の視覚的品質を高めることを目的としている。
大規模な生成モデルを利用する既存の手法は印象的な結果を示しているが、計算コストとレイテンシが高いため、エッジ配置には実用的ではない。
超軽量単一ステップモデルであるPocketSRを導入し,高忠実度を維持しつつ生成モデリング機能をRealSRにもたらす。
論文 参考訳(メタデータ) (2025-10-03T13:56:18Z) - LoC-LIC: Low Complexity Learned Image Coding Using Hierarchical Feature Transforms [16.428925911432344]
本稿では,階層的特徴抽出変換を用いて,複雑性を大幅に低減する革新的な手法を提案する。
我々の新しいアーキテクチャは、高空間分解能インプット/フィーチャーマップのチャネルを減らし、これを実現する。
結果として、複雑性を低減したモデルは、学習した画像圧縮モデルが様々なデバイスで効率的に動作する方法を開くことができる。
論文 参考訳(メタデータ) (2025-04-30T16:30:06Z) - DyMU: Dynamic Merging and Virtual Unmerging for Efficient VLMs [124.52164183968145]
視覚言語モデル(VLM)の計算負担を軽減する,効率的なトレーニング不要なフレームワークであるDyMUを提案する。
まず、動的トークンマージ(DToMe)は、画像の複雑さに基づいて類似のトークンをマージすることで、視覚トークンの埋め込み数を削減します。
第二に、仮想トークンアンマージ(VTU)は、大きな言語モデル(LLM)の期待トークンシーケンスを、フルシーケンスの注意ダイナミクスを効率的に再構築することでシミュレートする。
論文 参考訳(メタデータ) (2025-04-23T18:38:18Z) - FlexVAR: Flexible Visual Autoregressive Modeling without Residual Prediction [91.09318592542509]
この研究は、視覚自己回帰モデリングにおける残差予測パラダイムに挑戦する。
新しいフレキシブルなVisual AutoRegressiveイメージ生成パラダイムを提供する。
このシンプルで直感的なアプローチは、視覚分布を素早く学習し、生成プロセスをより柔軟で適応可能にします。
論文 参考訳(メタデータ) (2025-02-27T17:39:17Z) - Exploring Linear Attention Alternative for Single Image Super-Resolution [28.267177967085143]
ディープラーニングベースのシングルイメージ超解像(SISR)技術は、低解像度(LR)画像を高解像度(HR)画像に拡張することに焦点を当てている。
本稿では,Receptance Weighted Key Value (RWKV) アーキテクチャと特徴抽出技術を組み合わせた新しい手法を提案する。
MambaIRモデルと比較すると,PSNRでは0.26%,SSIMでは0.16%の平均的な改善が得られた。
論文 参考訳(メタデータ) (2025-02-01T11:39:02Z) - M-VAR: Decoupled Scale-wise Autoregressive Modeling for High-Quality Image Generation [39.97174784206976]
このスケールワイド自己回帰フレームワークは,テキストイントラスケールモデリングに効果的に分離可能であることを示す。
計算オーバーヘッドを大幅に削減するために,Mambaのような線形複雑度機構を適用した。
実験により,本手法は画像品質と生成速度の両方で既存モデルより優れていることが示された。
論文 参考訳(メタデータ) (2024-11-15T18:54:42Z) - Dynamic Pre-training: Towards Efficient and Scalable All-in-One Image Restoration [100.54419875604721]
オールインワン画像復元は、各分解に対してタスク固有の非ジェネリックモデルを持たずに、統一されたモデルで異なるタイプの劣化に対処する。
我々は、オールインワン画像復元タスクのためのエンコーダデコーダ方式で設計されたネットワークの動的ファミリであるDyNetを提案する。
我々のDyNetは、よりバルク化と軽量化をシームレスに切り替えることができるので、効率的なモデルデプロイメントのための柔軟性を提供します。
論文 参考訳(メタデータ) (2024-04-02T17:58:49Z) - An Efficient Implicit Neural Representation Image Codec Based on Mixed Autoregressive Model for Low-Complexity Decoding [43.43996899487615]
画像圧縮のためのインプシットニューラル表現(INR)は、最先端のオートエンコーダモデルと比較して2つの重要な利点を提供する新興技術である。
我々は、現在のINRの復号時間を大幅に削減するために、新しいMixed AutoRegressive Model (MARM)を導入する。
MARMには提案したAutoRegressive Upsampler(ARU)ブロックが含まれている。
論文 参考訳(メタデータ) (2024-01-23T09:37:58Z) - Transforming Image Super-Resolution: A ConvFormer-based Efficient Approach [58.57026686186709]
本稿では, Convolutional Transformer Layer (ConvFormer) を導入し, ConvFormer-based Super-Resolution Network (CFSR) を提案する。
CFSRは畳み込みベースのアプローチとトランスフォーマーベースのアプローチの両方の利点を継承する。
CFSRは計算コストと性能のバランスが最適であることを示す実験である。
論文 参考訳(メタデータ) (2024-01-11T03:08:00Z) - Efficient Model Agnostic Approach for Implicit Neural Representation
Based Arbitrary-Scale Image Super-Resolution [5.704360536038803]
単一の画像超解像(SISR)は、主に深層畳み込みネットワークによって大きく進歩した。
従来のネットワークは、画像を一定のスケールにスケールアップすることに限定されており、任意のスケールのイメージを生成するために暗黙の神経機能を利用することになる。
我々は,任意のスケールで超解像を実現する,新しい,効率的なフレームワークであるMixture of Experts Implicit Super-Resolution(MoEISR)を導入する。
論文 参考訳(メタデータ) (2023-11-20T05:34:36Z) - Learning Stackable and Skippable LEGO Bricks for Efficient, Reconfigurable, and Variable-Resolution Diffusion Modeling [98.65190562585461]
拡散モデルはフォトリアリスティックな画像を生成するのに優れるが、計算コストは非常に高い。
現在のオプションであるU-NetやVision Transformerはリソース集約型のディープネットワークに依存していることが多い。
本研究は,ローカル・フィーチャー・エンリッチメントとグローバル・コンテント・オーケストレーションをシームレスに統合したLEGOブロックを紹介した。
論文 参考訳(メタデータ) (2023-10-10T07:52:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。