論文の概要: MOR-VIT: Efficient Vision Transformer with Mixture-of-Recursions
- arxiv url: http://arxiv.org/abs/2507.21761v1
- Date: Tue, 29 Jul 2025 12:46:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 17:08:56.265467
- Title: MOR-VIT: Efficient Vision Transformer with Mixture-of-Recursions
- Title(参考訳): MOR-VIT:MOR-VIT
- Authors: YiZhou Li,
- Abstract要約: MoR-ViTはトークンレベルの動的再帰機構を組み込んだ新しいビジョントランスフォーマーフレームワークである。
ImageNet-1Kと転送ベンチマークの実験は、MoR-ViTが最大70%のパラメータ還元と2.5倍の推論加速で最先端の精度を達成することを示した。
- 参考スコア(独自算出の注目度): 1.0411839100853515
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Transformers (ViTs) have achieved remarkable success in image recognition, yet standard ViT architectures are hampered by substantial parameter redundancy and high computational cost, limiting their practical deployment. While recent efforts on efficient ViTs primarily focus on static model compression or token-level sparsification, they remain constrained by fixed computational depth for all tokens. In this work, we present MoR-ViT, a novel vision transformer framework that, for the first time, incorporates a token-level dynamic recursion mechanism inspired by the Mixture-of-Recursions (MoR) paradigm. This approach enables each token to adaptively determine its processing depth, yielding a flexible and input-dependent allocation of computational resources. Extensive experiments on ImageNet-1K and transfer benchmarks demonstrate that MoR-ViT not only achieves state-of-the-art accuracy with up to 70% parameter reduction and 2.5x inference acceleration, but also outperforms leading efficient ViT baselines such as DynamicViT and TinyViT under comparable conditions. These results establish dynamic recursion as an effective strategy for efficient vision transformers and open new avenues for scalable and deployable deep learning models in real-world scenarios.
- Abstract(参考訳): 視覚変換器(ViT)は画像認識において顕著な成功を収めているが、標準のViTアーキテクチャはパラメータの冗長性と高い計算コストによって妨げられ、実際の展開を制限している。
効率的なViTの取り組みは主に静的モデル圧縮やトークンレベルのスペーシフィケーションに重点を置いているが、これらは全てのトークンに対して一定の計算深度で制約されている。
本研究では,Mixture-of-Recursions(MoR)パラダイムにインスパイアされたトークンレベルの動的再帰機構を初めて組み込んだ新しいビジョントランスフォーマーフレームワークであるMoR-ViTを提案する。
このアプローチにより、各トークンがその処理深さを適応的に決定することができ、フレキシブルで入力に依存した計算資源の割り当てが得られる。
ImageNet-1Kと転送ベンチマークの大規模な実験により、MoR-ViTは最大70%のパラメータ還元と2.5倍の推論アクセラレーションで最先端の精度を達成するだけでなく、DynamicViTやTinyViTのような効率的なViTベースラインを同等の条件で上回ることが示されている。
これらの結果は、効率的なビジョントランスフォーマーのための効果的な戦略として動的再帰を確立し、実世界のシナリオにおけるスケーラブルでデプロイ可能なディープラーニングモデルのための新しい道を開く。
関連論文リスト
- DyMU: Dynamic Merging and Virtual Unmerging for Efficient VLMs [124.52164183968145]
視覚言語モデル(VLM)の計算負担を軽減する,効率的なトレーニング不要なフレームワークであるDyMUを提案する。
まず、動的トークンマージ(DToMe)は、画像の複雑さに基づいて類似のトークンをマージすることで、視覚トークンの埋め込み数を削減します。
第二に、仮想トークンアンマージ(VTU)は、大きな言語モデル(LLM)の期待トークンシーケンスを、フルシーケンスの注意ダイナミクスを効率的に再構築することでシミュレートする。
論文 参考訳(メタデータ) (2025-04-23T18:38:18Z) - ECViT: Efficient Convolutional Vision Transformer with Local-Attention and Multi-scale Stages [0.0]
ビジョントランスフォーマー(ViT)は、長距離依存をモデル化するために自己アテンションを活用することで、コンピュータビジョンに革命をもたらした。
我々は,CNNとトランスフォーマーの強度を効果的に組み合わせたハイブリッドアーキテクチャである,効率的な畳み込み視覚変換器(ECViT)を提案する。
論文 参考訳(メタデータ) (2025-04-21T03:00:17Z) - Sparse-Tuning: Adapting Vision Transformers with Efficient Fine-tuning and Inference [14.030836300221756]
textbfSparse-Tuningは、画像やビデオの情報冗長性を考慮に入れた新しいPEFTメソッドである。
Sparse-Tuningは各層で処理されるトークンの量を最小限に抑え、計算とメモリのオーバーヘッドを2次的に削減する。
我々のSparse-TuningはGFLOPsを62%-70%に削減し,最先端性能を実現した。
論文 参考訳(メタデータ) (2024-05-23T15:34:53Z) - ViR: Towards Efficient Vision Retention Backbones [97.93707844681893]
視覚保持ネットワーク(ViR)と呼ばれる新しいコンピュータビジョンモデルを提案する。
ViRは並列および繰り返しの定式化を持ち、高速推論と並列トレーニングと競合性能の最適なバランスをとる。
我々は,様々なデータセットサイズと様々な画像解像度を用いた広範囲な実験により,ViRの有効性を検証した。
論文 参考訳(メタデータ) (2023-10-30T16:55:50Z) - CAP: Correlation-Aware Pruning for Highly-Accurate Sparse Vision Models [22.055655390093722]
correlation Aware Pruner (CAP) は最先端アーキテクチャの圧縮限界を大幅に押し下げる。
新たな理論的に調整されたプルーナーは、プルーニングプロセス自体の複雑な重量相関を正確かつ効率的に処理する。
自己監督技術を用いて訓練された超高精度な大規模視覚モデルも、適度な空間にプルーニングでき、精度の低下も無視できることを示す。
論文 参考訳(メタデータ) (2022-10-14T12:19:09Z) - Q-ViT: Accurate and Fully Quantized Low-bit Vision Transformer [56.87383229709899]
我々は、完全量子化視覚変換器(Q-ViT)のための情報修正モジュール(IRM)と分配誘導蒸留法を開発した。
我々の手法は、先行技術よりもはるかに優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-10-13T04:00:29Z) - Deeper Insights into ViTs Robustness towards Common Corruptions [82.79764218627558]
我々は、CNNのようなアーキテクチャ設計とCNNベースのデータ拡張戦略が、一般的な汚職に対するViTsの堅牢性にどのように影響するかを検討する。
重なり合うパッチ埋め込みと畳み込みフィードフォワードネットワーク(FFN)がロバスト性の向上を実証する。
また、2つの角度から入力値の増大を可能にする新しい条件付き手法も導入する。
論文 参考訳(メタデータ) (2022-04-26T08:22:34Z) - A Unified Pruning Framework for Vision Transformers [40.7622551128182]
ビジョントランス(ViT)とその変種は様々なコンピュータビジョンタスクにおいて有望な性能を達成した。
本稿では, UP-ViT と UP-ViT の両方の構造解析のための統一的な枠組みを提案する。
本手法は,モデル構造の整合性を維持しつつ,すべてのViTsコンポーネントのプルーニングに重点を置いている。
論文 参考訳(メタデータ) (2021-11-30T05:01:02Z) - Global Vision Transformer Pruning with Hessian-Aware Saliency [93.33895899995224]
この研究はヴィジュアルトランスフォーマー(ViT)モデルの共通設計哲学に挑戦する。
遅延を意識した規則化による直接遅延低減を実現し,すべての層や構造に匹敵する新しいヘッセン型構造解析基準を導出する。
DeiT-Baseモデルで反復的なプルーニングを実行すると、NViT(Novel ViT)と呼ばれる新しいアーキテクチャファミリが生まれ、パラメータをより効率的に利用する新しいパラメータが現れる。
論文 参考訳(メタデータ) (2021-10-10T18:04:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。