論文の概要: EA-ViT: Efficient Adaptation for Elastic Vision Transformer
- arxiv url: http://arxiv.org/abs/2507.19360v1
- Date: Fri, 25 Jul 2025 15:11:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-28 16:16:49.009687
- Title: EA-ViT: Efficient Adaptation for Elastic Vision Transformer
- Title(参考訳): EA-ViT:Elastic Vision Transformerの効率的な適応
- Authors: Chen Zhu, Wangbo Zhao, Huiwen Zhang, Samir Khaki, Yuhao Zhou, Weidong Tang, Shuo Wang, Zhihang Yuan, Yuzhang Shang, Xiaojiang Peng, Kai Wang, Dawei Yang,
- Abstract要約: ビジョントランスフォーマー(ViT)は、コンピュータビジョンの基礎モデルとして登場し、下流タスクへの一般化と適応性に優れている。
多様なリソース制約をサポートするためにViTをデプロイするには、通常、複数のサイズ固有のViTを再トレーニングする必要がある。
資源制約の異なるプラットフォーム上でのデプロイにおいて,単一のプロセスでさまざまなサイズで複数のモデルを生成することが可能な,効率的なViT適応フレームワークを提案する。
- 参考スコア(独自算出の注目度): 37.442677800641164
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision Transformers (ViTs) have emerged as a foundational model in computer vision, excelling in generalization and adaptation to downstream tasks. However, deploying ViTs to support diverse resource constraints typically requires retraining multiple, size-specific ViTs, which is both time-consuming and energy-intensive. To address this issue, we propose an efficient ViT adaptation framework that enables a single adaptation process to generate multiple models of varying sizes for deployment on platforms with various resource constraints. Our approach comprises two stages. In the first stage, we enhance a pre-trained ViT with a nested elastic architecture that enables structural flexibility across MLP expansion ratio, number of attention heads, embedding dimension, and network depth. To preserve pre-trained knowledge and ensure stable adaptation, we adopt a curriculum-based training strategy that progressively increases elasticity. In the second stage, we design a lightweight router to select submodels according to computational budgets and downstream task demands. Initialized with Pareto-optimal configurations derived via a customized NSGA-II algorithm, the router is then jointly optimized with the backbone. Extensive experiments on multiple benchmarks demonstrate the effectiveness and versatility of EA-ViT. The code is available at https://github.com/zcxcf/EA-ViT.
- Abstract(参考訳): ビジョントランスフォーマー(ViT)は、コンピュータビジョンの基本モデルとして登場し、下流タスクへの一般化と適応性に優れている。
しかし、様々なリソース制約をサポートするためにViTをデプロイするには、通常、複数のサイズ固有のViTを再訓練する必要がある。
この問題に対処するために,単一の適応処理により,リソース制約の異なるプラットフォーム上に展開するさまざまなサイズのモデルを複数生成することのできる,効率的なViT適応フレームワークを提案する。
私たちのアプローチは2つの段階から成る。
第1段階では,MLP膨張率,注目ヘッド数,埋め込み寸法,ネットワーク深度をまたいだ構造的柔軟性を実現する,ネスト弾性アーキテクチャによる事前学習型ViTを強化する。
事前学習した知識を保存し,安定した適応を確保するために,段階的に弾力性を高めるカリキュラムベースのトレーニング戦略を採用する。
第2段階では,計算予算や下流タスク要求に応じてサブモデルを選択する軽量ルータを設計する。
カスタマイズされたNSGA-IIアルゴリズムによって導出されるパレート最適構成で初期化され、ルータはバックボーンと共同で最適化される。
複数のベンチマークに関する大規模な実験は、EA-ViTの有効性と汎用性を示している。
コードはhttps://github.com/zcxcf/EA-ViT.comで入手できる。
関連論文リスト
- MOR-VIT: Efficient Vision Transformer with Mixture-of-Recursions [1.0411839100853515]
MoR-ViTはトークンレベルの動的再帰機構を組み込んだ新しいビジョントランスフォーマーフレームワークである。
ImageNet-1Kと転送ベンチマークの実験は、MoR-ViTが最大70%のパラメータ還元と2.5倍の推論加速で最先端の精度を達成することを示した。
論文 参考訳(メタデータ) (2025-07-29T12:46:36Z) - ECViT: Efficient Convolutional Vision Transformer with Local-Attention and Multi-scale Stages [0.0]
ビジョントランスフォーマー(ViT)は、長距離依存をモデル化するために自己アテンションを活用することで、コンピュータビジョンに革命をもたらした。
我々は,CNNとトランスフォーマーの強度を効果的に組み合わせたハイブリッドアーキテクチャである,効率的な畳み込み視覚変換器(ECViT)を提案する。
論文 参考訳(メタデータ) (2025-04-21T03:00:17Z) - ConfigX: Modular Configuration for Evolutionary Algorithms via Multitask Reinforcement Learning [24.66031883340297]
本稿では,多様なEAを促進する汎用構成エージェント(モデル)を学習可能な,MetaBBOフレームワークの新しいパラダイムであるConfigXを紹介する。
我々のConfigXは、大規模な事前学習の後、目に見えないタスクに対して堅牢なゼロショットの一般化を実現し、最先端のベースラインを上回っます。
論文 参考訳(メタデータ) (2024-12-10T13:43:51Z) - Slicing Vision Transformer for Flexible Inference [79.35046907288518]
一つのネットワークが複数の小さな ViT を表現できるように,Scala という名前の汎用フレームワークを提案する。
S Scalaは、パラメータが少ないImageNet-1Kで平均1.6%の改善を実現している。
論文 参考訳(メタデータ) (2024-12-06T05:31:42Z) - PRANCE: Joint Token-Optimization and Structural Channel-Pruning for Adaptive ViT Inference [44.77064952091458]
PRANCEはVision Transformer圧縮フレームワークで、アクティベートされたチャネルを共同で最適化し、入力の特性に基づいてトークンを削減する。
本稿では,ViTの推論過程を逐次決定プロセスとしてモデル化する,新しい「結果と結果」学習機構を提案する。
我々のフレームワークは、プルーニング、マージング、プルーニングマージングといった様々なトークン最適化手法と互換性があることが示されている。
論文 参考訳(メタデータ) (2024-07-06T09:04:27Z) - Flextron: Many-in-One Flexible Large Language Model [85.93260172698398]
我々は,フレキシブルモデル展開をサポートするネットワークアーキテクチャとポストトレーニングモデル最適化フレームワークであるFlextronを紹介する。
本稿では,既存の学習用LDMをFlextronモデルに変換するための,サンプル効率のよいトレーニング手法と関連するルーティングアルゴリズムを提案する。
我々は、複数のエンドツーエンドトレーニングされた変種や他の最先端の弾性ネットワークよりも優れた性能を示し、これらは全て、オリジナルの事前訓練と比較してわずか7.63%のトークンを消費する単一の事前訓練ランで実現している。
論文 参考訳(メタデータ) (2024-06-11T01:16:10Z) - ViT-Lens: Towards Omni-modal Representations [64.66508684336614]
ViT-Lens-2は、モダリティ増加の表現学習のためのフレームワークである。
ViT-Lens-2は3Dポイントクラウド,奥行き,オーディオ,触覚,脳波の表現を学習できることを示す。
ViT-Lens-2をシームレスにMultimodal Foundation Modelsに統合することにより、テキストと画像生成へのAny-modalityを可能にする。
論文 参考訳(メタデータ) (2023-11-27T18:52:09Z) - ViR: Towards Efficient Vision Retention Backbones [97.93707844681893]
視覚保持ネットワーク(ViR)と呼ばれる新しいコンピュータビジョンモデルを提案する。
ViRは並列および繰り返しの定式化を持ち、高速推論と並列トレーニングと競合性能の最適なバランスをとる。
我々は,様々なデータセットサイズと様々な画像解像度を用いた広範囲な実験により,ViRの有効性を検証した。
論文 参考訳(メタデータ) (2023-10-30T16:55:50Z) - Stitched ViTs are Flexible Vision Backbones [51.441023711924835]
我々は、縫合可能なニューラルネットワーク(SN-Net)にインスパイアされ、訓練済みのモデルファミリーを縫合することで、リッチワークをカバーする単一のモデルを生成する。
我々は、下流タスク適応を容易にするために、体系的に改良されたモデル縫合フレームワークSN-Netv2を紹介する。
SN-Netv2は、下流の高密度予測においてSN-Netv1よりも優れた性能を示し、柔軟なビジョンバックボーンとして強力な能力を示している。
論文 参考訳(メタデータ) (2023-06-30T22:05:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。