論文の概要: MIA-Former: Efficient and Robust Vision Transformers via Multi-grained
Input-Adaptation
- arxiv url: http://arxiv.org/abs/2112.11542v1
- Date: Tue, 21 Dec 2021 22:06:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-24 00:43:08.603601
- Title: MIA-Former: Efficient and Robust Vision Transformers via Multi-grained
Input-Adaptation
- Title(参考訳): MIA-Former:多粒入力適応による高効率かつロバストな視覚変換器
- Authors: Zhongzhi Yu, Yonggan Fu, Sicheng Li, Chaojian Li, Yingyan Lin
- Abstract要約: Vision Transformer (ViT) モデルは、現実のリソース制約されたデバイスに組み込むには計算コストがかかりすぎる。
入力適応型視覚変換フレームワークMIA-Formerを提案する。
提案するMIA-Formerフレームワークは,入力画像の難易度に適応した予算を効果的に配分できることを確認した。
- 参考スコア(独自算出の注目度): 14.866949449862226
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: ViTs are often too computationally expensive to be fitted onto real-world
resource-constrained devices, due to (1) their quadratically increased
complexity with the number of input tokens and (2) their overparameterized
self-attention heads and model depth. In parallel, different images are of
varied complexity and their different regions can contain various levels of
visual information, indicating that treating all regions/tokens equally in
terms of model complexity is unnecessary while such opportunities for trimming
down ViTs' complexity have not been fully explored. To this end, we propose a
Multi-grained Input-adaptive Vision Transformer framework dubbed MIA-Former
that can input-adaptively adjust the structure of ViTs at three
coarse-to-fine-grained granularities (i.e., model depth and the number of model
heads/tokens). In particular, our MIA-Former adopts a low-cost network trained
with a hybrid supervised and reinforcement training method to skip unnecessary
layers, heads, and tokens in an input adaptive manner, reducing the overall
computational cost. Furthermore, an interesting side effect of our MIA-Former
is that its resulting ViTs are naturally equipped with improved robustness
against adversarial attacks over their static counterparts, because
MIA-Former's multi-grained dynamic control improves the model diversity similar
to the effect of ensemble and thus increases the difficulty of adversarial
attacks against all its sub-models. Extensive experiments and ablation studies
validate that the proposed MIA-Former framework can effectively allocate
computation budgets adaptive to the difficulty of input images meanwhile
increase robustness, achieving state-of-the-art (SOTA) accuracy-efficiency
trade-offs, e.g., 20% computation savings with the same or even a higher
accuracy compared with SOTA dynamic transformer models.
- Abstract(参考訳): vitは、(1)入力トークンの数と2乗的に増加する複雑さ、(2)過パラメータ化された自己付着ヘッドとモデル深度のため、実世界のリソース制約されたデバイスに装着するには計算コストが高すぎることが多い。
平行して、異なる画像は様々な複雑さを持ち、異なる領域は様々なレベルの視覚情報を含むことが可能であり、モデル複雑性の観点から全ての領域/トークンを等しく扱うことは不要である一方で、ViTsの複雑さをトリミングする機会は十分に調べられていないことを示す。
そこで本研究では,3つの粗粒度(モデル深度,モデルヘッド/トークン数)でViTの構造をインプット適応的に調整できるMIA-Formerという,多機能なインプット適応型ビジョントランスフォーマフレームワークを提案する。
特にmia-formerでは,複合教師・強化訓練方式で訓練した低コストネットワークを採用し,不要なレイヤ,ヘッド,トークンを入力順応的にスキップし,計算コストを削減している。
さらにMIA-Formerの興味深い副作用は,MIA-Formerの多粒度動的制御により,アンサンブルの効果と同様のモデルの多様性が向上し,全てのサブモデルに対する敵攻撃の難易度が増大するため,結果として得られるViTが,静的攻撃に対する敵攻撃に対するロバスト性が改善されることである。
大規模な実験とアブレーション研究により、提案したMIA-Formerフレームワークは、入力画像の難易度に適応した計算予算を効果的に割り当てることができ、SOTA(State-of-the-art)の精度-効率トレードオフを達成することができる。
関連論文リスト
- MADTP: Multimodal Alignment-Guided Dynamic Token Pruning for
Accelerating Vision-Language Transformer [66.71930982549028]
VLT(Vision-Language Transformer)は近年大きな成功を収めている。
各種VLTの高速化を目的としたマルチモーダルアライメント誘導動的トーケンプルーニング(MADTP)という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-05T14:13:50Z) - FuseMoE: Mixture-of-Experts Transformers for Fleximodal Fusion [31.252384334117792]
FuseMoEは、革新的なゲーティング機能を備えた、エキスパートの混成フレームワークである。
多様なモダリティを統合するために設計されたFuseMoEは、欠落したモダリティと不規則にサンプリングされたデータトラジェクトリのシナリオを管理するのに効果的である。
実世界でのFuseMoEの実用性は、臨床リスク予測タスクの挑戦的なセットによって検証される。
論文 参考訳(メタデータ) (2024-02-05T17:37:46Z) - Adaptivity and Modularity for Efficient Generalization Over Task
Complexity [42.748898521364914]
変圧器における適応型およびモジュラー型計算の機構を用いることで,逐次ステップ数に対する一般化を求めるタスクの学習が容易になるかを検討する。
本稿では,ハイパーネットワークからの動的関数生成とユニバーサルトランスの適応深度を組み合わせたHyper-UTアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-10-13T05:29:09Z) - Deformable Mixer Transformer with Gating for Multi-Task Learning of
Dense Prediction [126.34551436845133]
CNNとTransformerには独自の利点があり、MTL(Multi-task Learning)の高密度予測に広く使われている。
本稿では,変形可能なCNNと問合せベースのTransformerの長所を共用したMTLモデルを提案する。
論文 参考訳(メタデータ) (2023-08-10T17:37:49Z) - SmartTrim: Adaptive Tokens and Attention Pruning for Efficient
Vision-Language Models [35.5601603013045]
視覚言語モデル(VLM)のための適応加速度フレームワークであるSmartTrimを提案する。
軽量なモジュールを元のバックボーンに統合し、各レイヤ内で冗長なトークン表現とアテンションヘッドを特定し、実行します。
我々は,プレナードモデルの予測と完全容量との整合性を高めるための自己蒸留戦略を考案した。
論文 参考訳(メタデータ) (2023-05-24T11:18:00Z) - Efficient Multimodal Transformer with Dual-Level Feature Restoration for
Robust Multimodal Sentiment Analysis [47.29528724322795]
マルチモーダルセンシング分析(MSA)が近年注目を集めている。
著しい進歩にもかかわらず、堅牢なMSAへの道にはまだ2つの大きな課題がある。
デュアルレベル特徴回復 (EMT-DLFR) を用いた高効率マルチモーダル変圧器 (Efficient Multimodal Transformer) を提案する。
論文 参考訳(メタデータ) (2022-08-16T08:02:30Z) - ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for
Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文 参考訳(メタデータ) (2022-02-21T10:40:05Z) - Plug-In Inversion: Model-Agnostic Inversion for Vision with Data
Augmentations [61.95114821573875]
単純な拡張セットに依存し、過剰なハイパーパラメータチューニングを必要としないPlug-In Inversionを導入する。
ImageNetデータセットでトレーニングされたビジョントランスフォーマー(ViT)とマルチ層パーセプトロン(MLP)を反転させることにより,我々のアプローチの実用性を説明する。
論文 参考訳(メタデータ) (2022-01-31T02:12:45Z) - AA-RMVSNet: Adaptive Aggregation Recurrent Multi-view Stereo Network [8.127449025802436]
本稿では,AA-RMVSNetというアダプティブアグリゲーションを備えた長短期記憶(LSTM)に基づく,新しいマルチビューステレオネットワークを提案する。
まず、コンテキスト認識の畳み込みとマルチスケールアグリゲーションを用いて、画像の特徴を適応的に抽出するビュー内アグリゲーションモジュールを提案する。
本稿では,すべてのビューにおいて,より整合性のあるペアを保存可能な,適応的なピクセルワイドビューアグリゲーションのためのビュー間コストボリュームアグリゲーションモジュールを提案する。
論文 参考訳(メタデータ) (2021-08-09T06:10:48Z) - Intriguing Properties of Vision Transformers [114.28522466830374]
視覚変換器(ViT)は、様々なマシンビジョン問題にまたがって印象的な性能を誇示している。
我々は、この問題を広範囲の実験を通して体系的に研究し、高性能畳み込みニューラルネットワーク(CNN)との比較を行った。
ViTsの効果的な特徴は、自己認識機構によって可能なフレキシブルな受容と動的場によるものであることを示す。
論文 参考訳(メタデータ) (2021-05-21T17:59:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。