論文の概要: MIA-Former: Efficient and Robust Vision Transformers via Multi-grained
Input-Adaptation
- arxiv url: http://arxiv.org/abs/2112.11542v1
- Date: Tue, 21 Dec 2021 22:06:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-24 00:43:08.603601
- Title: MIA-Former: Efficient and Robust Vision Transformers via Multi-grained
Input-Adaptation
- Title(参考訳): MIA-Former:多粒入力適応による高効率かつロバストな視覚変換器
- Authors: Zhongzhi Yu, Yonggan Fu, Sicheng Li, Chaojian Li, Yingyan Lin
- Abstract要約: Vision Transformer (ViT) モデルは、現実のリソース制約されたデバイスに組み込むには計算コストがかかりすぎる。
入力適応型視覚変換フレームワークMIA-Formerを提案する。
提案するMIA-Formerフレームワークは,入力画像の難易度に適応した予算を効果的に配分できることを確認した。
- 参考スコア(独自算出の注目度): 14.866949449862226
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: ViTs are often too computationally expensive to be fitted onto real-world
resource-constrained devices, due to (1) their quadratically increased
complexity with the number of input tokens and (2) their overparameterized
self-attention heads and model depth. In parallel, different images are of
varied complexity and their different regions can contain various levels of
visual information, indicating that treating all regions/tokens equally in
terms of model complexity is unnecessary while such opportunities for trimming
down ViTs' complexity have not been fully explored. To this end, we propose a
Multi-grained Input-adaptive Vision Transformer framework dubbed MIA-Former
that can input-adaptively adjust the structure of ViTs at three
coarse-to-fine-grained granularities (i.e., model depth and the number of model
heads/tokens). In particular, our MIA-Former adopts a low-cost network trained
with a hybrid supervised and reinforcement training method to skip unnecessary
layers, heads, and tokens in an input adaptive manner, reducing the overall
computational cost. Furthermore, an interesting side effect of our MIA-Former
is that its resulting ViTs are naturally equipped with improved robustness
against adversarial attacks over their static counterparts, because
MIA-Former's multi-grained dynamic control improves the model diversity similar
to the effect of ensemble and thus increases the difficulty of adversarial
attacks against all its sub-models. Extensive experiments and ablation studies
validate that the proposed MIA-Former framework can effectively allocate
computation budgets adaptive to the difficulty of input images meanwhile
increase robustness, achieving state-of-the-art (SOTA) accuracy-efficiency
trade-offs, e.g., 20% computation savings with the same or even a higher
accuracy compared with SOTA dynamic transformer models.
- Abstract(参考訳): vitは、(1)入力トークンの数と2乗的に増加する複雑さ、(2)過パラメータ化された自己付着ヘッドとモデル深度のため、実世界のリソース制約されたデバイスに装着するには計算コストが高すぎることが多い。
平行して、異なる画像は様々な複雑さを持ち、異なる領域は様々なレベルの視覚情報を含むことが可能であり、モデル複雑性の観点から全ての領域/トークンを等しく扱うことは不要である一方で、ViTsの複雑さをトリミングする機会は十分に調べられていないことを示す。
そこで本研究では,3つの粗粒度(モデル深度,モデルヘッド/トークン数)でViTの構造をインプット適応的に調整できるMIA-Formerという,多機能なインプット適応型ビジョントランスフォーマフレームワークを提案する。
特にmia-formerでは,複合教師・強化訓練方式で訓練した低コストネットワークを採用し,不要なレイヤ,ヘッド,トークンを入力順応的にスキップし,計算コストを削減している。
さらにMIA-Formerの興味深い副作用は,MIA-Formerの多粒度動的制御により,アンサンブルの効果と同様のモデルの多様性が向上し,全てのサブモデルに対する敵攻撃の難易度が増大するため,結果として得られるViTが,静的攻撃に対する敵攻撃に対するロバスト性が改善されることである。
大規模な実験とアブレーション研究により、提案したMIA-Formerフレームワークは、入力画像の難易度に適応した計算予算を効果的に割り当てることができ、SOTA(State-of-the-art)の精度-効率トレードオフを達成することができる。
関連論文リスト
- AdapMTL: Adaptive Pruning Framework for Multitask Learning Model [5.643658120200373]
AdapMTLはマルチタスクモデルのための適応型プルーニングフレームワークである。
複数のタスクにまたがって、空間割り当てと精度のパフォーマンスのバランスをとる。
最先端の刈り取り法に比べて優れた性能を示す。
論文 参考訳(メタデータ) (2024-08-07T17:19:15Z) - Multi-layer Learnable Attention Mask for Multimodal Tasks [2.378535917357144]
ラーナブル・アテンション・マスク(LAM)は、グローバルなアテンションマップの規制と重要なトークンの優先順位付けのために戦略的に設計された。
LAMはBERTのようなトランスフォーマーネットワークでトークン間の関連を受信する。
MADv2、QVHighlights、ImageNet 1K、MSRVTTなど、さまざまなデータセットに対する総合的な実験的検証。
論文 参考訳(メタデータ) (2024-06-04T20:28:02Z) - MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。
近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。
SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文 参考訳(メタデータ) (2024-04-13T13:39:26Z) - MADTP: Multimodal Alignment-Guided Dynamic Token Pruning for
Accelerating Vision-Language Transformer [66.71930982549028]
VLT(Vision-Language Transformer)は近年大きな成功を収めている。
各種VLTの高速化を目的としたマルチモーダルアライメント誘導動的トーケンプルーニング(MADTP)という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-05T14:13:50Z) - FuseMoE: Mixture-of-Experts Transformers for Fleximodal Fusion [29.130355774088205]
FuseMoEは、革新的なゲーティング機能を備えた、エキスパートの混成フレームワークである。
多様なモダリティを統合するために設計されたFuseMoEは、欠落したモダリティと不規則にサンプリングされたデータトラジェクトリのシナリオを管理するのに効果的である。
論文 参考訳(メタデータ) (2024-02-05T17:37:46Z) - Generalized Face Forgery Detection via Adaptive Learning for Pre-trained Vision Transformer [54.32283739486781]
適応学習パラダイムの下で,textbfForgery-aware textbfAdaptive textbfVision textbfTransformer(FA-ViT)を提案する。
FA-ViTは、クロスデータセット評価において、Celeb-DFおよびDFDCデータセット上で93.83%と78.32%のAUCスコアを達成する。
論文 参考訳(メタデータ) (2023-09-20T06:51:11Z) - Efficient Multimodal Transformer with Dual-Level Feature Restoration for
Robust Multimodal Sentiment Analysis [47.29528724322795]
マルチモーダルセンシング分析(MSA)が近年注目を集めている。
著しい進歩にもかかわらず、堅牢なMSAへの道にはまだ2つの大きな課題がある。
デュアルレベル特徴回復 (EMT-DLFR) を用いた高効率マルチモーダル変圧器 (Efficient Multimodal Transformer) を提案する。
論文 参考訳(メタデータ) (2022-08-16T08:02:30Z) - ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for
Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文 参考訳(メタデータ) (2022-02-21T10:40:05Z) - Intriguing Properties of Vision Transformers [114.28522466830374]
視覚変換器(ViT)は、様々なマシンビジョン問題にまたがって印象的な性能を誇示している。
我々は、この問題を広範囲の実験を通して体系的に研究し、高性能畳み込みニューラルネットワーク(CNN)との比較を行った。
ViTsの効果的な特徴は、自己認識機構によって可能なフレキシブルな受容と動的場によるものであることを示す。
論文 参考訳(メタデータ) (2021-05-21T17:59:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。