Fugu-MT 論文翻訳(概要): MIA-Former: Efficient and Robust Vision Transformers via Multi-grained Input-Adaptation

論文の概要: MIA-Former: Efficient and Robust Vision Transformers via Multi-grained Input-Adaptation

arxiv url: http://arxiv.org/abs/2112.11542v1
Date: Tue, 21 Dec 2021 22:06:24 GMT
ステータス: 翻訳完了
システム内更新日: 2021-12-24 00:43:08.603601
Title: MIA-Former: Efficient and Robust Vision Transformers via Multi-grained Input-Adaptation
Title（参考訳）: MIA-Former:多粒入力適応による高効率かつロバストな視覚変換器
Authors: Zhongzhi Yu, Yonggan Fu, Sicheng Li, Chaojian Li, Yingyan Lin
Abstract要約: Vision Transformer (ViT) モデルは、現実のリソース制約されたデバイスに組み込むには計算コストがかかりすぎる。入力適応型視覚変換フレームワークMIA-Formerを提案する。提案するMIA-Formerフレームワークは,入力画像の難易度に適応した予算を効果的に配分できることを確認した。
参考スコア（独自算出の注目度）: 14.866949449862226
License: http://creativecommons.org/licenses/by/4.0/
Abstract: ViTs are often too computationally expensive to be fitted onto real-world resource-constrained devices, due to (1) their quadratically increased complexity with the number of input tokens and (2) their overparameterized self-attention heads and model depth. In parallel, different images are of varied complexity and their different regions can contain various levels of visual information, indicating that treating all regions/tokens equally in terms of model complexity is unnecessary while such opportunities for trimming down ViTs' complexity have not been fully explored. To this end, we propose a Multi-grained Input-adaptive Vision Transformer framework dubbed MIA-Former that can input-adaptively adjust the structure of ViTs at three coarse-to-fine-grained granularities (i.e., model depth and the number of model heads/tokens). In particular, our MIA-Former adopts a low-cost network trained with a hybrid supervised and reinforcement training method to skip unnecessary layers, heads, and tokens in an input adaptive manner, reducing the overall computational cost. Furthermore, an interesting side effect of our MIA-Former is that its resulting ViTs are naturally equipped with improved robustness against adversarial attacks over their static counterparts, because MIA-Former's multi-grained dynamic control improves the model diversity similar to the effect of ensemble and thus increases the difficulty of adversarial attacks against all its sub-models. Extensive experiments and ablation studies validate that the proposed MIA-Former framework can effectively allocate computation budgets adaptive to the difficulty of input images meanwhile increase robustness, achieving state-of-the-art (SOTA) accuracy-efficiency trade-offs, e.g., 20% computation savings with the same or even a higher accuracy compared with SOTA dynamic transformer models.
Abstract（参考訳）: vitは、(1)入力トークンの数と2乗的に増加する複雑さ、(2)過パラメータ化された自己付着ヘッドとモデル深度のため、実世界のリソース制約されたデバイスに装着するには計算コストが高すぎることが多い。平行して、異なる画像は様々な複雑さを持ち、異なる領域は様々なレベルの視覚情報を含むことが可能であり、モデル複雑性の観点から全ての領域/トークンを等しく扱うことは不要である一方で、ViTsの複雑さをトリミングする機会は十分に調べられていないことを示す。そこで本研究では,3つの粗粒度(モデル深度,モデルヘッド/トークン数)でViTの構造をインプット適応的に調整できるMIA-Formerという,多機能なインプット適応型ビジョントランスフォーマフレームワークを提案する。特にmia-formerでは,複合教師・強化訓練方式で訓練した低コストネットワークを採用し,不要なレイヤ,ヘッド,トークンを入力順応的にスキップし,計算コストを削減している。さらにMIA-Formerの興味深い副作用は,MIA-Formerの多粒度動的制御により,アンサンブルの効果と同様のモデルの多様性が向上し,全てのサブモデルに対する敵攻撃の難易度が増大するため,結果として得られるViTが,静的攻撃に対する敵攻撃に対するロバスト性が改善されることである。大規模な実験とアブレーション研究により、提案したMIA-Formerフレームワークは、入力画像の難易度に適応した計算予算を効果的に割り当てることができ、SOTA(State-of-the-art)の精度-効率トレードオフを達成することができる。

関連論文リスト

Learning Robust Stereo Matching in the Wild with Selective Mixture-of-Experts [29.52183168979229]
SMoEStereoは,Low-Rank Adaptation (LoRA) とMixture-of-Experts (MoE) モジュールの融合により,VFMをステレオマッチングに適用する新しいフレームワークである。提案手法は,データセット固有の適応を伴わない複数のベンチマークに対して,最先端のクロスドメインと共同一般化を示す。
論文参考訳（メタデータ） (2025-07-07T03:19:04Z)
DyMU: Dynamic Merging and Virtual Unmerging for Efficient VLMs [124.52164183968145]
視覚言語モデル(VLM)の計算負担を軽減する,効率的なトレーニング不要なフレームワークであるDyMUを提案する。まず、動的トークンマージ(DToMe)は、画像の複雑さに基づいて類似のトークンをマージすることで、視覚トークンの埋め込み数を削減します。第二に、仮想トークンアンマージ(VTU)は、大きな言語モデル(LLM)の期待トークンシーケンスを、フルシーケンスの注意ダイナミクスを効率的に再構築することでシミュレートする。
論文参考訳（メタデータ） (2025-04-23T18:38:18Z)
AdaViT: Adaptive Vision Transformer for Flexible Pretrain and Finetune with Variable 3D Medical Image Modalities [9.006543373916314]
本稿では,AdaViT(Adaptive Vision Transformer)フレームワークを提案する。このアーキテクチャは、教師付き事前訓練されたモデルを、異なる入力モダリティ/コントラストセットを持つ新しいデータセットに効果的に転送することを示した。自己教師付きプレトレインでは,プレトレインデータの最大化と,入力モダリティの可変セットによる様々な下流タスクへの転送を容易にする。
論文参考訳（メタデータ） (2025-04-04T16:57:06Z)
Transformer Meets Twicing: Harnessing Unattended Residual Information [2.1605931466490795]
トランスフォーマーベースのディープラーニングモデルは、多くの言語やビジョンタスクで最先端のパフォーマンスを達成した。自己注意機構は複雑なデータパターンを扱えることが証明されているが、注意行列の表現能力はトランスフォーマー層間で著しく低下する。本研究では,NLM平滑化の低パス動作を軽減するため,非パラメトリック回帰におけるカーネルツイシング手順を用いた新しいアテンション機構であるTwicing Attentionを提案する。
論文参考訳（メタデータ） (2025-03-02T01:56:35Z)
AdapMTL: Adaptive Pruning Framework for Multitask Learning Model [5.643658120200373]
AdapMTLはマルチタスクモデルのための適応型プルーニングフレームワークである。複数のタスクにまたがって、空間割り当てと精度のパフォーマンスのバランスをとる。最先端の刈り取り法に比べて優れた性能を示す。
論文参考訳（メタデータ） (2024-08-07T17:19:15Z)
Multi-layer Learnable Attention Mask for Multimodal Tasks [2.378535917357144]
ラーナブル・アテンション・マスク(LAM)は、グローバルなアテンションマップの規制と重要なトークンの優先順位付けのために戦略的に設計された。 LAMはBERTのようなトランスフォーマーネットワークでトークン間の関連を受信する。 MADv2、QVHighlights、ImageNet 1K、MSRVTTなど、さまざまなデータセットに対する総合的な実験的検証。
論文参考訳（メタデータ） (2024-06-04T20:28:02Z)
MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。 SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文参考訳（メタデータ） (2024-04-13T13:39:26Z)
MADTP: Multimodal Alignment-Guided Dynamic Token Pruning for Accelerating Vision-Language Transformer [66.71930982549028]
VLT(Vision-Language Transformer)は近年大きな成功を収めている。各種VLTの高速化を目的としたマルチモーダルアライメント誘導動的トーケンプルーニング(MADTP)という新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-03-05T14:13:50Z)
FuseMoE: Mixture-of-Experts Transformers for Fleximodal Fusion [29.130355774088205]
FuseMoEは、革新的なゲーティング機能を備えた、エキスパートの混成フレームワークである。多様なモダリティを統合するために設計されたFuseMoEは、欠落したモダリティと不規則にサンプリングされたデータトラジェクトリのシナリオを管理するのに効果的である。
論文参考訳（メタデータ） (2024-02-05T17:37:46Z)
Generalized Face Forgery Detection via Adaptive Learning for Pre-trained Vision Transformer [54.32283739486781]
適応学習パラダイムの下で,textbfForgery-aware textbfAdaptive textbfVision textbfTransformer(FA-ViT)を提案する。 FA-ViTは、クロスデータセット評価において、Celeb-DFおよびDFDCデータセット上で93.83%と78.32%のAUCスコアを達成する。
論文参考訳（メタデータ） (2023-09-20T06:51:11Z)
Efficient Multimodal Transformer with Dual-Level Feature Restoration for Robust Multimodal Sentiment Analysis [47.29528724322795]
マルチモーダルセンシング分析(MSA)が近年注目を集めている。著しい進歩にもかかわらず、堅牢なMSAへの道にはまだ2つの大きな課題がある。デュアルレベル特徴回復 (EMT-DLFR) を用いた高効率マルチモーダル変圧器 (Efficient Multimodal Transformer) を提案する。
論文参考訳（メタデータ） (2022-08-16T08:02:30Z)
ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。 ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文参考訳（メタデータ） (2022-02-21T10:40:05Z)
Intriguing Properties of Vision Transformers [114.28522466830374]
視覚変換器(ViT)は、様々なマシンビジョン問題にまたがって印象的な性能を誇示している。我々は、この問題を広範囲の実験を通して体系的に研究し、高性能畳み込みニューラルネットワーク(CNN)との比較を行った。 ViTsの効果的な特徴は、自己認識機構によって可能なフレキシブルな受容と動的場によるものであることを示す。
論文参考訳（メタデータ） (2021-05-21T17:59:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。