論文の概要: Multi-Exit Vision Transformer for Dynamic Inference
- arxiv url: http://arxiv.org/abs/2106.15183v1
- Date: Tue, 29 Jun 2021 09:01:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-30 15:27:06.548357
- Title: Multi-Exit Vision Transformer for Dynamic Inference
- Title(参考訳): 動的推論のためのマルチエクイット視覚トランス
- Authors: Arian Bakhtiarnia, Qi Zhang and Alexandros Iosifidis
- Abstract要約: 視覚変換器のバックボーンの動的推論に使用できる早期出口分岐のための7つの異なるアーキテクチャを提案する。
提案したアーキテクチャのそれぞれが,精度と速度のトレードオフにおいて有用であることを示す。
- 参考スコア(独自算出の注目度): 88.17413955380262
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep neural networks can be converted to multi-exit architectures by
inserting early exit branches after some of their intermediate layers. This
allows their inference process to become dynamic, which is useful for time
critical IoT applications with stringent latency requirements, but with
time-variant communication and computation resources. In particular, in edge
computing systems and IoT networks where the exact computation time budget is
variable and not known beforehand. Vision Transformer is a recently proposed
architecture which has since found many applications across various domains of
computer vision. In this work, we propose seven different architectures for
early exit branches that can be used for dynamic inference in Vision
Transformer backbones. Through extensive experiments involving both
classification and regression problems, we show that each one of our proposed
architectures could prove useful in the trade-off between accuracy and speed.
- Abstract(参考訳): ディープニューラルネットワークは、中間層の一部の後に早期出口ブランチを挿入することで、マルチエクイットアーキテクチャに変換できる。
これによって推論プロセスは動的になり、時間的に重要なIoTアプリケーションに対して、レイテンシの厳しい要件があるのに、時間的な通信や計算リソースを持つのに役立ちます。
特にエッジコンピューティングシステムやIoTネットワークでは、正確な計算時間予算が可変であり、事前に分かっていない。
vision transformerは、最近提案されたアーキテクチャで、コンピュータビジョンのさまざまな領域にまたがる多くのアプリケーションを見出した。
本研究では,視覚トランスフォーマーバックボーンの動的推論に使用できる早期出口分岐のための7つの異なるアーキテクチャを提案する。
分類問題と回帰問題の両方を含む広範な実験を通じて,提案するアーキテクチャのそれぞれが,精度と速度のトレードオフにおいて有用であることを示す。
関連論文リスト
- Knowledge-enhanced Transformer for Multivariate Long Sequence Time-series Forecasting [4.645182684813973]
本研究では,変数間の概念的関係をよく定義された知識グラフ内にカプセル化する新しい手法を提案する。
PatchTST, Autoformer, Informer, Vanilla Transformer などのセマンティックアーキテクチャへの統合の影響について検討する。
この拡張により、変数間の固有の構造的関係に対処するトランスフォーマーベースのアーキテクチャが強化される。
論文 参考訳(メタデータ) (2024-11-17T11:53:54Z) - AsCAN: Asymmetric Convolution-Attention Networks for Efficient Recognition and Generation [48.82264764771652]
本稿では,畳み込みブロックと変圧器ブロックを組み合わせたハイブリッドアーキテクチャAsCANを紹介する。
AsCANは、認識、セグメンテーション、クラス条件画像生成など、さまざまなタスクをサポートしている。
次に、同じアーキテクチャをスケールして、大規模なテキスト・イメージタスクを解決し、最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-11-07T18:43:17Z) - Deconstructing Recurrence, Attention, and Gating: Investigating the transferability of Transformers and Gated Recurrent Neural Networks in forecasting of dynamical systems [0.0]
我々は、RNNにおけるゲーティングと再発、トランスフォーマーにおける注意機構など、最も強力なニューラルネットワークアーキテクチャの主要なアーキテクチャコンポーネントを分解する。
重要な発見は、ニューラルゲーティングとアテンションは、ほとんどのタスクにおいて標準RNNの正確性を改善する一方で、トランスフォーマーにおける再発の概念の追加は有害である。
論文 参考訳(メタデータ) (2024-10-03T16:41:51Z) - TCCT-Net: Two-Stream Network Architecture for Fast and Efficient Engagement Estimation via Behavioral Feature Signals [58.865901821451295]
本稿では,新しい2ストリーム機能融合 "Tensor-Convolution and Convolution-Transformer Network" (TCCT-Net) アーキテクチャを提案する。
時間空間領域における意味のあるパターンをよりよく学習するために、ハイブリッド畳み込み変換器を統合する「CT」ストリームを設計する。
並行して、時間周波数領域からリッチなパターンを効率的に抽出するために、連続ウェーブレット変換(CWT)を用いて情報を2次元テンソル形式で表現する「TC」ストリームを導入する。
論文 参考訳(メタデータ) (2024-04-15T06:01:48Z) - Dynamic Transformer Architecture for Continual Learning of Multimodal
Tasks [27.59758964060561]
トランスフォーマーニューラルネットワークは、さまざまなデータモダリティの幅広いアプリケーションにおいて、以前のアーキテクチャを置き換える傾向にある。
連続学習(CL)は、自律学習エージェントに順次到着するタスク間で知識の伝達を容易にすることで、ソリューションとして現れる。
本稿では,視覚と言語の両方に関わる学習タスクに着目したトランスフォーマーベースのCLフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-27T03:03:30Z) - Vision Transformer with Convolutions Architecture Search [72.70461709267497]
本稿では,畳み込み型アーキテクチャサーチ(VTCAS)を用いたアーキテクチャ探索手法を提案する。
VTCASによって探索された高性能バックボーンネットワークは、畳み込みニューラルネットワークの望ましい特徴をトランスフォーマーアーキテクチャに導入する。
これは、特に低照度屋内シーンにおいて、物体認識のためのニューラルネットワークの堅牢性を高める。
論文 参考訳(メタデータ) (2022-03-20T02:59:51Z) - Rich CNN-Transformer Feature Aggregation Networks for Super-Resolution [50.10987776141901]
近年の視覚変換器と自己注意は,様々なコンピュータビジョンタスクにおいて有望な成果を上げている。
我々は,CNNの局所的特徴とトランスフォーマーが捉えた長距離依存性を活用する,超解像(SR)タスクのための効果的なハイブリッドアーキテクチャを提案する。
提案手法は,多数のベンチマークデータセットから最先端のSR結果を得る。
論文 参考訳(メタデータ) (2022-03-15T06:52:25Z) - Automated Search for Resource-Efficient Branched Multi-Task Networks [81.48051635183916]
我々は,多タスクニューラルネットワークにおける分岐構造を自動的に定義する,微分可能なニューラルネットワーク探索に根ざした原理的アプローチを提案する。
本手法は,限られた資源予算内で高い性能の分岐構造を見いだすことができる。
論文 参考訳(メタデータ) (2020-08-24T09:49:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。