論文の概要: Multi-Exit Vision Transformer for Dynamic Inference
- arxiv url: http://arxiv.org/abs/2106.15183v1
- Date: Tue, 29 Jun 2021 09:01:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-30 15:27:06.548357
- Title: Multi-Exit Vision Transformer for Dynamic Inference
- Title(参考訳): 動的推論のためのマルチエクイット視覚トランス
- Authors: Arian Bakhtiarnia, Qi Zhang and Alexandros Iosifidis
- Abstract要約: 視覚変換器のバックボーンの動的推論に使用できる早期出口分岐のための7つの異なるアーキテクチャを提案する。
提案したアーキテクチャのそれぞれが,精度と速度のトレードオフにおいて有用であることを示す。
- 参考スコア(独自算出の注目度): 88.17413955380262
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep neural networks can be converted to multi-exit architectures by
inserting early exit branches after some of their intermediate layers. This
allows their inference process to become dynamic, which is useful for time
critical IoT applications with stringent latency requirements, but with
time-variant communication and computation resources. In particular, in edge
computing systems and IoT networks where the exact computation time budget is
variable and not known beforehand. Vision Transformer is a recently proposed
architecture which has since found many applications across various domains of
computer vision. In this work, we propose seven different architectures for
early exit branches that can be used for dynamic inference in Vision
Transformer backbones. Through extensive experiments involving both
classification and regression problems, we show that each one of our proposed
architectures could prove useful in the trade-off between accuracy and speed.
- Abstract(参考訳): ディープニューラルネットワークは、中間層の一部の後に早期出口ブランチを挿入することで、マルチエクイットアーキテクチャに変換できる。
これによって推論プロセスは動的になり、時間的に重要なIoTアプリケーションに対して、レイテンシの厳しい要件があるのに、時間的な通信や計算リソースを持つのに役立ちます。
特にエッジコンピューティングシステムやIoTネットワークでは、正確な計算時間予算が可変であり、事前に分かっていない。
vision transformerは、最近提案されたアーキテクチャで、コンピュータビジョンのさまざまな領域にまたがる多くのアプリケーションを見出した。
本研究では,視覚トランスフォーマーバックボーンの動的推論に使用できる早期出口分岐のための7つの異なるアーキテクチャを提案する。
分類問題と回帰問題の両方を含む広範な実験を通じて,提案するアーキテクチャのそれぞれが,精度と速度のトレードオフにおいて有用であることを示す。
関連論文リスト
- NiNformer: A Network in Network Transformer with Token Mixing Generated
Gating Function [1.6317061277457001]
アテンションメカニズムはコンピュータビジョンでビジョントランスフォーマーViTとして利用され、その用途はビジョン領域の多くのタスクに拡張されている。
本稿では、通常のアテンション層をネットワーク内のネットワーク構造に置き換えることで、計算負担を軽減するための標準ViTブロックの代替として、新しい計算ブロックを提案する。
論文 参考訳(メタデータ) (2024-03-04T19:08:20Z) - Dynamic Transformer Architecture for Continual Learning of Multimodal
Tasks [27.59758964060561]
トランスフォーマーニューラルネットワークは、さまざまなデータモダリティの幅広いアプリケーションにおいて、以前のアーキテクチャを置き換える傾向にある。
連続学習(CL)は、自律学習エージェントに順次到着するタスク間で知識の伝達を容易にすることで、ソリューションとして現れる。
本稿では,視覚と言語の両方に関わる学習タスクに着目したトランスフォーマーベースのCLフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-27T03:03:30Z) - A Comprehensive Survey on Applications of Transformers for Deep Learning
Tasks [60.38369406877899]
Transformerは、シーケンシャルデータ内のコンテキスト関係を理解するために自己認識メカニズムを使用するディープニューラルネットワークである。
Transformerモデルは、入力シーケンス要素間の長い依存関係を処理し、並列処理を可能にする。
我々の調査では、トランスフォーマーベースのモデルのためのトップ5のアプリケーションドメインを特定します。
論文 参考訳(メタデータ) (2023-06-11T23:13:51Z) - Towards Multi-spatiotemporal-scale Generalized PDE Modeling [4.924631198058705]
渦流および速度関数形式における流体力学問題に対する様々なFNOとU-Netのようなアプローチの比較を行う。
一つの代理モデルを用いて異なるPDEパラメータと時間スケールへの一般化の有望な結果を示す。
論文 参考訳(メタデータ) (2022-09-30T17:40:05Z) - Vision Transformer with Convolutions Architecture Search [72.70461709267497]
本稿では,畳み込み型アーキテクチャサーチ(VTCAS)を用いたアーキテクチャ探索手法を提案する。
VTCASによって探索された高性能バックボーンネットワークは、畳み込みニューラルネットワークの望ましい特徴をトランスフォーマーアーキテクチャに導入する。
これは、特に低照度屋内シーンにおいて、物体認識のためのニューラルネットワークの堅牢性を高める。
論文 参考訳(メタデータ) (2022-03-20T02:59:51Z) - Rich CNN-Transformer Feature Aggregation Networks for Super-Resolution [50.10987776141901]
近年の視覚変換器と自己注意は,様々なコンピュータビジョンタスクにおいて有望な成果を上げている。
我々は,CNNの局所的特徴とトランスフォーマーが捉えた長距離依存性を活用する,超解像(SR)タスクのための効果的なハイブリッドアーキテクチャを提案する。
提案手法は,多数のベンチマークデータセットから最先端のSR結果を得る。
論文 参考訳(メタデータ) (2022-03-15T06:52:25Z) - Transformers predicting the future. Applying attention in next-frame and
time series forecasting [0.0]
繰り返しニューラルネットワークは、最近まで、シーケンス内のタイムリーな依存関係をキャプチャする最良の方法の1つでした。
トランスフォーマーの導入により、RNNのない注意機構しか持たないアーキテクチャが、様々なシーケンス処理タスクの結果を改善することが証明された。
論文 参考訳(メタデータ) (2021-08-18T16:17:29Z) - Single-Layer Vision Transformers for More Accurate Early Exits with Less
Overhead [88.17413955380262]
視覚変換器アーキテクチャに基づく早期退避のための新しいアーキテクチャを提案する。
本手法は分類問題と回帰問題の両方に有効であることを示す。
また,音声視覚データ解析において,早期出口に音声と視覚のモダリティを統合する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-05-19T13:30:34Z) - Automated Search for Resource-Efficient Branched Multi-Task Networks [81.48051635183916]
我々は,多タスクニューラルネットワークにおける分岐構造を自動的に定義する,微分可能なニューラルネットワーク探索に根ざした原理的アプローチを提案する。
本手法は,限られた資源予算内で高い性能の分岐構造を見いだすことができる。
論文 参考訳(メタデータ) (2020-08-24T09:49:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。