論文の概要: Multi-Exit Vision Transformer for Dynamic Inference
- arxiv url: http://arxiv.org/abs/2106.15183v1
- Date: Tue, 29 Jun 2021 09:01:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-30 15:27:06.548357
- Title: Multi-Exit Vision Transformer for Dynamic Inference
- Title(参考訳): 動的推論のためのマルチエクイット視覚トランス
- Authors: Arian Bakhtiarnia, Qi Zhang and Alexandros Iosifidis
- Abstract要約: 視覚変換器のバックボーンの動的推論に使用できる早期出口分岐のための7つの異なるアーキテクチャを提案する。
提案したアーキテクチャのそれぞれが,精度と速度のトレードオフにおいて有用であることを示す。
- 参考スコア(独自算出の注目度): 88.17413955380262
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep neural networks can be converted to multi-exit architectures by
inserting early exit branches after some of their intermediate layers. This
allows their inference process to become dynamic, which is useful for time
critical IoT applications with stringent latency requirements, but with
time-variant communication and computation resources. In particular, in edge
computing systems and IoT networks where the exact computation time budget is
variable and not known beforehand. Vision Transformer is a recently proposed
architecture which has since found many applications across various domains of
computer vision. In this work, we propose seven different architectures for
early exit branches that can be used for dynamic inference in Vision
Transformer backbones. Through extensive experiments involving both
classification and regression problems, we show that each one of our proposed
architectures could prove useful in the trade-off between accuracy and speed.
- Abstract(参考訳): ディープニューラルネットワークは、中間層の一部の後に早期出口ブランチを挿入することで、マルチエクイットアーキテクチャに変換できる。
これによって推論プロセスは動的になり、時間的に重要なIoTアプリケーションに対して、レイテンシの厳しい要件があるのに、時間的な通信や計算リソースを持つのに役立ちます。
特にエッジコンピューティングシステムやIoTネットワークでは、正確な計算時間予算が可変であり、事前に分かっていない。
vision transformerは、最近提案されたアーキテクチャで、コンピュータビジョンのさまざまな領域にまたがる多くのアプリケーションを見出した。
本研究では,視覚トランスフォーマーバックボーンの動的推論に使用できる早期出口分岐のための7つの異なるアーキテクチャを提案する。
分類問題と回帰問題の両方を含む広範な実験を通じて,提案するアーキテクチャのそれぞれが,精度と速度のトレードオフにおいて有用であることを示す。
関連論文リスト
- TCCT-Net: Two-Stream Network Architecture for Fast and Efficient Engagement Estimation via Behavioral Feature Signals [58.865901821451295]
本稿では,新しい2ストリーム機能融合 "Tensor-Convolution and Convolution-Transformer Network" (TCCT-Net) アーキテクチャを提案する。
時間空間領域における意味のあるパターンをよりよく学習するために、ハイブリッド畳み込み変換器を統合する「CT」ストリームを設計する。
並行して、時間周波数領域からリッチなパターンを効率的に抽出するために、連続ウェーブレット変換(CWT)を用いて情報を2次元テンソル形式で表現する「TC」ストリームを導入する。
論文 参考訳(メタデータ) (2024-04-15T06:01:48Z) - Dynamic Transformer Architecture for Continual Learning of Multimodal
Tasks [27.59758964060561]
トランスフォーマーニューラルネットワークは、さまざまなデータモダリティの幅広いアプリケーションにおいて、以前のアーキテクチャを置き換える傾向にある。
連続学習(CL)は、自律学習エージェントに順次到着するタスク間で知識の伝達を容易にすることで、ソリューションとして現れる。
本稿では,視覚と言語の両方に関わる学習タスクに着目したトランスフォーマーベースのCLフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-27T03:03:30Z) - SimQ-NAS: Simultaneous Quantization Policy and Neural Architecture
Search [6.121126813817338]
最近のワンショットニューラルネットワーク検索アルゴリズムは、特定のタスクに適したハードウェアに依存しないスーパーネットワークをトレーニングし、異なるハードウェアプラットフォームのための効率的なサブネットワークを抽出する。
我々は,光学習された予測器と組み合わせた多目的探索アルゴリズムを用いることで,サブネットワークアーキテクチャとそれに対応する量子化ポリシーの両方を効率的に探索できることを示す。
論文 参考訳(メタデータ) (2023-12-19T22:08:49Z) - Towards Multi-spatiotemporal-scale Generalized PDE Modeling [4.924631198058705]
渦流および速度関数形式における流体力学問題に対する様々なFNOとU-Netのようなアプローチの比較を行う。
一つの代理モデルを用いて異なるPDEパラメータと時間スケールへの一般化の有望な結果を示す。
論文 参考訳(メタデータ) (2022-09-30T17:40:05Z) - Vision Transformer with Convolutions Architecture Search [72.70461709267497]
本稿では,畳み込み型アーキテクチャサーチ(VTCAS)を用いたアーキテクチャ探索手法を提案する。
VTCASによって探索された高性能バックボーンネットワークは、畳み込みニューラルネットワークの望ましい特徴をトランスフォーマーアーキテクチャに導入する。
これは、特に低照度屋内シーンにおいて、物体認識のためのニューラルネットワークの堅牢性を高める。
論文 参考訳(メタデータ) (2022-03-20T02:59:51Z) - Rich CNN-Transformer Feature Aggregation Networks for Super-Resolution [50.10987776141901]
近年の視覚変換器と自己注意は,様々なコンピュータビジョンタスクにおいて有望な成果を上げている。
我々は,CNNの局所的特徴とトランスフォーマーが捉えた長距離依存性を活用する,超解像(SR)タスクのための効果的なハイブリッドアーキテクチャを提案する。
提案手法は,多数のベンチマークデータセットから最先端のSR結果を得る。
論文 参考訳(メタデータ) (2022-03-15T06:52:25Z) - Transformers predicting the future. Applying attention in next-frame and
time series forecasting [0.0]
繰り返しニューラルネットワークは、最近まで、シーケンス内のタイムリーな依存関係をキャプチャする最良の方法の1つでした。
トランスフォーマーの導入により、RNNのない注意機構しか持たないアーキテクチャが、様々なシーケンス処理タスクの結果を改善することが証明された。
論文 参考訳(メタデータ) (2021-08-18T16:17:29Z) - Single-Layer Vision Transformers for More Accurate Early Exits with Less
Overhead [88.17413955380262]
視覚変換器アーキテクチャに基づく早期退避のための新しいアーキテクチャを提案する。
本手法は分類問題と回帰問題の両方に有効であることを示す。
また,音声視覚データ解析において,早期出口に音声と視覚のモダリティを統合する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-05-19T13:30:34Z) - Automated Search for Resource-Efficient Branched Multi-Task Networks [81.48051635183916]
我々は,多タスクニューラルネットワークにおける分岐構造を自動的に定義する,微分可能なニューラルネットワーク探索に根ざした原理的アプローチを提案する。
本手法は,限られた資源予算内で高い性能の分岐構造を見いだすことができる。
論文 参考訳(メタデータ) (2020-08-24T09:49:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。