論文の概要: DiT: Efficient Vision Transformers with Dynamic Token Routing
- arxiv url: http://arxiv.org/abs/2308.03409v1
- Date: Mon, 7 Aug 2023 08:55:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-08 14:34:51.754370
- Title: DiT: Efficient Vision Transformers with Dynamic Token Routing
- Title(参考訳): DiT:動的トークンルーティングを用いた高能率ビジョントランス
- Authors: Yuchen Ma, Zhengcong Fei, Junshi Huang
- Abstract要約: ダイナミックビジョン変換器における画像トークンのルーティング経路を詳細化するために,データ依存型トークンルーティング方式を提案し,これをDiTと呼ぶ。
提案するフレームワークは,トークン単位のデータ依存パスを生成し,オブジェクトのスケールやトークンの視覚的識別に適応する。
実験では、画像ネット分類、オブジェクト検出、インスタンスセグメンテーション、セマンティックセグメンテーションにおける多くのSoTA手法よりも優れた性能と良好な複雑性/精度トレードオフを実現している。
- 参考スコア(独自算出の注目度): 37.808078064528374
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, the tokens of images share the same static data flow in many dense
networks. However, challenges arise from the variance among the objects in
images, such as large variations in the spatial scale and difficulties of
recognition for visual entities. In this paper, we propose a data-dependent
token routing strategy to elaborate the routing paths of image tokens for
Dynamic Vision Transformer, dubbed DiT. The proposed framework generates a
data-dependent path per token, adapting to the object scales and visual
discrimination of tokens. In feed-forward, the differentiable routing gates are
designed to select the scaling paths and feature transformation paths for image
tokens, leading to multi-path feature propagation. In this way, the impact of
object scales and visual discrimination of image representation can be
carefully tuned. Moreover, the computational cost can be further reduced by
giving budget constraints to the routing gate and early-stopping of feature
extraction. In experiments, our DiT achieves superior performance and favorable
complexity/accuracy trade-offs than many SoTA methods on ImageNet
classification, object detection, instance segmentation, and semantic
segmentation. Particularly, the DiT-B5 obtains 84.8\% top-1 Acc on ImageNet
with 10.3 GFLOPs, which is 1.0\% higher than that of the SoTA method with
similar computational complexity. These extensive results demonstrate that DiT
can serve as versatile backbones for various vision tasks.
- Abstract(参考訳): 近年、画像のトークンは、多くの高密度ネットワークで同じ静的データフローを共有している。
しかし、空間スケールの大きな変化や視覚的実体の認識の難しさなど、画像内の物体間のばらつきから課題が生じる。
本稿では,ダイナミックビジョン変換器のイメージトークンのルーティング経路を詳細に把握するための,データ依存型トークンルーティング方式を提案する。
提案フレームワークは,トークン毎のデータ依存パスを生成し,オブジェクトスケールとトークンの視覚的識別に適応する。
フィードフォワードでは、微分可能なルーティングゲートは、画像トークンのスケーリングパスと機能変換パスを選択するように設計され、マルチパスの特徴伝達に繋がる。
このように、オブジェクトスケールの影響と画像表現の視覚的識別を慎重に調整することができる。
さらに、ルーティングゲートに予算制約を与え、特徴抽出の早期停止を行うことにより、計算コストをさらに削減することができる。
実験では,画像ネット分類,オブジェクト検出,インスタンスセグメンテーション,セマンティクスセグメンテーションにおいて,多くのsata手法よりも優れた性能と適度な複雑性/正確性トレードオフを実現する。
特に、DiT-B5は10.3 GFLOPsのImageNet上で84.8\%のトップ-1Accを取得しており、同様の計算複雑性を持つSoTA法よりも1.0\%高い。
これらの広範な結果は、DiTが様々な視覚タスクのための多用途バックボーンとして機能できることを証明している。
関連論文リスト
- SAG-ViT: A Scale-Aware, High-Fidelity Patching Approach with Graph Attention for Vision Transformers [0.0]
マルチスケール機能を統合することでこの問題に対処する新しいフレームワークであるSAG-ViT(Scale-Aware Graph Attention Vision Transformer)を紹介した。
EfficientNetをバックボーンとして使用し、マルチスケールの特徴マップを抽出し、セマンティック情報を保存するためにパッチに分割する。
SAG-ViTは、ベンチマークデータセットに基づいて評価され、画像分類性能を向上させる効果を示す。
論文 参考訳(メタデータ) (2024-11-14T13:15:27Z) - TCFormer: Visual Recognition via Token Clustering Transformer [79.24723479088097]
本稿では,意味に基づく動的視覚トークンを生成するToken Clustering Transformer (TCFormer)を提案する。
ダイナミックトークンには2つの重要な特徴がある:(1)同じ視覚トークンを用いて類似の意味を持つ画像領域を表現し、(2)それらの領域が隣接していない場合でも、(2)貴重な詳細を持つ領域に集中し、細かなトークンを用いてそれらを表現する。
論文 参考訳(メタデータ) (2024-07-16T02:26:18Z) - Patch Is Not All You Need [57.290256181083016]
本稿では,画像の変換を適応的に変換する新しいパターン変換器を提案する。
我々は畳み込みニューラルネットワークを用いて入力画像から様々なパターンを抽出する。
我々は,CIFAR-10とCIFAR-100で最先端のパフォーマンスを達成し,ImageNet上での競合的な結果を得た。
論文 参考訳(メタデータ) (2023-08-21T13:54:00Z) - Unsupervised Domain Adaptation with Histogram-gated Image Translation
for Delayered IC Image Analysis [2.720699926154399]
Histogram-gated Image Translation (HGIT)は、特定のソースデータセットからターゲットデータセットのドメインに変換する、教師なしのドメイン適応フレームワークである。
提案手法は,報告したドメイン適応手法と比較して最高の性能を達成し,完全教師付きベンチマークに適当に近い。
論文 参考訳(メタデータ) (2022-09-27T15:53:22Z) - Transformer Meets Convolution: A Bilateral Awareness Net-work for
Semantic Segmentation of Very Fine Resolution Ur-ban Scene Images [6.460167724233707]
本稿では,依存経路とテクスチャパスを含む相互認知ネットワーク(BANet)を提案する。
BANetは、VFR画像の長距離関係と細かな詳細をキャプチャする。
3つの大規模都市景観画像セグメンテーションデータセット(ISPRS Vaihingen データセット、ISPRS Potsdam データセット、UAVid データセット)で実施された実験は、BANetの有効性を実証している。
論文 参考訳(メタデータ) (2021-06-23T13:57:36Z) - XCiT: Cross-Covariance Image Transformers [73.33400159139708]
本稿では,トークンではなく機能チャネルをまたいで機能する自己注意の「伝達」バージョンを提案する。
その結果、XCAはトークン数に線形複雑さを持ち、高解像度画像の効率的な処理を可能にする。
論文 参考訳(メタデータ) (2021-06-17T17:33:35Z) - Scalable Visual Transformers with Hierarchical Pooling [61.05787583247392]
本稿では,視覚的トークンを徐々にプールしてシーケンス長を縮小する階層的ビジュアルトランスフォーマ(hvt)を提案する。
計算の複雑さを増すことなく、深さ/幅/解像度/パッチサイズの寸法をスケールすることで、大きなメリットをもたらします。
当社のHVTはImageNetとCIFAR-100データセットの競合ベースラインを上回っています。
論文 参考訳(メタデータ) (2021-03-19T03:55:58Z) - Learning Dynamic Routing for Semantic Segmentation [86.56049245100084]
本稿では,動的ルーティングと呼ばれる意味表現のスケール分散を緩和する概念的に新しい手法を提案する。
提案フレームワークは,各画像のスケール分布に適応して,データ依存経路を生成する。
この目的のために、ハエのスケール変換経路を選択するために、ソフトコンディショナルゲートと呼ばれる微分可能なゲーティング関数を提案する。
論文 参考訳(メタデータ) (2020-03-23T17:22:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。