Fugu-MT 論文翻訳(概要): Not All Images are Worth 16x16 Words: Dynamic Vision Transformers with Adaptive Sequence Length

論文の概要: Not All Images are Worth 16x16 Words: Dynamic Vision Transformers with Adaptive Sequence Length

arxiv url: http://arxiv.org/abs/2105.15075v1
Date: Mon, 31 May 2021 16:04:10 GMT
ステータス: 翻訳完了
システム内更新日: 2021-06-01 17:51:40.981791
Title: Not All Images are Worth 16x16 Words: Dynamic Vision Transformers with Adaptive Sequence Length
Title（参考訳）: すべての画像に16×16語の価値はない:適応シーケンス長を持つダイナミックビジョントランスフォーマー
Authors: Yulin Wang, Rui Huang, Shiji Song, Zeyi Huang, Gao Huang
Abstract要約: 視覚変換器(ViT)は大規模画像認識において顕著な成功を収めた。精度と速度の適切なトレードオフを達成するため、トークンの数は16x16に実証的に設定される。入力画像ごとに適切な数のトークンを自動的に設定する動的変換器を提案する。
参考スコア（独自算出の注目度）: 40.35853878334764
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Vision Transformers (ViT) have achieved remarkable success in large-scale image recognition. They split every 2D image into a fixed number of patches, each of which is treated as a token. Generally, representing an image with more tokens would lead to higher prediction accuracy, while it also results in drastically increased computational cost. To achieve a decent trade-off between accuracy and speed, the number of tokens is empirically set to 16x16. In this paper, we argue that every image has its own characteristics, and ideally the token number should be conditioned on each individual input. In fact, we have observed that there exist a considerable number of "easy" images which can be accurately predicted with a mere number of 4x4 tokens, while only a small fraction of "hard" ones need a finer representation. Inspired by this phenomenon, we propose a Dynamic Transformer to automatically configure a proper number of tokens for each input image. This is achieved by cascading multiple Transformers with increasing numbers of tokens, which are sequentially activated in an adaptive fashion at test time, i.e., the inference is terminated once a sufficiently confident prediction is produced. We further design efficient feature reuse and relationship reuse mechanisms across different components of the Dynamic Transformer to reduce redundant computations. Extensive empirical results on ImageNet, CIFAR-10, and CIFAR-100 demonstrate that our method significantly outperforms the competitive baselines in terms of both theoretical computational efficiency and practical inference speed.
Abstract（参考訳）: 視覚変換器(ViT)は大規模画像認識において顕著な成功を収めた。各2D画像を一定数のパッチに分割し、それぞれがトークンとして扱われる。一般に、より多くのトークンで画像を表現すると予測精度が向上するが、計算コストが大幅に増加する。精度と速度の適切なトレードオフを達成するため、トークンの数は16x16に実証的に設定される。本稿では,各画像に独自の特徴があり,理想的には各入力にトークン番号を条件付けする必要がある,と論じる。実際、わずか4x4トークンで正確に予測できる「容易」な画像がかなりの数存在するのに対し、「ハード」な画像のごく一部ではより微細な表現が必要とされる。この現象に触発されて,入力画像毎に適切なトークン数を自動的に設定する動的トランスフォーマを提案する。これは、トークン数が増加する複数のトランスフォーマーをカスケードして、テスト時に順応的にアクティベートされる、すなわち十分に確実な予測が得られたら推論を終了させることによって達成される。さらに、冗長計算を減らすために、Dynamic Transformerの異なるコンポーネント間での効率的な機能再利用と関係再利用機構を設計する。 ImageNet, CIFAR-10, CIFAR-100の大規模な実験結果から, 提案手法は理論的計算効率と実用推論速度の両方において, 競争ベースラインを大幅に上回ることを示した。

関連論文リスト

CAT: Content-Adaptive Image Tokenization [92.2116487267877]
本稿では,CAT(Content-Adaptive Tokenizer)を導入し,画像の内容に基づいて表現能力を調整し,より単純な画像をより少ないトークンにエンコードする。本研究では,大容量言語モデル(LLM)を利用したキャプションベース評価システムの設計を行い,コンテントの複雑さを予測し,与えられた画像に対する最適な圧縮比を決定する。トークン割り当てを最適化することで、CATは同じフロップでトレーニングされた固定比率ベースラインよりもFIDスコアを改善し、推論スループットを18.5%向上させる。
論文参考訳（メタデータ） (2025-01-06T16:28:47Z)
Make A Long Image Short: Adaptive Token Length for Vision Transformers [5.723085628967456]
本稿では、長い画像の短縮によるViTモデルを高速化するための革新的なアプローチを提案する。具体的には、テスト時に各画像に対してトークン長を適応的に割り当て、推論速度を高速化する手法を提案する。
論文参考訳（メタデータ） (2023-07-05T08:10:17Z)
CageViT: Convolutional Activation Guided Efficient Vision Transformer [90.69578999760206]
本稿では,CageViTと呼ばれる効率的な視覚変換器を提案する。私たちのCageViTは、現在のTransformersとは違って、新しいエンコーダを使用して、再配置されたトークンを処理する。実験の結果,提案したCageViTは最新の最先端のバックボーンよりも効率の面で大きな差があることがわかった。
論文参考訳（メタデータ） (2023-05-17T03:19:18Z)
Multi-Tailed Vision Transformer for Efficient Inference [44.43126137573205]
Vision Transformer (ViT) は画像認識において有望な性能を達成した。本稿では,MT-ViT(Multi-Tailed Vision Transformer)を提案する。 MT-ViTは、以下のTransformerエンコーダのために異なる長さの視覚シーケンスを生成するために複数のテールを採用する。
論文参考訳（メタデータ） (2022-03-03T09:30:55Z)
XCiT: Cross-Covariance Image Transformers [73.33400159139708]
本稿では,トークンではなく機能チャネルをまたいで機能する自己注意の「伝達」バージョンを提案する。その結果、XCAはトークン数に線形複雑さを持ち、高解像度画像の効率的な処理を可能にする。
論文参考訳（メタデータ） (2021-06-17T17:33:35Z)
DynamicViT: Efficient Vision Transformers with Dynamic Token Sparsification [134.9393799043401]
入力に基づいて冗長なトークンを抽出する動的トークンスペーシフィケーションフレームワークを提案する。入力トークンの66%を階層的にプルーニングすることで,FLOPの31%37%を大幅に削減し,スループットを40%以上向上する。 DynamicViTモデルは、ImageNetの最先端CNNやビジョントランスフォーマーと比較して、非常に競争力のある複雑性/精度のトレードオフを実現することができる。
論文参考訳（メタデータ） (2021-06-03T17:57:41Z)
Transformer-Based Deep Image Matching for Generalizable Person Re-identification [114.56752624945142]
画像マッチングと距離学習にトランスフォーマーを適用する可能性について検討する。視覚変換器 (ViT) とデコーダ付きバニラ変換器 (Vanilla Transformer) はイメージ・ツー・イメージ・アテンションの欠如により画像マッチングに適していないことがわかった。そこで本研究では,クエリキーの類似性のみを保ちながら,ソフトマックス重み付けによる注意の完全な実装を省略する,単純化されたデコーダを提案する。
論文参考訳（メタデータ） (2021-05-30T05:38:33Z)
CrossViT: Cross-Attention Multi-Scale Vision Transformer for Image Classification [17.709880544501758]
異なるサイズの画像パッチを組み合わせて、より強力な画像特徴を生成するデュアルブランチトランスを提案します。我々のアプローチは、異なる計算複雑性の2つの別々の分岐を持つ小さなパッチトークンと大きなパッチトークンを処理します。私たちの提案するクロスアテンションは、計算とメモリの複雑さの両方に線形時間しか必要としない。
論文参考訳（メタデータ） (2021-03-27T13:03:17Z)
Visual Transformers: Token-based Image Representation and Processing for Computer Vision [67.55770209540306]
Visual Transformer (VT) はセマンティックトークン空間で動作し、コンテキストに基づいて異なる画像部品に任意に参加する。高度なトレーニングレシピを使うことで、私たちのVTは畳み込みよりも大幅に優れています。 LIPとCOCO-stuffのセマンティックセグメンテーションでは、VTベースの特徴ピラミッドネットワーク(FPN)は、FPNモジュールのFLOPを6.5倍減らしながら、mIoUの0.35ポイントを達成している。
論文参考訳（メタデータ） (2020-06-05T20:49:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。