論文の概要: MSViT: Dynamic Mixed-Scale Tokenization for Vision Transformers
- arxiv url: http://arxiv.org/abs/2307.02321v1
- Date: Wed, 5 Jul 2023 14:22:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-06 13:25:37.255464
- Title: MSViT: Dynamic Mixed-Scale Tokenization for Vision Transformers
- Title(参考訳): MSViT:ビジョントランスのための動的混合スケールトークン化
- Authors: Jakob Drachmann Havtorn and Amelie Royer and Tijmen Blankevoort and
Babak Ehteshami Bejnordi
- Abstract要約: 画像領域毎に最適なトークンスケールを選択する条件ゲーティング機構を導入する。
我々のゲーティングモジュールは、粗いパッチレベルでローカルに動作しているにもかかわらず意味のある意味を学習できることを示す。
我々はMSViTを分類と分割のタスクで検証し、精度・複雑さのトレードオフを改善する。
- 参考スコア(独自算出の注目度): 16.051936165271304
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The input tokens to Vision Transformers carry little semantic meaning as they
are defined as regular equal-sized patches of the input image, regardless of
its content. However, processing uniform background areas of an image should
not necessitate as much compute as dense, cluttered areas. To address this
issue, we propose a dynamic mixed-scale tokenization scheme for ViT, MSViT. Our
method introduces a conditional gating mechanism that selects the optimal token
scale for every image region, such that the number of tokens is dynamically
determined per input. The proposed gating module is lightweight, agnostic to
the choice of transformer backbone, and trained within a few epochs (e.g., 20
epochs on ImageNet) with little training overhead. In addition, to enhance the
conditional behavior of the gate during training, we introduce a novel
generalization of the batch-shaping loss. We show that our gating module is
able to learn meaningful semantics despite operating locally at the coarse
patch-level. We validate MSViT on the tasks of classification and segmentation
where it leads to improved accuracy-complexity trade-off.
- Abstract(参考訳): 視覚変換器への入力トークンは、その内容に関係なく、入力画像の通常の等サイズのパッチとして定義されるため、意味をほとんど持たない。
しかし、画像の均一な背景領域の処理は、密度の高い散らばった領域ほど計算を必要としない。
そこで本研究では,ViT,MSViTのための動的混合スケールトークン化方式を提案する。
本手法では,画像領域毎に最適なトークンスケールを選択する条件付きゲーティング機構を導入し,入力毎にトークン数を動的に決定する。
提案されたゲーティングモジュールは軽量で、トランスフォーマーバックボーンの選択に非依存であり、トレーニングオーバーヘッドの少ないいくつかのエポック(例えばImageNetでは20エポック)でトレーニングされている。
さらに, 学習中のゲートの条件的挙動を向上させるため, バッチシェーピング損失の新たな一般化を提案する。
当社のゲーティングモジュールは,局所的に粗いパッチレベルで動作するにも関わらず,意味のあるセマンティクスを学習できることを示します。
我々はMSViTを分類と分割のタスクで検証し、精度・複雑さのトレードオフを改善する。
関連論文リスト
- SAG-ViT: A Scale-Aware, High-Fidelity Patching Approach with Graph Attention for Vision Transformers [0.0]
マルチスケール機能を統合することでこの問題に対処する新しいフレームワークであるSAG-ViT(Scale-Aware Graph Attention Vision Transformer)を紹介した。
EfficientNetをバックボーンとして使用し、マルチスケールの特徴マップを抽出し、セマンティック情報を保存するためにパッチに分割する。
SAG-ViTは、ベンチマークデータセットに基づいて評価され、画像分類性能を向上させる効果を示す。
論文 参考訳(メタデータ) (2024-11-14T13:15:27Z) - Learning to Mask and Permute Visual Tokens for Vision Transformer
Pre-Training [59.923672191632065]
我々はMasked and Permuted Vision Transformer(MaPeT)という自己教師型事前学習手法を提案する。
MaPeTは、自動回帰および置換予測を使用して、パッチ内依存関係をキャプチャする。
以上の結果から,MaPeTはImageNet上での競合性能を実証した。
論文 参考訳(メタデータ) (2023-06-12T18:12:19Z) - Understanding Gaussian Attention Bias of Vision Transformers Using
Effective Receptive Fields [7.58745191859815]
イメージを分割したパッチのシーケンスとしてモデル化する視覚変換器(ViT)は、多様な視覚タスクにおいて顕著なパフォーマンスを示している。
本稿では,姿勢埋め込みをトレーニング開始時から対応するパターンを持つようにガイドするガウス的注意バイアスを明示的に追加することを提案する。
その結果,提案手法は画像の理解を容易にするだけでなく,様々なデータセット上での性能向上にも寄与することがわかった。
論文 参考訳(メタデータ) (2023-05-08T14:12:25Z) - Location-Aware Self-Supervised Transformers [74.76585889813207]
画像部品の相対的な位置を予測し,セマンティックセグメンテーションのためのネットワークを事前訓練する。
参照パッチのサブセットを問合せのサブセットにマスキングすることで,タスクの難しさを制御します。
実験により,この位置認識事前学習が,いくつかの難解なセマンティックセグメンテーションベンチマークに競合する表現をもたらすことが示された。
論文 参考訳(メタデータ) (2022-12-05T16:24:29Z) - Token-Label Alignment for Vision Transformers [93.58540411138164]
データ混合戦略(例えば、CutMix)は、畳み込みニューラルネットワーク(CNN)の性能を大幅に改善する能力を示している。
我々は,データ混合戦略の可能性を抑制するトークン変動現象を同定する。
本稿では,各トークンのラベルを保持するために,変換されたトークンと元のトークンとの対応をトレースするトークンラベルアライメント(TL-Align)手法を提案する。
論文 参考訳(メタデータ) (2022-10-12T17:54:32Z) - Accurate Image Restoration with Attention Retractable Transformer [50.05204240159985]
画像復元のためのアテンション・リトラクタブル・トランス (ART) を提案する。
ARTはネットワーク内の密集モジュールと疎開モジュールの両方を提示する。
画像超解像、デノナイジング、JPEG圧縮アーティファクト削減タスクについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-10-04T07:35:01Z) - DynaST: Dynamic Sparse Transformer for Exemplar-Guided Image Generation [56.514462874501675]
本稿では,動的スパースアテンションに基づくトランスフォーマーモデルを提案する。
このアプローチの核心は、ある位置がフォーカスすべき最適なトークン数の変化をカバーすることに特化した、新しいダイナミックアテンションユニットです。
3つの応用、ポーズ誘導型人物画像生成、エッジベース顔合成、歪みのない画像スタイル転送の実験により、DynaSTは局所的な詳細において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2022-07-13T11:12:03Z) - RAMS-Trans: Recurrent Attention Multi-scale Transformer forFine-grained
Image Recognition [26.090419694326823]
地域注意の局所化と増幅は重要な要素であり、畳み込みニューラルネットワーク(CNN)ベースのアプローチによって多くの研究がなされている。
本稿では,変圧器の自己注意を用いて識別領域の注意を学習する,繰り返し注意型マルチスケール変圧器(RAMS-Trans)を提案する。
論文 参考訳(メタデータ) (2021-07-17T06:22:20Z) - Less is More: Pay Less Attention in Vision Transformers [61.05787583247392]
注意の少ないvIsion Transformerは、畳み込み、完全接続層、自己アテンションが、画像パッチシーケンスを処理するためにほぼ同等な数学的表現を持つという事実に基づいている。
提案したLITは、画像分類、オブジェクト検出、インスタンス分割を含む画像認識タスクにおいて有望な性能を達成する。
論文 参考訳(メタデータ) (2021-05-29T05:26:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。