論文の概要: What Makes for Good Tokenizers in Vision Transformer?
- arxiv url: http://arxiv.org/abs/2212.11115v1
- Date: Wed, 21 Dec 2022 15:51:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-22 15:12:19.228415
- Title: What Makes for Good Tokenizers in Vision Transformer?
- Title(参考訳): 視覚変換器の優れたトケナイザには何をもたらすのか?
- Authors: Shengju Qian, Yi Zhu, Wenbo Li, Mu Li, Jiaya Jia
- Abstract要約: 変圧器は自己注意を用いて対関係を抽出することができる。
優れたトークンライザとなるものは、コンピュータビジョンではよく理解されていない。
Tokens (MoTo) を横断する変調は、正規化によるトークン間モデリング機能を備えている。
TokenPropの正規化対象は、標準トレーニング体制で採用されている。
- 参考スコア(独自算出の注目度): 62.44987486771936
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The architecture of transformers, which recently witness booming applications
in vision tasks, has pivoted against the widespread convolutional paradigm.
Relying on the tokenization process that splits inputs into multiple tokens,
transformers are capable of extracting their pairwise relationships using
self-attention. While being the stemming building block of transformers, what
makes for a good tokenizer has not been well understood in computer vision. In
this work, we investigate this uncharted problem from an information trade-off
perspective. In addition to unifying and understanding existing structural
modifications, our derivation leads to better design strategies for vision
tokenizers. The proposed Modulation across Tokens (MoTo) incorporates
inter-token modeling capability through normalization. Furthermore, a
regularization objective TokenProp is embraced in the standard training regime.
Through extensive experiments on various transformer architectures, we observe
both improved performance and intriguing properties of these two plug-and-play
designs with negligible computational overhead. These observations further
indicate the importance of the commonly-omitted designs of tokenizers in vision
transformer.
- Abstract(参考訳): 最近、視覚タスクの爆発的な応用を目撃したトランスフォーマーのアーキテクチャは、広く普及している畳み込みパラダイムに逆らっている。
入力を複数のトークンに分割するトークン化プロセスに基づいて、トランスフォーマーは自己注意を用いてペア関係を抽出することができる。
トランスのスムーズなビルディングブロックであるにもかかわらず、優れたトークン化剤となるものはコンピュータビジョンではよく理解されていない。
本研究では,情報トレードオフの観点から,この未知の問題について検討する。
既存の構造的変更の統一と理解に加えて、私たちの導出は視覚トークン化器の設計戦略の改善につながります。
The proposed Modulation across Tokens (MoTo) includes a inter-token modeling capabilities through normalization。
さらに、正規化目的tokenpropを標準訓練体制で採用する。
様々なトランスフォーマーアーキテクチャに関する広範な実験を通じて,これら2つのプラグ・アンド・プレイ設計の性能向上と興味をそそる性質の両方を観察した。
これらの観察は、視覚変換器における一般的に省略されたトークン化器の設計の重要性をさらに示している。
関連論文リスト
- Token Transformation Matters: Towards Faithful Post-hoc Explanation for Vision Transformer [16.97186100288621]
視覚変換器は、領域を変換トークンとして表現し、注意重みを通してそれらを統合することによって視覚情報を抽出する。
既存のポストホックな説明法は単にこれらの注意重みを考慮し、変換されたトークンから重要な情報を無視するだけである。
本稿では,トークン変換効果の測定を利用したポストホックな説明手法であるTokenTMを提案する。
論文 参考訳(メタデータ) (2024-03-21T16:52:27Z) - Mitigating Over-smoothing in Transformers via Regularized Nonlocal
Functionals [31.328766460487355]
変圧器の自己保持層は, 平滑化を促進する機能を最小限に抑え, トークンの均一性をもたらすことを示す。
本稿では, 自己注意からのスムーズな出力トークンと入力トークンとの差分を正規化して, トークンの忠実性を維持するための新たな正規化器を提案する。
我々は,トークン表現の過度な平滑化を低減するために,ベースライントランスフォーマーと最先端手法に対するNeuTRENOの利点を実証的に実証した。
論文 参考訳(メタデータ) (2023-12-01T17:52:47Z) - Vision Transformer with Quadrangle Attention [76.35955924137986]
窓面に基づく注意を一般的な四角形定式化に拡張する新しい四角形注意法(QA)を提案する。
提案手法では,既定のウィンドウを対象の四角形に変換するために,変換行列を予測し,エンドツーエンドで学習可能な四角形回帰モジュールを用いる。
QAをプレーンかつ階層的な視覚変換器に統合し、QFormerという名の新しいアーキテクチャを作成します。
論文 参考訳(メタデータ) (2023-03-27T11:13:50Z) - Holistically Explainable Vision Transformers [136.27303006772294]
本稿では,B-cos変換器を提案する。
具体的には、各モデルコンポーネント(多層パーセプトロン、注意層、トークン化モジュールなど)を動的線形に定式化する。
提案した設計をViT(Vision Transformers)に適用し,Bcos-ViTと呼ばれるモデルが高解釈可能であり,ベースラインのViTと競合することを示す。
論文 参考訳(メタデータ) (2023-01-20T16:45:34Z) - Visualizing and Understanding Patch Interactions in Vision Transformer [96.70401478061076]
Vision Transformer (ViT) は様々なコンピュータビジョンタスクにおいて主要なツールとなっている。
本稿では,視覚変換器のパッチ間の重要な注意相互作用を分析し,解釈するための,説明可能な新しい可視化手法を提案する。
論文 参考訳(メタデータ) (2022-03-11T13:48:11Z) - Blending Anti-Aliasing into Vision Transformer [57.88274087198552]
不連続なパッチ単位のトークン化プロセスは、ジャッジされたアーティファクトをアテンションマップに暗黙的に導入する。
エイリアス効果は、離散パターンを使用して高周波または連続的な情報を生成し、区別不能な歪みをもたらす。
本稿では,前述の問題を緩和するためのAliasing-Reduction Module(ARM)を提案する。
論文 参考訳(メタデータ) (2021-10-28T14:30:02Z) - Glance-and-Gaze Vision Transformer [13.77016463781053]
我々は Glance-and-Gaze Transformer (GG-Transformer) という新しい視覚変換器を提案する。
自然の場面で物体を認識するとき、人間のGlance and Gazeの行動によって動機付けられている。
提案手法は,従来の最先端変圧器よりも一貫した性能を実現することを実証的に実証する。
論文 参考訳(メタデータ) (2021-06-04T06:13:47Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。