論文の概要: ViT-Calibrator: Decision Stream Calibration for Vision Transformer
- arxiv url: http://arxiv.org/abs/2304.04354v2
- Date: Fri, 5 May 2023 13:41:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-08 16:54:49.360350
- Title: ViT-Calibrator: Decision Stream Calibration for Vision Transformer
- Title(参考訳): vit-calibrator: vision transformer の決定ストリーム校正
- Authors: Lin Chen, Zhijie Jia, Tian Qiu, Lechao Cheng, Jie Lei, Zunlei Feng,
Mingli Song
- Abstract要約: 本稿では、一般的な視覚変換器の性能を高めるための、決定ストリームと呼ばれる新しいパラダイムを提案する。
異なるトークンと複数の次元の関連係数の相関関係を探索し,学習過程における情報伝達機構について光を当てた。
- 参考スコア(独自算出の注目度): 49.60474757318486
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A surge of interest has emerged in utilizing Transformers in diverse vision
tasks owing to its formidable performance. However, existing approaches
primarily focus on optimizing internal model architecture designs that often
entail significant trial and error with high burdens. In this work, we propose
a new paradigm dubbed Decision Stream Calibration that boosts the performance
of general Vision Transformers. To achieve this, we shed light on the
information propagation mechanism in the learning procedure by exploring the
correlation between different tokens and the relevance coefficient of multiple
dimensions. Upon further analysis, it was discovered that 1) the final decision
is associated with tokens of foreground targets, while token features of
foreground target will be transmitted into the next layer as much as possible,
and the useless token features of background area will be eliminated gradually
in the forward propagation. 2) Each category is solely associated with specific
sparse dimensions in the tokens. Based on the discoveries mentioned above, we
designed a two-stage calibration scheme, namely ViT-Calibrator, including token
propagation calibration stage and dimension propagation calibration stage.
Extensive experiments on commonly used datasets show that the proposed approach
can achieve promising results. The source codes are given in the supplements.
- Abstract(参考訳): 様々な視覚タスクにおけるトランスフォーマーの利用に対する関心が高まっている。
しかし、既存のアプローチは、しばしば大きな試行錯誤を伴う内部モデルアーキテクチャ設計の最適化に重点を置いている。
本研究では,一般視覚トランスフォーマーの性能を高める決定ストリーム校正という新しいパラダイムを提案する。
そこで我々は,異なるトークンと複数の次元の関連係数の相関関係を探索することにより,学習過程における情報伝達機構の光を当てた。
さらなる分析により、そのことが判明した。
1) 最終決定は前景目標のトークンに関連付けられ、前景目標のトークン特徴は可能な限り次の層に伝達され、背景領域の役に立たないトークン特徴は前方伝播時に徐々に排除される。
2) 各カテゴリはトークン内の特定のスパース次元にのみ関連している。
上記の発見に基づいて,トークン伝搬校正段階と寸法伝搬校正段階を含む2段階キャリブレーション方式,すなわちViTキャリブレータを設計した。
一般的なデータセットに関する広範な実験は、提案手法が有望な結果が得られることを示している。
ソースコードはサプリメントに含まれている。
関連論文リスト
- LRP-QViT: Mixed-Precision Vision Transformer Quantization via Layer-wise
Relevance Propagation [0.0]
LRP-QViTは、異なる層に混合精度のビット割り当てを割り当てる説明可能性に基づく手法である。
実験結果から,固定ビット・混合ビット後量子化法が既存の4ビット・6ビット量子化法を超越していることが判明した。
論文 参考訳(メタデータ) (2024-01-20T14:53:19Z) - FactoFormer: Factorized Hyperspectral Transformers with Self-Supervised
Pretraining [36.44039681893334]
ハイパースペクトル画像(HSI)は、豊富なスペクトルと空間情報を含む。
現在の最先端ハイパースペクトル変換器は、入力されたHSIサンプルをスペクトル次元に沿ってトークン化するのみである。
本稿では、自己教師付き事前学習手順を取り入れた新しい分解スペクトル空間変換器を提案する。
論文 参考訳(メタデータ) (2023-09-18T02:05:52Z) - From Saliency to DINO: Saliency-guided Vision Transformer for Few-shot
Keypoint Detection [36.9781808268263]
FSKD(Few-shot Keypoint Detection)は、参照サンプルに応じて、新規またはベースキーポイントを含むキーポイントをローカライズする。
FSKDは、ユビキタスノイズと曖昧な局所パターンを克服するために、キーポイント類似性学習に意味論的に意味のある関係を必要とする。
数発のキーポイント検出のための新しいサリエンシ誘導型視覚変換器であるSalViTを提案する。
論文 参考訳(メタデータ) (2023-04-06T15:22:34Z) - ViTs for SITS: Vision Transformers for Satellite Image Time Series [52.012084080257544]
ビジョン変換器(ViT)に基づく一般衛星画像時系列(SITS)処理のための完全アテンショナルモデルを提案する。
TSViTはSITSレコードを空間と時間で重複しないパッチに分割し、トークン化し、分解されたテンポロ空間エンコーダで処理する。
論文 参考訳(メタデータ) (2023-01-12T11:33:07Z) - BTranspose: Bottleneck Transformers for Human Pose Estimation with
Self-Supervised Pre-Training [0.304585143845864]
本稿では,CNNとマルチヘッド自己注意層(MHSA)を効果的に組み合わせたBottleneck Transformersを提案する。
我々は,異なるバックボーンアーキテクチャを考察し,DINO自己教師型学習手法を用いて事前学習を行う。
実験により,本モデルが [1] などの他の手法と競合する 76.4 のAPを達成でき,ネットワークパラメータも少ないことがわかった。
論文 参考訳(メタデータ) (2022-04-21T15:45:05Z) - Visualizing and Understanding Patch Interactions in Vision Transformer [96.70401478061076]
Vision Transformer (ViT) は様々なコンピュータビジョンタスクにおいて主要なツールとなっている。
本稿では,視覚変換器のパッチ間の重要な注意相互作用を分析し,解釈するための,説明可能な新しい可視化手法を提案する。
論文 参考訳(メタデータ) (2022-03-11T13:48:11Z) - Augmented Shortcuts for Vision Transformers [49.70151144700589]
視覚変換器モデルにおけるショートカットと特徴の多様性の関係について検討する。
本稿では,元のショートカットに並列に学習可能なパラメータを追加経路を挿入する拡張ショートカット方式を提案する。
ベンチマークデータセットを用いて実験を行い,提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2021-06-30T09:48:30Z) - Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。
イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。
実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文 参考訳(メタデータ) (2021-04-25T08:24:06Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。