論文の概要: ViT-Calibrator: Decision Stream Calibration for Vision Transformer
- arxiv url: http://arxiv.org/abs/2304.04354v2
- Date: Fri, 5 May 2023 13:41:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-08 16:54:49.360350
- Title: ViT-Calibrator: Decision Stream Calibration for Vision Transformer
- Title(参考訳): vit-calibrator: vision transformer の決定ストリーム校正
- Authors: Lin Chen, Zhijie Jia, Tian Qiu, Lechao Cheng, Jie Lei, Zunlei Feng,
Mingli Song
- Abstract要約: 本稿では、一般的な視覚変換器の性能を高めるための、決定ストリームと呼ばれる新しいパラダイムを提案する。
異なるトークンと複数の次元の関連係数の相関関係を探索し,学習過程における情報伝達機構について光を当てた。
- 参考スコア(独自算出の注目度): 49.60474757318486
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A surge of interest has emerged in utilizing Transformers in diverse vision
tasks owing to its formidable performance. However, existing approaches
primarily focus on optimizing internal model architecture designs that often
entail significant trial and error with high burdens. In this work, we propose
a new paradigm dubbed Decision Stream Calibration that boosts the performance
of general Vision Transformers. To achieve this, we shed light on the
information propagation mechanism in the learning procedure by exploring the
correlation between different tokens and the relevance coefficient of multiple
dimensions. Upon further analysis, it was discovered that 1) the final decision
is associated with tokens of foreground targets, while token features of
foreground target will be transmitted into the next layer as much as possible,
and the useless token features of background area will be eliminated gradually
in the forward propagation. 2) Each category is solely associated with specific
sparse dimensions in the tokens. Based on the discoveries mentioned above, we
designed a two-stage calibration scheme, namely ViT-Calibrator, including token
propagation calibration stage and dimension propagation calibration stage.
Extensive experiments on commonly used datasets show that the proposed approach
can achieve promising results. The source codes are given in the supplements.
- Abstract(参考訳): 様々な視覚タスクにおけるトランスフォーマーの利用に対する関心が高まっている。
しかし、既存のアプローチは、しばしば大きな試行錯誤を伴う内部モデルアーキテクチャ設計の最適化に重点を置いている。
本研究では,一般視覚トランスフォーマーの性能を高める決定ストリーム校正という新しいパラダイムを提案する。
そこで我々は,異なるトークンと複数の次元の関連係数の相関関係を探索することにより,学習過程における情報伝達機構の光を当てた。
さらなる分析により、そのことが判明した。
1) 最終決定は前景目標のトークンに関連付けられ、前景目標のトークン特徴は可能な限り次の層に伝達され、背景領域の役に立たないトークン特徴は前方伝播時に徐々に排除される。
2) 各カテゴリはトークン内の特定のスパース次元にのみ関連している。
上記の発見に基づいて,トークン伝搬校正段階と寸法伝搬校正段階を含む2段階キャリブレーション方式,すなわちViTキャリブレータを設計した。
一般的なデータセットに関する広範な実験は、提案手法が有望な結果が得られることを示している。
ソースコードはサプリメントに含まれている。
関連論文リスト
- CLAMP-ViT: Contrastive Data-Free Learning for Adaptive Post-Training Quantization of ViTs [6.456189487006878]
視覚変換器(ViT)のためのデータフリー後学習量子化法であるCLAMP-ViTを提案する。
我々は、近年の手法の限界、特に意味のあるパッチ間の関係を活用できないことを特定する。
CLAMP-ViTは2段階のアプローチを採用し、データ生成とモデル量子化の間に循環的に適応する。
論文 参考訳(メタデータ) (2024-07-07T05:39:25Z) - Visual Prompt Tuning in Null Space for Continual Learning [51.96411454304625]
既存のプロンプトチューニング手法は、継続学習(CL)における印象的な性能を示す。
本稿では,従来のタスクの特徴に代表される部分空間に直交する方向のプロンプトを調整し,各タスクを学習することを目的とする。
実際には、即時勾配予測を実装するために、実効的なヌル空間に基づく近似解が提案されている。
論文 参考訳(メタデータ) (2024-06-09T05:57:40Z) - LRP-QViT: Mixed-Precision Vision Transformer Quantization via Layer-wise
Relevance Propagation [0.0]
LRP-QViTは、異なる層に混合精度のビット割り当てを割り当てる説明可能性に基づく手法である。
実験結果から,固定ビット・混合ビット後量子化法が既存の4ビット・6ビット量子化法を超越していることが判明した。
論文 参考訳(メタデータ) (2024-01-20T14:53:19Z) - Denoising Vision Transformers [43.03068202384091]
本稿では、DVT(Denoising Vision Transformers)と呼ばれる2段階のDenoisingアプローチを提案する。
第1段階では、画像ごとのニューラルネットワークとの横断的な特徴整合を強制することにより、位置的アーティファクトによって汚染されたものからクリーンな特徴を分離する。
第2段階では、クリーンな特徴を生のViT出力から予測するために軽量なトランスフォーマーブロックを訓練し、クリーンな特徴の導出推定を監督として活用する。
論文 参考訳(メタデータ) (2024-01-05T18:59:52Z) - BTranspose: Bottleneck Transformers for Human Pose Estimation with
Self-Supervised Pre-Training [0.304585143845864]
本稿では,CNNとマルチヘッド自己注意層(MHSA)を効果的に組み合わせたBottleneck Transformersを提案する。
我々は,異なるバックボーンアーキテクチャを考察し,DINO自己教師型学習手法を用いて事前学習を行う。
実験により,本モデルが [1] などの他の手法と競合する 76.4 のAPを達成でき,ネットワークパラメータも少ないことがわかった。
論文 参考訳(メタデータ) (2022-04-21T15:45:05Z) - Visualizing and Understanding Patch Interactions in Vision Transformer [96.70401478061076]
Vision Transformer (ViT) は様々なコンピュータビジョンタスクにおいて主要なツールとなっている。
本稿では,視覚変換器のパッチ間の重要な注意相互作用を分析し,解釈するための,説明可能な新しい可視化手法を提案する。
論文 参考訳(メタデータ) (2022-03-11T13:48:11Z) - Augmented Shortcuts for Vision Transformers [49.70151144700589]
視覚変換器モデルにおけるショートカットと特徴の多様性の関係について検討する。
本稿では,元のショートカットに並列に学習可能なパラメータを追加経路を挿入する拡張ショートカット方式を提案する。
ベンチマークデータセットを用いて実験を行い,提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2021-06-30T09:48:30Z) - Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。
イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。
実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文 参考訳(メタデータ) (2021-04-25T08:24:06Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。