論文の概要: Denoising Vision Transformers
- arxiv url: http://arxiv.org/abs/2401.02957v2
- Date: Mon, 22 Jul 2024 09:07:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-24 03:12:35.384036
- Title: Denoising Vision Transformers
- Title(参考訳): 視覚変換器のノイズ化
- Authors: Jiawei Yang, Katie Z Luo, Jiefeng Li, Congyue Deng, Leonidas Guibas, Dilip Krishnan, Kilian Q Weinberger, Yonglong Tian, Yue Wang,
- Abstract要約: 本稿では、DVT(Denoising Vision Transformers)と呼ばれる2段階のDenoisingアプローチを提案する。
第1段階では、画像ごとのニューラルネットワークとの横断的な特徴整合を強制することにより、位置的アーティファクトによって汚染されたものからクリーンな特徴を分離する。
第2段階では、クリーンな特徴を生のViT出力から予測するために軽量なトランスフォーマーブロックを訓練し、クリーンな特徴の導出推定を監督として活用する。
- 参考スコア(独自算出の注目度): 43.03068202384091
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study a crucial yet often overlooked issue inherent to Vision Transformers (ViTs): feature maps of these models exhibit grid-like artifacts, which hurt the performance of ViTs in downstream dense prediction tasks such as semantic segmentation, depth prediction, and object discovery. We trace this issue down to the positional embeddings at the input stage. To mitigate this, we propose a two-stage denoising approach, termed Denoising Vision Transformers (DVT). In the first stage, we separate the clean features from those contaminated by positional artifacts by enforcing cross-view feature consistency with neural fields on a per-image basis. This per-image optimization process extracts artifact-free features from raw ViT outputs, providing clean feature estimates for offline applications. In the second stage, we train a lightweight transformer block to predict clean features from raw ViT outputs, leveraging the derived estimates of the clean features as supervision. Our method, DVT, does not require re-training the existing pre-trained ViTs, and is immediately applicable to any Vision Transformer architecture. We evaluate our method on a variety of representative ViTs (DINO, DeiT-III, EVA02, CLIP, DINOv2, DINOv2-reg) and demonstrate that DVT consistently improves existing state-of-the-art general-purpose models in semantic and geometric tasks across multiple datasets. We hope our study will encourage a re-evaluation of ViT design, especially regarding the naive use of positional embeddings. Our code and checkpoints are publicly available.
- Abstract(参考訳): これらのモデルの特徴マップはグリッドのようなアーチファクトを示し、セマンティックセグメンテーションや深度予測、オブジェクト発見といった下流の密集予測タスクにおけるViTの性能を損なう。
この問題は、入力段階での位置埋め込みにまで遡る。
そこで本研究では,DVT(Denoising Vision Transformers)と呼ばれる2段階のデノナイジング手法を提案する。
第1段階では、画像ごとのニューラルネットワークとの横断的な特徴整合を強制することにより、位置的アーティファクトによって汚染されたものからクリーンな特徴を分離する。
この画像ごとの最適化プロセスは、生のViT出力からアーティファクトフリーの機能を抽出し、オフラインアプリケーションのクリーンな機能推定を提供する。
第2段階では、クリーンな特徴を生のViT出力から予測するために軽量なトランスフォーマーブロックを訓練し、クリーンな特徴の導出推定を監督として活用する。
我々の手法であるDVTは、既存のトレーニング済みのViTを再学習する必要はなく、任意のVision Transformerアーキテクチャに適用できる。
提案手法は,様々な代表的 ViT (DINO, DeiT-III, EVA02, CLIP, DINOv2, DINOv2-reg) に対して評価し,DVTが複数のデータセットにまたがる意味的および幾何学的タスクにおける既存の汎用モデルを改善することを示す。
我々の研究は、特に位置埋め込みの素直な使用に関して、ViT設計の再評価を促進することを願っている。
私たちのコードとチェックポイントは公開されています。
関連論文リスト
- Cascaded Dual Vision Transformer for Accurate Facial Landmark Detection [9.912884384424542]
本稿では,D-ViT (Dual Vision Transformer) とLong Skip Connections (LSC) の2つのユニークな設計からなる,視覚変換器に基づく新しい顔ランドマーク検出器を提案する。
本稿では,これらの線形基底間の相互接続を学習し,チャネル分割型VTを用いてランドマーク間の固有幾何学的関係をモデル化する。
また,全ての予測ブロックに低レベルの画像特徴を提供するために,長いスキップ接続を用いることで,中間管理によって有用な情報が破棄されるのを防ぐことも提案する。
論文 参考訳(メタデータ) (2024-11-08T07:26:39Z) - Do Vision-Language Transformers Exhibit Visual Commonsense? An Empirical Study of VCR [51.72751335574947]
Visual Commonsense Reasoning (VCR)は、視覚的なシーンに対する質問応答の背後にある説明的推論を要求する。
ベンチマークデータセットの進歩は、Vision-Language Transformers(VL Transformers)の最近の進歩に大きく起因している。
本稿では、VLトランスフォーマーは、VCRの鍵となる視覚的コモンセンスを示さないことを仮定する。
論文 参考訳(メタデータ) (2024-05-27T08:26:58Z) - Exploring Self-Supervised Vision Transformers for Deepfake Detection: A Comparative Analysis [38.074487843137064]
本稿では,教師付き事前学習型視覚変換器(ViTs)と従来のニューラルネットワーク(ConvNets)とを比較し,顔深度画像やビデオの検出に有効であることを示す。
これは、特に限られたトレーニングデータを用いて、一般化と説明可能性を改善する可能性について検討する。
SSL ViTsを利用して、平易なデータによるディープフェイク検出と部分的な微調整を行い、注意機構を介してディープフェイク検出と説明可能性に匹敵する適応性を見出す。
論文 参考訳(メタデータ) (2024-05-01T07:16:49Z) - VST++: Efficient and Stronger Visual Saliency Transformer [74.26078624363274]
我々は,グローバルな長距離依存関係を探索する,効率的で強力なVST++モデルを開発した。
我々は、RGB、RGB-D、RGB-T SODベンチマークデータセット上で、トランスフォーマーベースのバックボーンにまたがってモデルを評価した。
論文 参考訳(メタデータ) (2023-10-18T05:44:49Z) - ViT-Calibrator: Decision Stream Calibration for Vision Transformer [49.60474757318486]
本稿では、一般的な視覚変換器の性能を高めるための、決定ストリームと呼ばれる新しいパラダイムを提案する。
異なるトークンと複数の次元の関連係数の相関関係を探索し,学習過程における情報伝達機構について光を当てた。
論文 参考訳(メタデータ) (2023-04-10T02:40:24Z) - Anti-Oversmoothing in Deep Vision Transformers via the Fourier Domain
Analysis: From Theory to Practice [111.47461527901318]
Vision Transformer (ViT) は先日,コンピュータビジョン問題における有望性を実証した。
ViTは観察された注意崩壊やパッチの均一性のために、深さが増加するにつれて急速に飽和する。
所望の低域制限を緩和する2つの手法を提案する。
論文 参考訳(メタデータ) (2022-03-09T23:55:24Z) - A Unified Pruning Framework for Vision Transformers [40.7622551128182]
ビジョントランス(ViT)とその変種は様々なコンピュータビジョンタスクにおいて有望な性能を達成した。
本稿では, UP-ViT と UP-ViT の両方の構造解析のための統一的な枠組みを提案する。
本手法は,モデル構造の整合性を維持しつつ,すべてのViTsコンポーネントのプルーニングに重点を置いている。
論文 参考訳(メタデータ) (2021-11-30T05:01:02Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。