論文の概要: Denoising Vision Transformers
- arxiv url: http://arxiv.org/abs/2401.02957v1
- Date: Fri, 5 Jan 2024 18:59:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-08 14:29:57.914372
- Title: Denoising Vision Transformers
- Title(参考訳): 視覚変換器のノイズ化
- Authors: Jiawei Yang and Katie Z Luo and Jiefeng Li and Kilian Q Weinberger and
Yonglong Tian and Yue Wang
- Abstract要約: ビジョントランスフォーマー(ViT)はグリッドのような成果物を示し、下流タスクにおけるViTのパフォーマンスを著しく損なう。
本稿では,全VTに適用可能な新しいノイズモデルを提案する。
未処理のViT出力から直接アーチファクトフリーの機能を予測するための学習可能なデノイザを導入する。
- 参考スコア(独自算出の注目度): 43.319396123318676
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We delve into a nuanced but significant challenge inherent to Vision
Transformers (ViTs): feature maps of these models exhibit grid-like artifacts,
which detrimentally hurt the performance of ViTs in downstream tasks. Our
investigations trace this fundamental issue down to the positional embeddings
at the input stage. To address this, we propose a novel noise model, which is
universally applicable to all ViTs. Specifically, the noise model dissects ViT
outputs into three components: a semantics term free from noise artifacts and
two artifact-related terms that are conditioned on pixel locations. Such a
decomposition is achieved by enforcing cross-view feature consistency with
neural fields in a per-image basis. This per-image optimization process
extracts artifact-free features from raw ViT outputs, providing clean features
for offline applications. Expanding the scope of our solution to support online
functionality, we introduce a learnable denoiser to predict artifact-free
features directly from unprocessed ViT outputs, which shows remarkable
generalization capabilities to novel data without the need for per-image
optimization. Our two-stage approach, termed Denoising Vision Transformers
(DVT), does not require re-training existing pre-trained ViTs and is
immediately applicable to any Transformer-based architecture. We evaluate our
method on a variety of representative ViTs (DINO, MAE, DeiT-III, EVA02, CLIP,
DINOv2, DINOv2-reg). Extensive evaluations demonstrate that our DVT
consistently and significantly improves existing state-of-the-art
general-purpose models in semantic and geometric tasks across multiple datasets
(e.g., +3.84 mIoU). We hope our study will encourage a re-evaluation of ViT
design, especially regarding the naive use of positional embeddings.
- Abstract(参考訳): これらのモデルのフィーチャーマップにはグリッドのようなアーティファクトがあり、下流タスクにおけるViTのパフォーマンスが著しく損なわれます。
我々の調査は、この根本的な問題を入力段階の位置埋め込みまで追跡する。
そこで本研究では,すべてのViTに適用可能な新しいノイズモデルを提案する。
具体的には、ノイズモデルはvit出力を3つのコンポーネントに分類する: ノイズアーティファクトのないセマンティクス用語と、ピクセル位置を条件とする2つのアーティファクト関連用語である。
このような分解は、画像ごとにニューラルネットワークとのクロスビュー特徴整合を強制することで達成される。
このイメージごとの最適化プロセスは、生のViT出力からアーティファクトフリーの機能を抽出し、オフラインアプリケーションにクリーンな機能を提供する。
オンライン機能をサポートするためのソリューションの範囲を広げ、未処理のViT出力から直接アーチファクトフリーの機能を予測する学習可能なデノイザを導入します。
Denoising Vision Transformers (DVT)と呼ばれる2段階のアプローチでは、既存のトレーニング済みのViTを再トレーニングする必要はなく、Transformerベースのアーキテクチャにも即座に適用できます。
本手法は,様々な代表的ビタミンVT(DINO, MAE, DeiT-III, EVA02, CLIP, DINOv2, DINOv2-reg)について検討した。
大規模な評価では、DVTは複数のデータセット(例えば+3.84 mIoU)にわたる意味的および幾何学的タスクにおける既存の最先端の汎用モデルを大幅に改善している。
本研究は,vit設計の再評価,特に位置埋め込みのナイーブな利用を促進することを期待する。
関連論文リスト
- ViT-Lens-2: Gateway to Omni-modal Intelligence [67.09687451702597]
ViT-Lens-2は、モダリティ増加の表現学習のためのフレームワークである。
ViT-Lens-2は3Dポイントクラウド,奥行き,オーディオ,触覚,脳波の表現を学習できることを示す。
ViT-Lens-2をシームレスにMultimodal Foundation Modelsに統合することにより、テキストと画像生成へのAny-modalityを可能にする。
論文 参考訳(メタデータ) (2023-11-27T18:52:09Z) - VST++: Efficient and Stronger Visual Saliency Transformer [81.12457411265932]
我々は,グローバルな長距離依存関係を探索する,効率的で強力なVST++モデルを開発した。
我々は、RGB、RGB-D、RGB-T SODベンチマークデータセット上で、トランスフォーマーベースのバックボーンにまたがってモデルを評価した。
論文 参考訳(メタデータ) (2023-10-18T05:44:49Z) - LGViT: Dynamic Early Exiting for Accelerating Vision Transformer [21.52225935329002]
本稿では,汎用視覚変換器(ViT)の早期終了フレームワークを提案し,効率・精度のトレードオフを実現する。
特に,早期退避型ViTを生成するために,背骨を凍結したエンドツーエンドのトレーニングと自己蒸留を含む,新しい2段階のトレーニング手法を開発した。
その結果,LGViTは1.8ドル程度のスピードアップで競争性能を達成できることがわかった。
論文 参考訳(メタデータ) (2023-08-01T03:35:32Z) - ViT-FOD: A Vision Transformer based Fine-grained Object Discriminator [21.351034332423374]
細粒度画像分類(FGVC)タスクのための新しいViTに基づく細粒度物体識別器を提案する。
ViTバックボーンの他に、APC(Attention Patch Combination)、CRF(Critical Regions Filter)、CTI(Complementary Tokens Integration)という3つの新しいコンポーネントが導入されている。
我々は広く使われているデータセットに関する包括的な実験を行い、その結果、ViT-FODが最先端のパフォーマンスを達成できることを実証した。
論文 参考訳(メタデータ) (2022-03-24T02:34:57Z) - Anti-Oversmoothing in Deep Vision Transformers via the Fourier Domain
Analysis: From Theory to Practice [111.47461527901318]
Vision Transformer (ViT) は先日,コンピュータビジョン問題における有望性を実証した。
ViTは観察された注意崩壊やパッチの均一性のために、深さが増加するにつれて急速に飽和する。
所望の低域制限を緩和する2つの手法を提案する。
論文 参考訳(メタデータ) (2022-03-09T23:55:24Z) - A Unified Pruning Framework for Vision Transformers [40.7622551128182]
ビジョントランス(ViT)とその変種は様々なコンピュータビジョンタスクにおいて有望な性能を達成した。
本稿では, UP-ViT と UP-ViT の両方の構造解析のための統一的な枠組みを提案する。
本手法は,モデル構造の整合性を維持しつつ,すべてのViTsコンポーネントのプルーニングに重点を置いている。
論文 参考訳(メタデータ) (2021-11-30T05:01:02Z) - Intriguing Properties of Vision Transformers [114.28522466830374]
視覚変換器(ViT)は、様々なマシンビジョン問題にまたがって印象的な性能を誇示している。
我々は、この問題を広範囲の実験を通して体系的に研究し、高性能畳み込みニューラルネットワーク(CNN)との比較を行った。
ViTsの効果的な特徴は、自己認識機構によって可能なフレキシブルな受容と動的場によるものであることを示す。
論文 参考訳(メタデータ) (2021-05-21T17:59:18Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。