論文の概要: TVT: Transferable Vision Transformer for Unsupervised Domain Adaptation
- arxiv url: http://arxiv.org/abs/2108.05988v1
- Date: Thu, 12 Aug 2021 22:37:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-16 13:09:35.792536
- Title: TVT: Transferable Vision Transformer for Unsupervised Domain Adaptation
- Title(参考訳): TVT:unsupervised domain Adaptationのための転送可能なビジョン変換器
- Authors: Jinyu Yang, Jingjing Liu, Ning Xu, Junzhou Huang
- Abstract要約: Unsupervised domain adapt (UDA) は、ラベル付きソースドメインから学習した知識をラベル付きターゲットドメインに転送することを目的としている。
これまでの研究は主に、ドメイン不変表現を学ぶために畳み込みニューラルネットワーク(CNN)上に構築されていた。
近年、視覚タスクに視覚変換器(ViT)を適用する指数関数的増加に伴い、ドメイン間の知識を適応するViTの能力は文献上未解明のままである。
- 参考スコア(独自算出の注目度): 54.61786380919243
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unsupervised domain adaptation (UDA) aims to transfer the knowledge learnt
from a labeled source domain to an unlabeled target domain. Previous work is
mainly built upon convolutional neural networks (CNNs) to learn
domain-invariant representations. With the recent exponential increase in
applying Vision Transformer (ViT) to vision tasks, the capability of ViT in
adapting cross-domain knowledge, however, remains unexplored in the literature.
To fill this gap, this paper first comprehensively investigates the
transferability of ViT on a variety of domain adaptation tasks. Surprisingly,
ViT demonstrates superior transferability over its CNNs-based counterparts with
a large margin, while the performance can be further improved by incorporating
adversarial adaptation. Notwithstanding, directly using CNNs-based adaptation
strategies fails to take the advantage of ViT's intrinsic merits (e.g.,
attention mechanism and sequential image representation) which play an
important role in knowledge transfer. To remedy this, we propose an unified
framework, namely Transferable Vision Transformer (TVT), to fully exploit the
transferability of ViT for domain adaptation. Specifically, we delicately
devise a novel and effective unit, which we term Transferability Adaption
Module (TAM). By injecting learned transferabilities into attention blocks, TAM
compels ViT focus on both transferable and discriminative features. Besides, we
leverage discriminative clustering to enhance feature diversity and separation
which are undermined during adversarial domain alignment. To verify its
versatility, we perform extensive studies of TVT on four benchmarks and the
experimental results demonstrate that TVT attains significant improvements
compared to existing state-of-the-art UDA methods.
- Abstract(参考訳): Unsupervised domain adapt (UDA) は、ラベル付きソースドメインから学習した知識をラベル付きターゲットドメインに転送することを目的としている。
従来の研究は主に畳み込みニューラルネットワーク(cnns)に基づいて、ドメイン不変表現を学習している。
近年、視覚タスクに視覚変換器(ViT)を適用する指数関数的増加に伴い、ドメイン間の知識を適応するViTの能力は、文献では未解明のままである。
このギャップを埋めるために,本論文はまず,様々な領域適応タスクにおけるViTの転送可能性について包括的に検討する。
意外なことに、ViTはCNNベースのシステムよりも大きなマージンで優れた転送性を示し、対向適応を組み込むことでパフォーマンスをさらに向上させることができる。
しかしながら、cnnsベースの適応戦略を直接使用する場合には、知識伝達において重要な役割を果たすvit固有のメリット(注意機構や逐次画像表現など)を活用できない。
そこで本稿では,ドメイン適応のためのVTの転送可能性を完全に活用するために,Transferable Vision Transformer (TVT) という統合フレームワークを提案する。
具体的には,トランスファービリティ適応モジュール(TAM)と呼ばれる,新規で効果的なユニットを微妙に考案する。
学習した伝達能力を注目ブロックに注入することで、TAMはViTを伝達性および識別性の両方に焦点を当てる。
さらに、差別的クラスタリングを活用して、対立ドメインアライメント時に損なわれる特徴の多様性と分離を高める。
その汎用性を検証するために,4つのベンチマークでTVTを広範囲に研究し,その実験結果から,既存の最先端UDA手法と比較して,TVTが大幅に改善されていることが示された。
関連論文リスト
- Feature Fusion Transferability Aware Transformer for Unsupervised Domain Adaptation [1.9035011984138845]
Unsupervised domain adapt (UDA) は、ラベル付きソースドメインから学んだ知識を活用し、ラベルなしターゲットドメインのパフォーマンスを改善することを目的としている。
近年の研究では、視覚変換器(ViT)の応用が期待されている。
本稿では,UDAタスクにおけるVT性能を向上させるために,FFTAT(Feature Fusion Transferability Aware Transformer)を提案する。
論文 参考訳(メタデータ) (2024-11-10T22:23:12Z) - Transferable-guided Attention Is All You Need for Video Domain Adaptation [42.642008092347986]
ビデオにおける教師なし適応(UDA)は、画像ベースのUDA技術に比べ、まだ十分に検討されていない課題である。
我々のキーとなる考え方は、トランスフォーマー層を特徴エンコーダとして使用し、空間的および時間的伝達可能性の関係をアテンション機構に組み込むことである。
Transferable-Guided Attention (TransferAttn)フレームワークが開発され、トランスフォーマーの能力を利用してドメイン間の知識を適応する。
論文 参考訳(メタデータ) (2024-07-01T15:29:27Z) - Vision Transformer-based Adversarial Domain Adaptation [5.611768906855499]
視覚変換器(ViT)は出現以来注目され、様々なコンピュータビジョンタスクで広く利用されている。
本稿では,このギャップを,対向領域適応における特徴抽出器としてViTを用いて埋める。
敵領域適応において, ViT がプラグイン・アンド・プレイコンポーネントとなることを実証的に実証した。
論文 参考訳(メタデータ) (2024-04-24T11:41:28Z) - Improving Source-Free Target Adaptation with Vision Transformers
Leveraging Domain Representation Images [8.626222763097335]
Unsupervised Domain Adaptation (UDA)メソッドは、ラベル付きソースドメインからラベル付きターゲットドメインへの知識転送を容易にする。
本稿では、キー、クエリ、値要素がViT結果にどのように影響するかを評価することから、ソースフリーなターゲット適応におけるViT性能を高める革新的な方法を提案する。
ドメイン表現画像(DRI)は、ドメイン固有のマーカーとして機能し、トレーニングレギュレータとシームレスにマージする。
論文 参考訳(メタデータ) (2023-11-21T13:26:13Z) - Deeper Insights into ViTs Robustness towards Common Corruptions [82.79764218627558]
我々は、CNNのようなアーキテクチャ設計とCNNベースのデータ拡張戦略が、一般的な汚職に対するViTsの堅牢性にどのように影響するかを検討する。
重なり合うパッチ埋め込みと畳み込みフィードフォワードネットワーク(FFN)がロバスト性の向上を実証する。
また、2つの角度から入力値の増大を可能にする新しい条件付き手法も導入する。
論文 参考訳(メタデータ) (2022-04-26T08:22:34Z) - Safe Self-Refinement for Transformer-based Domain Adaptation [73.8480218879]
Unsupervised Domain Adaptation (UDA)は、ラベル豊富なソースドメインを活用して、関連するラベルのないターゲットドメイン上のタスクを解決することを目的としている。
特にソースとターゲットドメインの間に大きなドメインギャップがある場合、これは難しい問題です。
SSRT (Safe Self-Refinement for Transformer-based domain adaptation) という新しい手法を提案する。
論文 参考訳(メタデータ) (2022-04-16T00:15:46Z) - ConvNets vs. Transformers: Whose Visual Representations are More
Transferable? [49.62201738334348]
本研究では,15個のシングルタスクおよびマルチタスク性能評価において,ConvNetと視覚変換器の伝達学習能力について検討する。
13の下流タスクでTransformerベースのバックボーンの一貫性のあるアドバンテージを観察した。
論文 参考訳(メタデータ) (2021-08-11T16:20:38Z) - On Improving Adversarial Transferability of Vision Transformers [97.17154635766578]
視覚変換器(ViT)は、入力画像を、自己注意によるパッチのシーケンスとして処理する。
本稿では,ViTモデルの対角的特徴空間とその伝達性について検討する。
本稿では,ViTモデルのアーキテクチャに特有な2つの新しい戦略を紹介する。
論文 参考訳(メタデータ) (2021-06-08T08:20:38Z) - Transformer-Based Source-Free Domain Adaptation [134.67078085569017]
本研究では,ソースフリードメイン適応(SFDA)の課題について検討する。
我々は、FDAの一般化モデルを学ぶためのTransformer(TransDA)という、汎用的で効果的なフレームワークを提案する。
論文 参考訳(メタデータ) (2021-05-28T23:06:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。