論文の概要: TVT: Transferable Vision Transformer for Unsupervised Domain Adaptation
- arxiv url: http://arxiv.org/abs/2108.05988v1
- Date: Thu, 12 Aug 2021 22:37:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-16 13:09:35.792536
- Title: TVT: Transferable Vision Transformer for Unsupervised Domain Adaptation
- Title(参考訳): TVT:unsupervised domain Adaptationのための転送可能なビジョン変換器
- Authors: Jinyu Yang, Jingjing Liu, Ning Xu, Junzhou Huang
- Abstract要約: Unsupervised domain adapt (UDA) は、ラベル付きソースドメインから学習した知識をラベル付きターゲットドメインに転送することを目的としている。
これまでの研究は主に、ドメイン不変表現を学ぶために畳み込みニューラルネットワーク(CNN)上に構築されていた。
近年、視覚タスクに視覚変換器(ViT)を適用する指数関数的増加に伴い、ドメイン間の知識を適応するViTの能力は文献上未解明のままである。
- 参考スコア(独自算出の注目度): 54.61786380919243
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unsupervised domain adaptation (UDA) aims to transfer the knowledge learnt
from a labeled source domain to an unlabeled target domain. Previous work is
mainly built upon convolutional neural networks (CNNs) to learn
domain-invariant representations. With the recent exponential increase in
applying Vision Transformer (ViT) to vision tasks, the capability of ViT in
adapting cross-domain knowledge, however, remains unexplored in the literature.
To fill this gap, this paper first comprehensively investigates the
transferability of ViT on a variety of domain adaptation tasks. Surprisingly,
ViT demonstrates superior transferability over its CNNs-based counterparts with
a large margin, while the performance can be further improved by incorporating
adversarial adaptation. Notwithstanding, directly using CNNs-based adaptation
strategies fails to take the advantage of ViT's intrinsic merits (e.g.,
attention mechanism and sequential image representation) which play an
important role in knowledge transfer. To remedy this, we propose an unified
framework, namely Transferable Vision Transformer (TVT), to fully exploit the
transferability of ViT for domain adaptation. Specifically, we delicately
devise a novel and effective unit, which we term Transferability Adaption
Module (TAM). By injecting learned transferabilities into attention blocks, TAM
compels ViT focus on both transferable and discriminative features. Besides, we
leverage discriminative clustering to enhance feature diversity and separation
which are undermined during adversarial domain alignment. To verify its
versatility, we perform extensive studies of TVT on four benchmarks and the
experimental results demonstrate that TVT attains significant improvements
compared to existing state-of-the-art UDA methods.
- Abstract(参考訳): Unsupervised domain adapt (UDA) は、ラベル付きソースドメインから学習した知識をラベル付きターゲットドメインに転送することを目的としている。
従来の研究は主に畳み込みニューラルネットワーク(cnns)に基づいて、ドメイン不変表現を学習している。
近年、視覚タスクに視覚変換器(ViT)を適用する指数関数的増加に伴い、ドメイン間の知識を適応するViTの能力は、文献では未解明のままである。
このギャップを埋めるために,本論文はまず,様々な領域適応タスクにおけるViTの転送可能性について包括的に検討する。
意外なことに、ViTはCNNベースのシステムよりも大きなマージンで優れた転送性を示し、対向適応を組み込むことでパフォーマンスをさらに向上させることができる。
しかしながら、cnnsベースの適応戦略を直接使用する場合には、知識伝達において重要な役割を果たすvit固有のメリット(注意機構や逐次画像表現など)を活用できない。
そこで本稿では,ドメイン適応のためのVTの転送可能性を完全に活用するために,Transferable Vision Transformer (TVT) という統合フレームワークを提案する。
具体的には,トランスファービリティ適応モジュール(TAM)と呼ばれる,新規で効果的なユニットを微妙に考案する。
学習した伝達能力を注目ブロックに注入することで、TAMはViTを伝達性および識別性の両方に焦点を当てる。
さらに、差別的クラスタリングを活用して、対立ドメインアライメント時に損なわれる特徴の多様性と分離を高める。
その汎用性を検証するために,4つのベンチマークでTVTを広範囲に研究し,その実験結果から,既存の最先端UDA手法と比較して,TVTが大幅に改善されていることが示された。
関連論文リスト
- Improving Source-Free Target Adaptation with Vision Transformers
Leveraging Domain Representation Images [8.626222763097335]
Unsupervised Domain Adaptation (UDA)メソッドは、ラベル付きソースドメインからラベル付きターゲットドメインへの知識転送を容易にする。
本稿では、キー、クエリ、値要素がViT結果にどのように影響するかを評価することから、ソースフリーなターゲット適応におけるViT性能を高める革新的な方法を提案する。
ドメイン表現画像(DRI)は、ドメイン固有のマーカーとして機能し、トレーニングレギュレータとシームレスにマージする。
論文 参考訳(メタデータ) (2023-11-21T13:26:13Z) - On the Transferability of Visually Grounded PCFGs [35.64371385720051]
ビジュアルグラウンドPCFGcitepzhao-titov-2020-visually
我々は、モデルがソースドメイン上で訓練され、ターゲットドメインに直接適用されるゼロショット転送学習環境を、それ以上の訓練をすることなく検討する。
トレーニングドメインと同じようなドメインでテキストに視覚的接地を使用することの利点は、リモートドメインへの転送に失敗することである。
論文 参考訳(メタデータ) (2023-10-21T20:19:51Z) - Forgery-aware Adaptive Vision Transformer for Face Forgery Detection [57.56537940216884]
FA-ViT(Forgery-aware Adaptive Vision Transformer)を提案する。
FA-ViTでは、バニラViTのパラメータは、事前訓練された知識を保持するために凍結される。
特殊設計された2つのコンポーネント、LFI(Local-Aware Forgery)とGFA(Global-Aware Forgery Adaptor)は、フォージェリー関連の知識に適応するために使用される。
論文 参考訳(メタデータ) (2023-09-20T06:51:11Z) - ViDA: Homeostatic Visual Domain Adapter for Continual Test Time
Adaptation [49.84571101331491]
目標ドメインの継続的な変更に事前訓練されたモデルを適用するために、CTTAタスクを提案する。
我々はCTTAのためのビジュアルドメインアダプタ(ViDA)を提案し、ドメイン固有知識とドメイン共有知識の両方を明示的に扱う。
提案手法は,CTTAタスクの分類とセグメント化の両方において,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-06-07T11:18:53Z) - Semantic-aware Message Broadcasting for Efficient Unsupervised Domain
Adaptation [40.939984198850496]
教師なしドメイン適応(UDA)のための,より情報的かつ柔軟な特徴アライメントを可能にする,セマンティック・アウェア・メッセージ・ブロードキャスト(SAMB)を提案する。
学習したグループトークンのグループをノードとして導入し、すべての画像トークンからグローバル情報を集約する。
このようにして、メッセージブロードキャストはグループトークンに対して、効果的なドメインアライメントのためのより情報的で多様な情報を学ぶことを奨励します。
論文 参考訳(メタデータ) (2022-12-06T04:09:47Z) - Variational Transfer Learning using Cross-Domain Latent Modulation [1.9662978733004601]
本稿では,効率的な転送学習を実現するために,新しいドメイン間遅延変調機構を変分オートエンコーダフレームワークに導入する。
ソース領域とターゲット領域の深部表現は、まず統一推論モデルにより抽出され、勾配逆数を用いて整列される。
学習した深層表現は、一貫性の制約が適用される代替ドメインの潜在エンコーディングにクロスモデレートされる。
論文 参考訳(メタデータ) (2022-05-31T03:47:08Z) - Safe Self-Refinement for Transformer-based Domain Adaptation [73.8480218879]
Unsupervised Domain Adaptation (UDA)は、ラベル豊富なソースドメインを活用して、関連するラベルのないターゲットドメイン上のタスクを解決することを目的としている。
特にソースとターゲットドメインの間に大きなドメインギャップがある場合、これは難しい問題です。
SSRT (Safe Self-Refinement for Transformer-based domain adaptation) という新しい手法を提案する。
論文 参考訳(メタデータ) (2022-04-16T00:15:46Z) - On Improving Adversarial Transferability of Vision Transformers [97.17154635766578]
視覚変換器(ViT)は、入力画像を、自己注意によるパッチのシーケンスとして処理する。
本稿では,ViTモデルの対角的特徴空間とその伝達性について検討する。
本稿では,ViTモデルのアーキテクチャに特有な2つの新しい戦略を紹介する。
論文 参考訳(メタデータ) (2021-06-08T08:20:38Z) - Transformer-Based Source-Free Domain Adaptation [134.67078085569017]
本研究では,ソースフリードメイン適応(SFDA)の課題について検討する。
我々は、FDAの一般化モデルを学ぶためのTransformer(TransDA)という、汎用的で効果的なフレームワークを提案する。
論文 参考訳(メタデータ) (2021-05-28T23:06:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。