論文の概要: Vision Transformer-based Adversarial Domain Adaptation
- arxiv url: http://arxiv.org/abs/2404.15817v1
- Date: Wed, 24 Apr 2024 11:41:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-26 19:20:39.617693
- Title: Vision Transformer-based Adversarial Domain Adaptation
- Title(参考訳): 視覚変換器を用いた対向領域適応
- Authors: Yahan Li, Yuan Wu,
- Abstract要約: 視覚変換器(ViT)は出現以来注目され、様々なコンピュータビジョンタスクで広く利用されている。
本稿では,このギャップを,対向領域適応における特徴抽出器としてViTを用いて埋める。
敵領域適応において, ViT がプラグイン・アンド・プレイコンポーネントとなることを実証的に実証した。
- 参考スコア(独自算出の注目度): 5.611768906855499
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unsupervised domain adaptation (UDA) aims to transfer knowledge from a labeled source domain to an unlabeled target domain. The most recent UDA methods always resort to adversarial training to yield state-of-the-art results and a dominant number of existing UDA methods employ convolutional neural networks (CNNs) as feature extractors to learn domain invariant features. Vision transformer (ViT) has attracted tremendous attention since its emergence and has been widely used in various computer vision tasks, such as image classification, object detection, and semantic segmentation, yet its potential in adversarial domain adaptation has never been investigated. In this paper, we fill this gap by employing the ViT as the feature extractor in adversarial domain adaptation. Moreover, we empirically demonstrate that ViT can be a plug-and-play component in adversarial domain adaptation, which means directly replacing the CNN-based feature extractor in existing UDA methods with the ViT-based feature extractor can easily obtain performance improvement. The code is available at https://github.com/LluckyYH/VT-ADA.
- Abstract(参考訳): Unsupervised domain adapt (UDA) は、ラベル付きソースドメインからラベル付きターゲットドメインに知識を転送することを目的としている。
最新のUDA法は、常に敵の訓練を頼りに最先端の結果を得ることができ、既存のUDA法では、畳み込みニューラルネットワーク(CNN)を特徴抽出器として、ドメイン不変の特徴を学習している。
視覚変換器(ViT)は、その出現以来大きな注目を集め、画像分類、オブジェクト検出、セマンティックセグメンテーションなど様々なコンピュータビジョンタスクで広く利用されているが、敵領域適応のポテンシャルは研究されていない。
本稿では,このギャップを,対向領域適応における特徴抽出器としてViTを用いて埋める。
さらに,既存のUDA手法でCNNベースの特徴抽出器を直接置き換えることで,VTベースの特徴抽出器の性能向上が容易に実現可能であることを実証的に示す。
コードはhttps://github.com/LluckyYH/VT-ADAで公開されている。
関連論文リスト
- Transferable-guided Attention Is All You Need for Video Domain Adaptation [42.642008092347986]
ビデオにおける教師なし適応(UDA)は、画像ベースのUDA技術に比べ、まだ十分に検討されていない課題である。
我々のキーとなる考え方は、トランスフォーマー層を特徴エンコーダとして使用し、空間的および時間的伝達可能性の関係をアテンション機構に組み込むことである。
Transferable-Guided Attention (TransferAttn)フレームワークが開発され、トランスフォーマーの能力を利用してドメイン間の知識を適応する。
論文 参考訳(メタデータ) (2024-07-01T15:29:27Z) - Improving Source-Free Target Adaptation with Vision Transformers
Leveraging Domain Representation Images [8.626222763097335]
Unsupervised Domain Adaptation (UDA)メソッドは、ラベル付きソースドメインからラベル付きターゲットドメインへの知識転送を容易にする。
本稿では、キー、クエリ、値要素がViT結果にどのように影響するかを評価することから、ソースフリーなターゲット適応におけるViT性能を高める革新的な方法を提案する。
ドメイン表現画像(DRI)は、ドメイン固有のマーカーとして機能し、トレーニングレギュレータとシームレスにマージする。
論文 参考訳(メタデータ) (2023-11-21T13:26:13Z) - Unsupervised Domain Adaptation for Video Transformers in Action
Recognition [76.31442702219461]
ビデオ行動認識のためのシンプルで斬新なUDA手法を提案する。
私たちのアプローチでは、ターゲットドメインをより一般化した堅牢なソースモデルを構築しています。
UDAのための2つのビデオアクションベンチマークの認識結果について報告する。
論文 参考訳(メタデータ) (2022-07-26T12:17:39Z) - Towards Unsupervised Domain Adaptation via Domain-Transformer [0.0]
教師なしドメイン適応(UDA)のためのドメイン変換器(DoT)を提案する。
DoTは新しい視点から、CNNバックボーンとTransformerのコアアテンションメカニズムを統合する。
ドメイン間の局所的な意味的一貫性を実現し、そこではドメインレベルの注意と多様体の正規化が探索される。
論文 参考訳(メタデータ) (2022-02-24T02:30:15Z) - Decompose to Adapt: Cross-domain Object Detection via Feature
Disentanglement [79.2994130944482]
本研究では,DDF(Domain Disentanglement Faster-RCNN)を設計し,タスク学習のための特徴のソース固有情報を排除した。
DDF法は,グローバルトリプルト・ディアンタングルメント(GTD)モジュールとインスタンス類似性・ディアンタングルメント(ISD)モジュールを用いて,グローバルおよびローカルステージでの機能ディアンタングルを容易にする。
提案手法は,4つのUDAオブジェクト検出タスクにおいて最先端の手法より優れており,広い適用性で有効であることが実証された。
論文 参考訳(メタデータ) (2022-01-06T05:43:01Z) - CDTrans: Cross-domain Transformer for Unsupervised Domain Adaptation [44.06904757181245]
Unsupervised domain adapt (UDA) は、ラベル付きソースドメインから異なるラベル付きターゲットドメインに学習した知識を転送することを目的としている。
カテゴリレベルに基づくUDAの根本的な問題は、ターゲットドメインのサンプル用の擬似ラベルの生成である。
我々は,対象サンプルの擬似ラベルを生成するために,双方向中心認識ラベルアルゴリズムを設計する。
擬似ラベルとともに、ソース/ターゲット特徴学習とソース/ターゲット領域アライメントに自己アテンションとクロスアテンションを適用するために、ウェイトシェアリング・トリプルブランチ・トランスフォーマー・フレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-13T17:59:07Z) - Stagewise Unsupervised Domain Adaptation with Adversarial Self-Training
for Road Segmentation of Remote Sensing Images [93.50240389540252]
リモートセンシング画像からの道路セグメンテーションは、幅広い応用可能性を持つ課題である。
本稿では,この領域における領域シフト(DS)問題に対処するため,RoadDAと呼ばれる新たな段階的ドメイン適応モデルを提案する。
2つのベンチマーク実験の結果、RoadDAはドメインギャップを効率的に減らし、最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2021-08-28T09:29:14Z) - TVT: Transferable Vision Transformer for Unsupervised Domain Adaptation [54.61786380919243]
Unsupervised domain adapt (UDA) は、ラベル付きソースドメインから学習した知識をラベル付きターゲットドメインに転送することを目的としている。
これまでの研究は主に、ドメイン不変表現を学ぶために畳み込みニューラルネットワーク(CNN)上に構築されていた。
近年、視覚タスクに視覚変換器(ViT)を適用する指数関数的増加に伴い、ドメイン間の知識を適応するViTの能力は文献上未解明のままである。
論文 参考訳(メタデータ) (2021-08-12T22:37:43Z) - Exploring Sequence Feature Alignment for Domain Adaptive Detection
Transformers [141.70707071815653]
本稿では,検出変圧器の適応に特化して設計された新しいシーケンス特徴アライメント(SFA)法を提案する。
SFAはドメインクエリベースの機能アライメント(DQFA)モジュールとトークンワイド機能アライメント(TDA)モジュールで構成される。
3つの挑戦的なベンチマーク実験により、SFAは最先端のドメイン適応オブジェクト検出方法より優れていることが示された。
論文 参考訳(メタデータ) (2021-07-27T07:17:12Z) - AFAN: Augmented Feature Alignment Network for Cross-Domain Object
Detection [90.18752912204778]
オブジェクト検出のための教師なしドメイン適応は、多くの現実世界のアプリケーションにおいて難しい問題である。
本稿では、中間領域画像生成とドメイン・アドバイザリー・トレーニングを統合した新しい機能アライメント・ネットワーク(AFAN)を提案する。
提案手法は、類似および異種ドメイン適応の双方において、標準ベンチマークにおける最先端の手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2021-06-10T05:01:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。