論文の概要: Cross-domain Detection Transformer based on Spatial-aware and
Semantic-aware Token Alignment
- arxiv url: http://arxiv.org/abs/2206.00222v1
- Date: Wed, 1 Jun 2022 04:13:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-02 12:20:11.673532
- Title: Cross-domain Detection Transformer based on Spatial-aware and
Semantic-aware Token Alignment
- Title(参考訳): 空間認識および意味認識トークンアライメントに基づくクロスドメイン検出トランス
- Authors: Jinhong Deng, Xiaoyue Zhang, Wen Li, Lixin Duan
- Abstract要約: クロスドメイン検出変換器のための空間認識および意味認識トークンアライメント(SSTA)と呼ばれる新しい手法を提案する。
空間認識型トークンアライメントでは、クロスアテンションマップ(CAM)から情報を抽出して、トークンの分布をオブジェクトクエリへの注目に応じて調整することができる。
意味認識型トークンアライメントでは、カテゴリ情報をクロスアテンションマップに注入し、ドメイン埋め込みを構築し、マルチクラスの識別器の学習をガイドする。
- 参考スコア(独自算出の注目度): 31.759205815348658
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Detection transformers like DETR have recently shown promising performance on
many object detection tasks, but the generalization ability of those methods is
still quite challenging for cross-domain adaptation scenarios. To address the
cross-domain issue, a straightforward way is to perform token alignment with
adversarial training in transformers. However, its performance is often
unsatisfactory as the tokens in detection transformers are quite diverse and
represent different spatial and semantic information. In this paper, we propose
a new method called Spatial-aware and Semantic-aware Token Alignment (SSTA) for
cross-domain detection transformers. In particular, we take advantage of the
characteristics of cross-attention as used in detection transformer and propose
the spatial-aware token alignment (SpaTA) and the semantic-aware token
alignment (SemTA) strategies to guide the token alignment across domains. For
spatial-aware token alignment, we can extract the information from the
cross-attention map (CAM) to align the distribution of tokens according to
their attention to object queries. For semantic-aware token alignment, we
inject the category information into the cross-attention map and construct
domain embedding to guide the learning of a multi-class discriminator so as to
model the category relationship and achieve category-level token alignment
during the entire adaptation process. We conduct extensive experiments on
several widely-used benchmarks, and the results clearly show the effectiveness
of our proposed method over existing state-of-the-art baselines.
- Abstract(参考訳): DETRのような検出変換器は、最近多くのオブジェクト検出タスクで有望な性能を示したが、これらのメソッドの一般化能力は、クロスドメイン適応シナリオでは依然としてかなり難しい。
クロスドメイン問題に対処するには、トランスフォーマーで逆行訓練とトークンアライメントを実行するのが簡単な方法である。
しかし、検出変換器のトークンは非常に多様であり、空間情報や意味情報が異なるため、その性能は不満足であることが多い。
本稿では,クロスドメイン検出変換器のための空間認識および意味認識トークンアライメント(SSTA)と呼ばれる新しい手法を提案する。
特に,検出変換器で使用されるクロスアテンションの特性を利用して,空間認識トークンアライメント(SpaTA)と意味認識トークンアライメント(SemTA)戦略を提案し,ドメイン間のトークンアライメントを導く。
空間対応トークンアライメントでは、オブジェクトクエリへの注意に応じてトークンの分布を調整するために、cross-attention map(cam)から情報を抽出することができる。
セマンティクス認識トークンアライメントでは、カテゴリ情報をクロスアテンションマップに注入し、多クラス判別子の学習を導くためにドメイン埋め込みを構築し、カテゴリ関係をモデル化し、適応プロセス全体においてカテゴリレベルのトークンアライメントを達成する。
提案手法が既存のベースラインに対して有効であることを示すとともに,本手法の有効性を明らかにした。
関連論文リスト
- DATR: Unsupervised Domain Adaptive Detection Transformer with Dataset-Level Adaptation and Prototypical Alignment [7.768332621617199]
我々は、オブジェクト検出の教師なし領域適応のために、ドメイン適応検出TRansformer(DATR)と呼ばれる強力なDETRベースの検出器を導入する。
提案するDATRは,教師モデルによって生成された擬似ラベルを用いて,平均教師に基づく自己学習フレームワークを組み込んで,ドメインバイアスをさらに緩和する。
複数のドメイン適応シナリオにおいて,提案したDATRの性能と一般化性を示す実験を行った。
論文 参考訳(メタデータ) (2024-05-20T03:48:45Z) - Location-Aware Self-Supervised Transformers [74.76585889813207]
画像部品の相対的な位置を予測し,セマンティックセグメンテーションのためのネットワークを事前訓練する。
参照パッチのサブセットを問合せのサブセットにマスキングすることで,タスクの難しさを制御します。
実験により,この位置認識事前学習が,いくつかの難解なセマンティックセグメンテーションベンチマークに競合する表現をもたらすことが示された。
論文 参考訳(メタデータ) (2022-12-05T16:24:29Z) - Multi-class Token Transformer for Weakly Supervised Semantic
Segmentation [94.78965643354285]
弱教師付きセマンティックセグメンテーション(WSSS)のための擬似ラベルとしてクラス固有のオブジェクトローカライゼーションマップを学習するトランスフォーマーベースのフレームワークを提案する。
標準視覚変換器の1クラストークンの付随領域を利用してクラス非依存のローカライゼーションマップを作成できることに着想を得て、トランスフォーマーモデルがより識別的なオブジェクトローカライゼーションのためにクラス固有の注意を効果的に捉えることができるかどうかを検討する。
提案手法は, PASCAL VOCおよびMS COCOデータセットにおいて, クラス活性化マッピング(CAM)法を完全に補完するものである。
論文 参考訳(メタデータ) (2022-03-06T07:18:23Z) - CDTrans: Cross-domain Transformer for Unsupervised Domain Adaptation [44.06904757181245]
Unsupervised domain adapt (UDA) は、ラベル付きソースドメインから異なるラベル付きターゲットドメインに学習した知識を転送することを目的としている。
カテゴリレベルに基づくUDAの根本的な問題は、ターゲットドメインのサンプル用の擬似ラベルの生成である。
我々は,対象サンプルの擬似ラベルを生成するために,双方向中心認識ラベルアルゴリズムを設計する。
擬似ラベルとともに、ソース/ターゲット特徴学習とソース/ターゲット領域アライメントに自己アテンションとクロスアテンションを適用するために、ウェイトシェアリング・トリプルブランチ・トランスフォーマー・フレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-13T17:59:07Z) - Exploring Sequence Feature Alignment for Domain Adaptive Detection
Transformers [141.70707071815653]
本稿では,検出変圧器の適応に特化して設計された新しいシーケンス特徴アライメント(SFA)法を提案する。
SFAはドメインクエリベースの機能アライメント(DQFA)モジュールとトークンワイド機能アライメント(TDA)モジュールで構成される。
3つの挑戦的なベンチマーク実験により、SFAは最先端のドメイン適応オブジェクト検出方法より優れていることが示された。
論文 参考訳(メタデータ) (2021-07-27T07:17:12Z) - AFAN: Augmented Feature Alignment Network for Cross-Domain Object
Detection [90.18752912204778]
オブジェクト検出のための教師なしドメイン適応は、多くの現実世界のアプリケーションにおいて難しい問題である。
本稿では、中間領域画像生成とドメイン・アドバイザリー・トレーニングを統合した新しい機能アライメント・ネットワーク(AFAN)を提案する。
提案手法は、類似および異種ドメイン適応の双方において、標準ベンチマークにおける最先端の手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2021-06-10T05:01:20Z) - Your Classifier can Secretly Suffice Multi-Source Domain Adaptation [72.47706604261992]
マルチソースドメイン適応(MSDA)は、複数のラベル付きソースドメインからラベルなしターゲットドメインへのタスク知識の転送を扱う。
ラベル管理下のドメインを暗黙的に整列させる深層モデルが観察されるMSDAに対して、異なる視点を提示する。
論文 参考訳(メタデータ) (2021-03-20T12:44:13Z) - Cross-domain Detection via Graph-induced Prototype Alignment [114.8952035552862]
カテゴリレベルのドメインアライメントを求めるグラフ誘発プロトタイプアライメント(GPA)フレームワークを提案する。
さらに,クラス不均衡がドメイン適応に与える影響を軽減するために,クラス重み付きコントラスト損失を設計する。
我々のアプローチは、既存の手法よりも顕著なマージンで優れています。
論文 参考訳(メタデータ) (2020-03-28T17:46:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。