論文の概要: DETR with Additional Global Aggregation for Cross-domain Weakly
Supervised Object Detection
- arxiv url: http://arxiv.org/abs/2304.07082v1
- Date: Fri, 14 Apr 2023 12:16:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-17 13:47:19.796590
- Title: DETR with Additional Global Aggregation for Cross-domain Weakly
Supervised Object Detection
- Title(参考訳): クロスドメイン弱監視対象検出のためのグローバルアグリゲーションを付加したDETR
- Authors: Zongheng Tang, Yifan Sun, Si Liu, Yi Yang
- Abstract要約: 本稿では,クロスドメイン弱教師付き物体検出(CDWSOD)のためのDETRに基づく手法を提案する。
我々は、DETR のエンコーダとデコーダはどちらもアテンション機構に基づいており、CDWSOD の可能性が強いと考えている。
集約結果、すなわち画像レベルの予測は、ドメインアライメントの弱い監督を自然に利用することができる。
- 参考スコア(独自算出の注目度): 34.14603473160207
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a DETR-based method for cross-domain weakly supervised
object detection (CDWSOD), aiming at adapting the detector from source to
target domain through weak supervision. We think DETR has strong potential for
CDWSOD due to an insight: the encoder and the decoder in DETR are both based on
the attention mechanism and are thus capable of aggregating semantics across
the entire image. The aggregation results, i.e., image-level predictions, can
naturally exploit the weak supervision for domain alignment. Such motivated, we
propose DETR with additional Global Aggregation (DETR-GA), a CDWSOD detector
that simultaneously makes "instance-level + image-level" predictions and
utilizes "strong + weak" supervisions. The key point of DETR-GA is very simple:
for the encoder / decoder, we respectively add multiple class queries / a
foreground query to aggregate the semantics into image-level predictions. Our
query-based aggregation has two advantages. First, in the encoder, the
weakly-supervised class queries are capable of roughly locating the
corresponding positions and excluding the distraction from non-relevant
regions. Second, through our design, the object queries and the foreground
query in the decoder share consensus on the class semantics, therefore making
the strong and weak supervision mutually benefit each other for domain
alignment. Extensive experiments on four popular cross-domain benchmarks show
that DETR-GA significantly improves CSWSOD and advances the states of the art
(e.g., 29.0% --> 79.4% mAP on PASCAL VOC --> Clipart_all dataset).
- Abstract(参考訳): 本稿では、ソースからターゲット領域への検出器適応を目的とした、クロスドメイン弱教師対象検出(CDWSOD)のためのDETRに基づく手法を提案する。
DETRのエンコーダとデコーダはどちらも注意機構に基づいており、画像全体にわたってセマンティクスを集約することができる。
集約結果、すなわち画像レベルの予測は、ドメインアライメントの弱い監督を自然に利用することができる。
そこで我々は,cdwsod検出器であるdetr-gaを付加し,"instance-level + image-level"の予測を同時に行うとともに,"strong + weak"のスーパーバイザを併用したdetrを提案する。
detr-gaのキーポイントは非常に単純で、エンコーダ/デコーダでは、それぞれ複数のクラスクエリ/フォアグラウンドクエリを追加して、セマンティックを画像レベルの予測に集約します。
クエリベースのアグリゲーションには2つの利点があります。
まず、エンコーダにおいて、弱教師付きクラスクエリは、対応する位置を大まかに特定でき、非関連領域からの逸脱を排除できる。
次に、私たちの設計を通して、オブジェクトクエリとデコーダのフォアグラウンドクエリは、クラスセマンティクスに関するコンセンサスを共有します。
一般的な4つのクロスドメインベンチマークの大規模な実験は、DeTR-GAがCSWSODを著しく改善し、最先端技術(例えば、PASCAL VOCで29.0% --> 79.4% mAP)を進歩させることを示している。
関連論文リスト
- DATR: Unsupervised Domain Adaptive Detection Transformer with Dataset-Level Adaptation and Prototypical Alignment [7.768332621617199]
我々は、オブジェクト検出の教師なし領域適応のために、ドメイン適応検出TRansformer(DATR)と呼ばれる強力なDETRベースの検出器を導入する。
提案するDATRは,教師モデルによって生成された擬似ラベルを用いて,平均教師に基づく自己学習フレームワークを組み込んで,ドメインバイアスをさらに緩和する。
複数のドメイン適応シナリオにおいて,提案したDATRの性能と一般化性を示す実験を行った。
論文 参考訳(メタデータ) (2024-05-20T03:48:45Z) - MS-DETR: Efficient DETR Training with Mixed Supervision [74.93329653526952]
MS-DETRは、推論に使用されるプライマリデコーダのオブジェクトクエリを1対1で監視する。
このアプローチではデコーダのブランチやオブジェクトクエリを追加する必要はありません。
実験結果から,本手法はDETRの変種よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-01-08T16:08:53Z) - Rank-DETR for High Quality Object Detection [52.82810762221516]
高性能なオブジェクト検出器は、バウンディングボックス予測の正確なランキングを必要とする。
本研究では, 簡易かつ高性能なDETR型物体検出器について, 一連のランク指向設計を提案して紹介する。
論文 参考訳(メタデータ) (2023-10-13T04:48:32Z) - Towards Hard-Positive Query Mining for DETR-based Human-Object
Interaction Detection [20.809479387186506]
ヒューマンオブジェクトインタラクション(HOI)検出は、高レベル画像理解のコアタスクである。
本稿では、ハード陽性クエリをマイニングすることで、検出変換器(DETR)ベースのHOI検出器を強化することを提案する。
実験の結果,提案手法は既存のDETRベースのHOI検出器に広く適用可能であることがわかった。
論文 参考訳(メタデータ) (2022-07-12T04:03:12Z) - Cross Domain Object Detection by Target-Perceived Dual Branch
Distillation [49.68119030818388]
クロスドメインオブジェクト検出は、現実的で挑戦的なタスクです。
本稿では,TDD(Target-perceived Dual-branch Distillation)フレームワークを提案する。
私たちのTDDは、すべてのベンチマークで最先端のメソッドよりも大幅に優れています。
論文 参考訳(メタデータ) (2022-05-03T03:51:32Z) - Domain Generalisation for Object Detection under Covariate and Concept Shift [10.32461766065764]
ドメインの一般化は、ドメイン固有の特徴を抑えながら、ドメイン不変の機能の学習を促進することを目的としている。
オブジェクト検出のためのドメイン一般化手法を提案し, オブジェクト検出アーキテクチャに適用可能な最初のアプローチを提案する。
論文 参考訳(メタデータ) (2022-03-10T11:14:18Z) - End-to-End Object Detection with Transformers [88.06357745922716]
本稿では,オブジェクト検出を直接セット予測問題とみなす新しい手法を提案する。
我々のアプローチは検出パイプラインを合理化し、手作業で設計された多くのコンポーネントの必要性を効果的に除去する。
この新しいフレームワークの主な構成要素は、Detection TRansformerまたはDETRと呼ばれ、セットベースのグローバルな損失である。
論文 参考訳(メタデータ) (2020-05-26T17:06:38Z) - Cross-domain Detection via Graph-induced Prototype Alignment [114.8952035552862]
カテゴリレベルのドメインアライメントを求めるグラフ誘発プロトタイプアライメント(GPA)フレームワークを提案する。
さらに,クラス不均衡がドメイン適応に与える影響を軽減するために,クラス重み付きコントラスト損失を設計する。
我々のアプローチは、既存の手法よりも顕著なマージンで優れています。
論文 参考訳(メタデータ) (2020-03-28T17:46:55Z) - iFAN: Image-Instance Full Alignment Networks for Adaptive Object
Detection [48.83883375118966]
iFANは、イメージレベルとインスタンスレベルの両方で、機能の分散を正確に調整することを目的としている。
ソースのみのベースライン上で10%以上のAPで、最先端のメソッドよりも優れています。
論文 参考訳(メタデータ) (2020-03-09T13:27:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。