論文の概要: CAT: Cross-Attention Transformer for One-Shot Object Detection
- arxiv url: http://arxiv.org/abs/2104.14984v1
- Date: Fri, 30 Apr 2021 13:18:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-03 13:37:38.350196
- Title: CAT: Cross-Attention Transformer for One-Shot Object Detection
- Title(参考訳): CAT:ワンショット物体検出用クロスアテンショントランス
- Authors: Weidong Lin, Yuyan Deng, Yang Gao, Ning Wang, Jinghao Zhou, Lingqiao
Liu, Lei Zhang, Peng Wang
- Abstract要約: ワンショットオブジェクト検出は、セマンティックな類似度の比較を通じて、ターゲットイメージ内のそのクラスのすべてのインスタンスを検出することを目的とする。
汎用クロスアテンション変換器(CAT)モジュールで、ワンショットオブジェクト検出における正確かつ効率的な意味的類似度比較を行う。
- 参考スコア(独自算出の注目度): 32.50786038822194
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Given a query patch from a novel class, one-shot object detection aims to
detect all instances of that class in a target image through the semantic
similarity comparison. However, due to the extremely limited guidance in the
novel class as well as the unseen appearance difference between query and
target instances, it is difficult to appropriately exploit their semantic
similarity and generalize well. To mitigate this problem, we present a
universal Cross-Attention Transformer (CAT) module for accurate and efficient
semantic similarity comparison in one-shot object detection. The proposed CAT
utilizes transformer mechanism to comprehensively capture bi-directional
correspondence between any paired pixels from the query and the target image,
which empowers us to sufficiently exploit their semantic characteristics for
accurate similarity comparison. In addition, the proposed CAT enables feature
dimensionality compression for inference speedup without performance loss.
Extensive experiments on COCO, VOC, and FSOD under one-shot settings
demonstrate the effectiveness and efficiency of our method, e.g., it surpasses
CoAE, a major baseline in this task by 1.0% in AP on COCO and runs nearly 2.5
times faster. Code will be available in the future.
- Abstract(参考訳): 新規クラスからのクエリパッチが与えられた場合、ワンショットオブジェクト検出は、意味的類似性比較を通じてターゲットイメージ内のそのクラスのすべてのインスタンスを検出することを目的としている。
しかし,新規クラスでは極めて限定的なガイダンスや,クエリとターゲットインスタンスの外観の相違から,それらのセマンティックな類似性を適切に活用し,適切に一般化することは困難である。
この問題を軽減するため,単発物体検出における意味的類似性比較を高精度かつ効率的に行う汎用クロスアテンショントランス (CAT) モジュールを提案する。
提案したCATは,クエリとターゲット画像から任意の対の画素間の双方向対応を包括的にキャプチャするトランスフォーマー機構を利用して,それらのセマンティック特性を正確な類似性比較のために十分に活用することができる。
さらに,提案する cat では,性能損失を伴わない推論高速化のための特徴次元圧縮が可能となる。
COCO、VOC、FSODの1ショット設定による大規模な実験は、COCO上のAPにおいて、そのタスクにおける主要なベースラインであるCoAEを1.0%上回り、2.5倍近く高速に動作していることを示す。
コードは将来的に利用可能になる。
関連論文リスト
- Practical Video Object Detection via Feature Selection and Aggregation [18.15061460125668]
ビデオオブジェクト検出(VOD)は、オブジェクトの外観における高いフレーム間変動と、いくつかのフレームにおける多様な劣化を懸念する必要がある。
現代のアグリゲーション法のほとんどは、高い計算コストに苦しむ2段階検出器用に調整されている。
この研究は、特徴選択と集約の非常に単純だが強力な戦略を考案し、限界計算コストでかなりの精度を得る。
論文 参考訳(メタデータ) (2024-07-29T02:12:11Z) - Once for Both: Single Stage of Importance and Sparsity Search for Vision Transformer Compression [63.23578860867408]
重要度評価と疎度評価を1段階にまとめる方法について検討する。
重要度と疎度の両方を同時に評価するコスト効率の高いOFBを提案する。
実験により、OFBは最先端のサーチベースおよびプルーニングベース手法よりも優れた圧縮性能が得られることが示された。
論文 参考訳(メタデータ) (2024-03-23T13:22:36Z) - Target-aware Bi-Transformer for Few-shot Segmentation [4.3753381458828695]
Few-shot semantic segmentation (FSS)は、限定ラベル付きサポートイメージを使用して、新しいクラスのオブジェクトのセグメンテーションを特定することを目的としている。
本稿では,サポート画像とクエリ画像の等価処理を行うために,TBTNet(Target-aware Bi-Transformer Network)を提案する。
TTL(Target-aware Transformer Layer)もまた、相関関係を蒸留し、モデルにフォアグラウンド情報に集中させるように設計されている。
論文 参考訳(メタデータ) (2023-09-18T05:28:51Z) - Adaptive Sparse Convolutional Networks with Global Context Enhancement
for Faster Object Detection on Drone Images [26.51970603200391]
本稿では,スパース畳み込みに基づく検出ヘッドの最適化について検討する。
これは、小さなオブジェクトのコンテキスト情報の不十分な統合に悩まされる。
本稿では,グローバルな文脈拡張型適応スパース畳み込みネットワークを提案する。
論文 参考訳(メタデータ) (2023-03-25T14:42:50Z) - Enhancing Few-shot Image Classification with Cosine Transformer [4.511561231517167]
Few-shot Cosine Transformer (FS-CT)は、サポートとクエリ間のリレーショナルマップである。
本手法は,1ショット学習と5ショット学習におけるミニイメージネット,CUB-200,CIFAR-FSの競合結果を示す。
我々のコサインアテンションを持つFS-CTは、広範囲のアプリケーションに適用可能な軽量でシンプルな数ショットアルゴリズムである。
論文 参考訳(メタデータ) (2022-11-13T06:03:28Z) - ECO-TR: Efficient Correspondences Finding Via Coarse-to-Fine Refinement [80.94378602238432]
粗大な処理で対応性を見出すことにより、ECO-TR(Correspondence Efficient Transformer)と呼ばれる効率的な構造を提案する。
これを実現するために、複数の変圧器ブロックは段階的に連結され、予測された座標を徐々に洗練する。
種々のスパースタスクと密マッチングタスクの実験は、既存の最先端技術に対する効率性と有効性の両方において、我々の手法の優位性を実証している。
論文 参考訳(メタデータ) (2022-09-25T13:05:33Z) - Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z) - FSCE: Few-Shot Object Detection via Contrastive Proposal Encoding [14.896822373116729]
コントラスト的提案(FSCE)によるFew-Shotオブジェクト検出について述べる。
FSCEは、検出されたオブジェクトの分類を容易にするコントラスト認識オブジェクトエンコーディングを学ぶためのシンプルで効果的なアプローチです。
我々の設計は、任意のショットとすべてのデータにおいて現在の最先端の作業よりも優れており、標準ベンチマークPASCAL VOCでは+8.8%、挑戦ベンチマークでは+2.7%である。
論文 参考訳(メタデータ) (2021-03-10T09:15:05Z) - DetCo: Unsupervised Contrastive Learning for Object Detection [64.22416613061888]
教師なしのコントラスト学習は,CNNを用いた画像表現学習において大きな成功を収めている。
我々は,グローバルイメージとローカルイメージパッチのコントラストをフルに検討する,DetCoという新しいコントラスト学習手法を提案する。
DetCoは1倍のスケジュールでMask RCNN-C4/FPN/RetinaNet上で1.6/1.2/1.0 APで教師付き手法を一貫して上回っている。
論文 参考訳(メタデータ) (2021-02-09T12:47:20Z) - Dense Contrastive Learning for Self-Supervised Visual Pre-Training [102.15325936477362]
入力画像の2つのビュー間の画素レベルでの差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分)を最適化することにより自己教師学習を実現する。
ベースライン法であるMoCo-v2と比較すると,計算オーバーヘッドは1%遅かった。
論文 参考訳(メタデータ) (2020-11-18T08:42:32Z) - Anchor-free Small-scale Multispectral Pedestrian Detection [88.7497134369344]
適応型単一段アンカーフリーベースアーキテクチャにおける2つのモードの効果的かつ効率的な多重スペクトル融合法を提案する。
我々は,直接的境界ボックス予測ではなく,対象の中心と規模に基づく歩行者表現の学習を目指す。
その結果,小型歩行者の検出における本手法の有効性が示唆された。
論文 参考訳(メタデータ) (2020-08-19T13:13:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。