論文の概要: Time-rEversed diffusioN tEnsor Transformer: A new TENET of Few-Shot
Object Detection
- arxiv url: http://arxiv.org/abs/2210.16897v1
- Date: Sun, 30 Oct 2022 17:40:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-01 14:53:45.571162
- Title: Time-rEversed diffusioN tEnsor Transformer: A new TENET of Few-Shot
Object Detection
- Title(参考訳): Time-rversed diffusioN tEnsor Transformer:Few-Shot Object Detectionの新しいTENET
- Authors: Shan Zhang and Naila Murray and Lei Wang and Piotr Koniusz
- Abstract要約: 本稿では,時間rEversed diffusioN tEnsor Transformer (TENET)を提案する。
また,高階表現を備えたTransformer Relation Head (TRH) を提案し,クエリ領域とサポートセット全体の相関を符号化する。
当モデルでは,PASCAL VOC,FSOD,COCOの最先端結果が得られた。
- 参考スコア(独自算出の注目度): 35.54153749138406
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we tackle the challenging problem of Few-shot Object
Detection. Existing FSOD pipelines (i) use average-pooled representations that
result in information loss; and/or (ii) discard position information that can
help detect object instances. Consequently, such pipelines are sensitive to
large intra-class appearance and geometric variations between support and query
images. To address these drawbacks, we propose a Time-rEversed diffusioN tEnsor
Transformer (TENET), which i) forms high-order tensor representations that
capture multi-way feature occurrences that are highly discriminative, and ii)
uses a transformer that dynamically extracts correlations between the query
image and the entire support set, instead of a single average-pooled support
embedding. We also propose a Transformer Relation Head (TRH), equipped with
higher-order representations, which encodes correlations between query regions
and the entire support set, while being sensitive to the positional variability
of object instances. Our model achieves state-of-the-art results on PASCAL VOC,
FSOD, and COCO.
- Abstract(参考訳): 本稿では,Few-shot Object Detectionの課題に対処する。
既存のFSODパイプライン
(i)情報損失をもたらす平均プール表現を使用する、又は、
(ii)オブジェクトインスタンスを検出するのに役立つ位置情報を破棄する。
したがって、このようなパイプラインは、大きなクラス内外観や、サポートとクエリイメージ間の幾何学的バリエーションに敏感である。
このような欠点に対処するため,TENET (Time-rEversed diffusioN tEnsor Transformer) を提案する。
i)高次テンソル表現を形成し、高度に判別可能な多方向特徴発生をキャプチャし、
二 単一の平均プール型サポート埋め込みではなく、クエリイメージとサポートセット全体の相関関係を動的に抽出するトランスフォーマーを使用する。
また,高階表現を備えたTransformer Relation Head (TRH) を提案し,クエリ領域とサポートセット全体の相関を符号化し,オブジェクトインスタンスの位置変動に敏感に扱う。
当モデルでは,PASCAL VOC,FSOD,COCOの最先端結果が得られた。
関連論文リスト
- Investigating the Robustness and Properties of Detection Transformers
(DETR) Toward Difficult Images [1.5727605363545245]
トランスフォーマーベースのオブジェクト検出器(DETR)は、マシンビジョンタスク間で大きな性能を示している。
対処すべき重要な問題は、このモデルアーキテクチャがどのように異なるイメージニュアンスを扱うことができるかである。
本研究では,DeTRの性能を異なる実験で測定し,ネットワークのベンチマークを行った。
論文 参考訳(メタデータ) (2023-10-12T23:38:52Z) - Spatial-Temporal Graph Enhanced DETR Towards Multi-Frame 3D Object Detection [54.041049052843604]
STEMDは,多フレーム3Dオブジェクト検出のためのDETRのようなパラダイムを改良した,新しいエンドツーエンドフレームワークである。
まず、オブジェクト間の空間的相互作用と複雑な時間的依存をモデル化するために、空間的時間的グラフアテンションネットワークを導入する。
最後に、ネットワークが正のクエリと、ベストマッチしない他の非常に類似したクエリを区別することが課題となる。
論文 参考訳(メタデータ) (2023-07-01T13:53:14Z) - Adaptive Rotated Convolution for Rotated Object Detection [96.94590550217718]
本稿では、回転物体検出問題に対処するために、適応回転変換(ARC)モジュールを提案する。
ARCモジュールでは、コンボリューションカーネルが適応的に回転し、異なる画像に異なる向きのオブジェクト特徴を抽出する。
提案手法は,81.77%mAPのDOTAデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-03-14T11:53:12Z) - Transformation-Invariant Network for Few-Shot Object Detection in Remote
Sensing Images [15.251042369061024]
FSOD(Few-shot Object Detection)は、トレーニングのために大量のラベル付きデータを頼りにしている。
リモートセンシング画像におけるオブジェクトのスケールと向きのバリエーションは、既存のFSOD法に重大な課題をもたらす。
特徴ピラミッドネットワークの統合と,クエリ機能向上のためのプロトタイプ機能の利用を提案する。
論文 参考訳(メタデータ) (2023-03-13T02:21:38Z) - Semantic-aligned Fusion Transformer for One-shot Object Detection [18.58772037047498]
ワンショットオブジェクト検出は、与えられた1つのインスタンスに従って新しいオブジェクトを検出することを目的としている。
現在のアプローチでは、直接転送可能なメタ知識を得るために様々な特徴融合を探索している。
本稿では,これらの問題を解決するために,Semantic-aligned Fusion Transformer (SaFT) というシンプルなアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-03-17T05:38:47Z) - PnP-DETR: Towards Efficient Visual Analysis with Transformers [146.55679348493587]
近年、DeTRはトランスフォーマーを用いたソリューションビジョンタスクの先駆者であり、画像特徴マップを直接オブジェクト結果に変換する。
最近の変圧器を用いた画像認識モデルとTTは、一貫した効率向上を示す。
論文 参考訳(メタデータ) (2021-09-15T01:10:30Z) - Guiding Query Position and Performing Similar Attention for
Transformer-Based Detection Heads [20.759022922347697]
本稿では、オブジェクトクエリの最新の位置情報を反復的にクエリ位置に埋め込むためのガイドクエリ位置(GQPos)法を提案する。
特徴マップの融合に加えて、SiAは注意重みマップを融合させ、高解像度の注意重みマップの学習を加速させる。
実験の結果,提案したGQPosは,DETR,SMCA,YoloS,HoiTransformerなど,一連のモデルの性能を向上させることがわかった。
論文 参考訳(メタデータ) (2021-08-22T11:32:34Z) - Exploring Sequence Feature Alignment for Domain Adaptive Detection
Transformers [141.70707071815653]
本稿では,検出変圧器の適応に特化して設計された新しいシーケンス特徴アライメント(SFA)法を提案する。
SFAはドメインクエリベースの機能アライメント(DQFA)モジュールとトークンワイド機能アライメント(TDA)モジュールで構成される。
3つの挑戦的なベンチマーク実験により、SFAは最先端のドメイン適応オブジェクト検出方法より優れていることが示された。
論文 参考訳(メタデータ) (2021-07-27T07:17:12Z) - Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。
イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。
実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文 参考訳(メタデータ) (2021-04-25T08:24:06Z) - DA-DETR: Domain Adaptive Detection Transformer with Information Fusion [53.25930448542148]
DA-DETRは、ラベル付きソースドメインからラベルなしターゲットドメインへの効果的な転送のための情報融合を導入するドメイン適応型オブジェクト検出変換器である。
本稿では,CNN機能とトランスフォーマー機能を融合した新しいCNN-Transformer Blender(CTBlender)を提案する。
CTBlenderはTransformer機能を使用して、高レベルの意味情報と低レベルの空間情報が融合した複数のスケールでCNN機能を変調し、正確な物体識別と位置決めを行う。
論文 参考訳(メタデータ) (2021-03-31T13:55:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。