論文の概要: RelationNet++: Bridging Visual Representations for Object Detection via
Transformer Decoder
- arxiv url: http://arxiv.org/abs/2010.15831v1
- Date: Thu, 29 Oct 2020 17:59:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-01 23:12:30.029839
- Title: RelationNet++: Bridging Visual Representations for Object Detection via
Transformer Decoder
- Title(参考訳): relationnet++:transformerデコーダによるオブジェクト検出のためのブリッジビジュアル表現
- Authors: Cheng Chi and Fangyun Wei and Han Hu
- Abstract要約: 本稿では,1つの表現形式上に構築された典型的なオブジェクト検出器に他の表現をブリッジするアテンションベースのデコーダモジュールを提案する。
我々は、強力なバックボーンを持つ最先端のフレームワークを、約2.0$ APで改善し、COCOテストデーブで52.7ドルに達した。
- 参考スコア(独自算出の注目度): 33.516628423999975
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing object detection frameworks are usually built on a single format of
object/part representation, i.e., anchor/proposal rectangle boxes in RetinaNet
and Faster R-CNN, center points in FCOS and RepPoints, and corner points in
CornerNet. While these different representations usually drive the frameworks
to perform well in different aspects, e.g., better classification or finer
localization, it is in general difficult to combine these representations in a
single framework to make good use of each strength, due to the heterogeneous or
non-grid feature extraction by different representations. This paper presents
an attention-based decoder module similar as that in
Transformer~\cite{vaswani2017attention} to bridge other representations into a
typical object detector built on a single representation format, in an
end-to-end fashion. The other representations act as a set of \emph{key}
instances to strengthen the main \emph{query} representation features in the
vanilla detectors. Novel techniques are proposed towards efficient computation
of the decoder module, including a \emph{key sampling} approach and a
\emph{shared location embedding} approach. The proposed module is named
\emph{bridging visual representations} (BVR). It can perform in-place and we
demonstrate its broad effectiveness in bridging other representations into
prevalent object detection frameworks, including RetinaNet, Faster R-CNN, FCOS
and ATSS, where about $1.5\sim3.0$ AP improvements are achieved. In particular,
we improve a state-of-the-art framework with a strong backbone by about $2.0$
AP, reaching $52.7$ AP on COCO test-dev. The resulting network is named
RelationNet++. The code will be available at
https://github.com/microsoft/RelationNet2.
- Abstract(参考訳): 既存のオブジェクト検出フレームワークは通常、単一のオブジェクト/部分表現、すなわちRetinaNetとFaster R-CNNのアンカー/プロポサル矩形ボックス、FCOSとRepPointsのセンターポイント、コーナーネットのコーナーポイント上に構築されている。
これらの異なる表現は、例えば、より優れた分類やより細かい局所化といった異なる側面で、フレームワークをうまく機能させるが、一般的には、異なる表現による異種または非グリッドの特徴抽出のため、これらの表現を単一のフレームワークで組み合わせて、それぞれの強みをうまく利用することは困難である。
本稿では,Transformer~\cite{vaswani2017attention} と同様のアテンションベースのデコーダモジュールを提案する。
他の表現は、バニラ検出器の主 \emph{query} 表現機能を強化するために \emph{key} インスタンスの集合として機能する。
デコーダモジュールの効率的な計算のために, \emph{key sampling} 法や \emph{shared location embedded} 法などの新しい手法が提案されている。
提案したモジュールは \emph{bridging visual representations} (BVR) と名付けられた。
我々は、他の表現をRetinaNet、Faster R-CNN、FCOS、ATSSなどの一般的なオブジェクト検出フレームワークにブリッジすることで、その広範な効果を実証する。
特に、強力なバックボーンを持つ最先端のフレームワークを2.0$ APで改善し、COCO test-devで52.7$ APに達した。
ネットワーク名はrelationnet++である。
コードはhttps://github.com/microsoft/relationnet2で入手できる。
関連論文リスト
- ScribFormer: Transformer Makes CNN Work Better for Scribble-based
Medical Image Segmentation [43.24187067938417]
本稿では,ScribFormerと呼ばれるスクリブル制御型医用画像分割のためのCNN-Transformerハイブリッドソリューションを提案する。
提案したScribFormerモデルはトリプルブランチ構造、すなわちCNNブランチとTransformerブランチのハイブリッド、注意誘導型クラスアクティベーションマップ(ACAM)ブランチを備えている。
論文 参考訳(メタデータ) (2024-02-03T04:55:22Z) - $R^{2}$Former: Unified $R$etrieval and $R$eranking Transformer for Place
Recognition [92.56937383283397]
検索と再ランクの両方を扱う統合された場所認識フレームワークを提案する。
提案モジュールは特徴相関,注目値,xy座標を考慮に入れている。
R2$Formerは、主要なVPRデータセットの最先端メソッドを著しく上回る。
論文 参考訳(メタデータ) (2023-04-06T23:19:32Z) - Adaptive Rotated Convolution for Rotated Object Detection [96.94590550217718]
本稿では、回転物体検出問題に対処するために、適応回転変換(ARC)モジュールを提案する。
ARCモジュールでは、コンボリューションカーネルが適応的に回転し、異なる画像に異なる向きのオブジェクト特徴を抽出する。
提案手法は,81.77%mAPのDOTAデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-03-14T11:53:12Z) - Robust Partial-to-Partial Point Cloud Registration in a Full Range [12.86951061306046]
本稿では,全方向1の部分対部分点クラウド登録(PPR)のためのポーズ不変対応を推定するグラフマッチング・コンセンサス・ネットワーク(GMCNet)を提案する。
GMCNetは、個別に各点クラウドのポイント記述子を、クロスコンテクスト情報や、トレーニングのための接地真理対応を使わずに符号化する。
論文 参考訳(メタデータ) (2021-11-30T17:56:24Z) - FIDNet: LiDAR Point Cloud Semantic Segmentation with Fully Interpolation
Decoding [5.599306291149907]
2次元球面領域画像上に点雲を投影すると、LiDARセマンティックセマンティックセマンティックセマンティクスがレンジ画像上の2次元セマンティクスタスクに変換される。
本稿では,新しいネットワーク構造と効率的な後処理ステップからなる投影型LiDARセマンティックセマンティックセマンティクスパイプラインを提案する。
我々のパイプラインは、40倍の2048$の解像度を持つプロジェクションベースのメソッドと、すべてのポイントワイズソリューションの中で、最高のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2021-09-08T17:20:09Z) - Conformer: Local Features Coupling Global Representations for Visual
Recognition [72.9550481476101]
本稿では,畳み込み操作と自己アテンション機構を利用した表現学習のためのハイブリッドネットワーク構造,conformerを提案する。
実験では、コンフォーマーが同等のパラメータ複雑性の下で視覚変換器(DeiT-B)を2.3%上回ることが示されている。
論文 参考訳(メタデータ) (2021-05-09T10:00:03Z) - Single Object Tracking through a Fast and Effective Single-Multiple
Model Convolutional Neural Network [0.0]
最近の最先端の(SOTA)アプローチは、エリア内の他のオブジェクトとターゲットを区別するために重い構造を持つマッチングネットワークを取ることに基づいて提案されています。
本稿では,これまでのアプローチとは対照的に,一つのショットで物体の位置を識別できる特殊なアーキテクチャを提案する。
提示されたトラッカーは、1080tiで最大120 fps$の超高速で、挑戦的な状況でsomaと比較してパフォーマンスする。
論文 参考訳(メタデータ) (2021-03-28T11:02:14Z) - Dynamic Graph: Learning Instance-aware Connectivity for Neural Networks [78.65792427542672]
動的グラフネットワーク(DG-Net)は完全な有向非巡回グラフであり、ノードは畳み込みブロックを表し、エッジは接続経路を表す。
ネットワークの同じパスを使用する代わりに、DG-Netは各ノードの機能を動的に集約する。
論文 参考訳(メタデータ) (2020-10-02T16:50:26Z) - Geometry Constrained Weakly Supervised Object Localization [55.17224813345206]
弱教師付きオブジェクトローカライゼーションのための幾何制約付きネットワークであるGC-Netを提案する。
検出器は、幾何学的形状を記述する係数の集合によって定義された物体の位置を予測する。
ジェネレータは、得られたマスクされた画像を入力として、オブジェクトとバックグラウンドの2つの補完的な分類タスクを実行する。
従来のアプローチとは対照的に、GC-Netはエンドツーエンドでトレーニングされ、後処理なしでオブジェクトの位置を予測する。
論文 参考訳(メタデータ) (2020-07-19T17:33:42Z) - 1st Place Solutions for OpenImage2019 -- Object Detection and Instance
Segmentation [116.25081559037872]
この記事では,2つのチャンピオンチーム,検出トラックのMMfruit'とセグメンテーショントラックのMMfruitSeg'のソリューションについて,OpenImage Challenge 2019で紹介する。
一般に、対象検出器の場合、バックボーンの端の共有特徴は分類と回帰の両方に適さないことが知られている。
自己学習型最適特徴抽出によりオブジェクトの分類と回帰を分離するデカップリングヘッド(DH)を提案する。
論文 参考訳(メタデータ) (2020-03-17T06:45:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。