論文の概要: BoxeR: Box-Attention for 2D and 3D Transformers
- arxiv url: http://arxiv.org/abs/2111.13087v1
- Date: Thu, 25 Nov 2021 13:54:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-30 07:23:22.211686
- Title: BoxeR: Box-Attention for 2D and 3D Transformers
- Title(参考訳): BoxeR:2Dおよび3Dトランスのためのボックスアテンション
- Authors: Duy-Kien Nguyen, Jihong Ju, Olaf Booji, Martin R. Oswald, Cees G. M.
Snoek
- Abstract要約: 入力特徴写像上の参照ウィンドウからの変換を予測し,ボックスの集合に付随するボックストランスフォーマーの略であるBoxeRを提案する。
BoxeR-2Dはそのアテンションモジュール内のボックス情報を自然に理由付け、エンドツーエンドのインスタンス検出とセグメンテーションタスクに適している。
BoxeR-3Dは、鳥眼面から識別情報を生成し、3Dのエンドツーエンド物体検出を行う。
- 参考スコア(独自算出の注目度): 36.03241565421038
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we propose a simple attention mechanism, we call
Box-Attention. It enables spatial interaction between grid features, as sampled
from boxes of interest, and improves the learning capability of transformers
for several vision tasks. Specifically, we present BoxeR, short for Box
Transformer, which attends to a set of boxes by predicting their transformation
from a reference window on an input feature map. The BoxeR computes attention
weights on these boxes by considering its grid structure. Notably, BoxeR-2D
naturally reasons about box information within its attention module, making it
suitable for end-to-end instance detection and segmentation tasks. By learning
invariance to rotation in the box-attention module, BoxeR-3D is capable of
generating discriminative information from a bird-eye-view plane for 3D
end-to-end object detection. Our experiments demonstrate that the proposed
BoxeR-2D achieves better results on COCO detection, and reaches comparable
performance with well-established and highly-optimized Mask R-CNN on COCO
instance segmentation. BoxeR-3D already obtains a compelling performance for
the vehicle category of Waymo Open, without any class-specific optimization.
The code will be released.
- Abstract(参考訳): 本稿では,Box-Attentionと呼ばれるシンプルな注意機構を提案する。
興味のある箱からサンプリングされたグリッド機能間の空間的相互作用を可能にし、複数の視覚タスクにおけるトランスフォーマーの学習能力を向上させる。
具体的には,入力特徴マップ上の参照ウィンドウからの変換を予測して,ボックスセットに随伴するbox transformerの短縮形boxerを提案する。
BoxeRは、これらのボックスの重みをグリッド構造を考慮して計算する。
特にBoxeR-2Dはそのアテンションモジュール内のボックス情報を自然に理由付けており、エンドツーエンドのインスタンス検出とセグメンテーションタスクに適している。
BoxeR-3Dは、ボックスアテンションモジュールの回転に対する不変性を学習することにより、鳥眼面から識別情報を生成し、3次元のエンドツーエンド物体検出を行う。
実験により,提案したBoxeR-2DはCOCO検出の精度が向上し,COCOインスタンスセグメンテーション上でのMask R-CNNと同等の性能を示した。
BoxeR-3Dは、クラス固有の最適化なしに、Waymo Openの車両カテゴリーで魅力的な性能をすでに取得している。
コードはリリースされます。
関連論文リスト
- Boximator: Generating Rich and Controllable Motions for Video Synthesis [12.891562157919237]
Boximatorは、きめ細かいモーションコントロールのための新しいアプローチである。
Boximatorは既存のビデオ拡散モデルのプラグインとして機能する。
最先端のビデオ品質(FVD)スコアを達成し、2つのベースモデルを改善し、ボックス制約を組み込んだ後にさらに強化する。
論文 参考訳(メタデータ) (2024-02-02T16:59:48Z) - Point2RBox: Combine Knowledge from Synthetic Visual Patterns for End-to-end Oriented Object Detection with Single Point Supervision [81.60564776995682]
我々は、ポイント教師付きオブジェクト検出のためのエンドツーエンドソリューションであるPoint2RBoxを提案する。
提案手法は軽量なパラダイムを用いているが,点教師付き代替品間での競合性能を実現する。
特に,本手法は軽量なパラダイムを用いるが,点教師付き代替品間での競合性能を実現する。
論文 参考訳(メタデータ) (2023-11-23T15:57:41Z) - OPA-3D: Occlusion-Aware Pixel-Wise Aggregation for Monocular 3D Object
Detection [51.153003057515754]
OPA-3Dは、Occlusion-Aware Pixel-Wise Aggregationネットワークである。
密集した風景深度と、奥行きのある箱残量と物の境界箱を共同で推定する。
メインカーのカテゴリーでは最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2022-11-02T14:19:13Z) - H2RBox: Horizonal Box Annotation is All You Need for Oriented Object
Detection [63.66553556240689]
オブジェクト指向物体検出は、空中画像から自律運転に至るまで、多くの用途に現れる。
多くの既存の検出ベンチマークには水平バウンディングボックスがアノテートされているが、これはきめ細かな回転ボックスよりもコストが低い。
本稿では,H2RBoxと呼ばれる単純なオブジェクト指向検出手法を提案する。
論文 参考訳(メタデータ) (2022-10-13T05:12:45Z) - CMR3D: Contextualized Multi-Stage Refinement for 3D Object Detection [57.44434974289945]
本稿では,3次元オブジェクト検出(CMR3D)フレームワークのためのコンテキスト型マルチステージリファインメントを提案する。
我々のフレームワークは3Dシーンを入力として取り、シーンの有用なコンテキスト情報を明示的に統合しようと試みている。
3Dオブジェクトの検出に加えて,3Dオブジェクトカウント問題に対するフレームワークの有効性について検討する。
論文 参考訳(メタデータ) (2022-09-13T05:26:09Z) - SRCN3D: Sparse R-CNN 3D for Compact Convolutional Multi-View 3D Object
Detection and Tracking [12.285423418301683]
本稿では,スパースクエリ,ボックスワイズサンプリングによるスパースアテンション,スパース予測を組み込んだ新しい2段フルスパース検出器であるスパースR-CNN3Dを提案する。
nuScenesデータセットの実験では、SRCN3Dは3Dオブジェクト検出とマルチオブジェクト追跡の両方で競合性能を達成している。
論文 参考訳(メタデータ) (2022-06-29T07:58:39Z) - 3D-MAN: 3D Multi-frame Attention Network for Object Detection [22.291051951077485]
3D-MANは、複数の視点から効果的に機能を集約する3Dマルチフレームアテンションネットワークです。
3D-MANは, 単フレームおよび複数フレームの手法と比較して, 最先端の結果が得られることを示す。
論文 参考訳(メタデータ) (2021-03-30T03:44:22Z) - BirdNet+: End-to-End 3D Object Detection in LiDAR Bird's Eye View [117.44028458220427]
自動運転車のオンボード3Dオブジェクト検出は、LiDARデバイスが捉えた幾何学情報に依存することが多い。
本稿では,BEV画像のみから指向性3Dボックスを推測可能な,エンドツーエンドの3Dオブジェクト検出フレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-09T15:08:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。