論文の概要: BoxeR: Box-Attention for 2D and 3D Transformers
- arxiv url: http://arxiv.org/abs/2111.13087v1
- Date: Thu, 25 Nov 2021 13:54:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-30 07:23:22.211686
- Title: BoxeR: Box-Attention for 2D and 3D Transformers
- Title(参考訳): BoxeR:2Dおよび3Dトランスのためのボックスアテンション
- Authors: Duy-Kien Nguyen, Jihong Ju, Olaf Booji, Martin R. Oswald, Cees G. M.
Snoek
- Abstract要約: 入力特徴写像上の参照ウィンドウからの変換を予測し,ボックスの集合に付随するボックストランスフォーマーの略であるBoxeRを提案する。
BoxeR-2Dはそのアテンションモジュール内のボックス情報を自然に理由付け、エンドツーエンドのインスタンス検出とセグメンテーションタスクに適している。
BoxeR-3Dは、鳥眼面から識別情報を生成し、3Dのエンドツーエンド物体検出を行う。
- 参考スコア(独自算出の注目度): 36.03241565421038
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we propose a simple attention mechanism, we call
Box-Attention. It enables spatial interaction between grid features, as sampled
from boxes of interest, and improves the learning capability of transformers
for several vision tasks. Specifically, we present BoxeR, short for Box
Transformer, which attends to a set of boxes by predicting their transformation
from a reference window on an input feature map. The BoxeR computes attention
weights on these boxes by considering its grid structure. Notably, BoxeR-2D
naturally reasons about box information within its attention module, making it
suitable for end-to-end instance detection and segmentation tasks. By learning
invariance to rotation in the box-attention module, BoxeR-3D is capable of
generating discriminative information from a bird-eye-view plane for 3D
end-to-end object detection. Our experiments demonstrate that the proposed
BoxeR-2D achieves better results on COCO detection, and reaches comparable
performance with well-established and highly-optimized Mask R-CNN on COCO
instance segmentation. BoxeR-3D already obtains a compelling performance for
the vehicle category of Waymo Open, without any class-specific optimization.
The code will be released.
- Abstract(参考訳): 本稿では,Box-Attentionと呼ばれるシンプルな注意機構を提案する。
興味のある箱からサンプリングされたグリッド機能間の空間的相互作用を可能にし、複数の視覚タスクにおけるトランスフォーマーの学習能力を向上させる。
具体的には,入力特徴マップ上の参照ウィンドウからの変換を予測して,ボックスセットに随伴するbox transformerの短縮形boxerを提案する。
BoxeRは、これらのボックスの重みをグリッド構造を考慮して計算する。
特にBoxeR-2Dはそのアテンションモジュール内のボックス情報を自然に理由付けており、エンドツーエンドのインスタンス検出とセグメンテーションタスクに適している。
BoxeR-3Dは、ボックスアテンションモジュールの回転に対する不変性を学習することにより、鳥眼面から識別情報を生成し、3次元のエンドツーエンド物体検出を行う。
実験により,提案したBoxeR-2DはCOCO検出の精度が向上し,COCOインスタンスセグメンテーション上でのMask R-CNNと同等の性能を示した。
BoxeR-3Dは、クラス固有の最適化なしに、Waymo Openの車両カテゴリーで魅力的な性能をすでに取得している。
コードはリリースされます。
関連論文リスト
- Boximator: Generating Rich and Controllable Motions for Video Synthesis [12.891562157919237]
Boximatorは、きめ細かいモーションコントロールのための新しいアプローチである。
Boximatorは既存のビデオ拡散モデルのプラグインとして機能する。
最先端のビデオ品質(FVD)スコアを達成し、2つのベースモデルを改善し、ボックス制約を組み込んだ後にさらに強化する。
論文 参考訳(メタデータ) (2024-02-02T16:59:48Z) - Point2RBox: Combine Knowledge from Synthetic Visual Patterns for
End-to-end Oriented Object Detection with Single Point Supervision [80.386636238141]
本稿では,ポイント教師付きオブジェクト検出のためのPoint2RBoxという手法を提案する。
提案手法は軽量なパラダイムを用いているが,点教師付き代替品間での競合性能を実現する。
特に,本手法は軽量なパラダイムを用いるが,点教師付き代替品間での競合性能を実現する。
論文 参考訳(メタデータ) (2023-11-23T15:57:41Z) - P2RBox: A Single Point is All You Need for Oriented Object Detection [30.216854353102608]
我々はP2RBoxネットワークを導入し、ポイントアノテーションとマスクジェネレータを利用してマスクの提案を作成する。
高品質のマスクは、完全に監視された検出器を訓練するために回転したボックスアノテーションに変換される。
P2RBoxは、RetinaNet、Rotated FCOS、Oriented R-CNNという、完全に制御された3つのオブジェクト検出器とうまく機能する。
論文 参考訳(メタデータ) (2023-11-22T03:33:00Z) - Model-Agnostic Hierarchical Attention for 3D Object Detection [81.33112745926113]
変圧器を用いた3次元検出器のためのモジュラー化階層設計として,2つの新しい注意機構を提案する。
異なるスケールで機能学習を可能にするために,単一スケールの入力機能から複数スケールのトークンを構築するシンプルなマルチスケールアテンションを提案する。
局所的特徴集約のために,各バウンディングボックスの提案に対して適応的なアテンション範囲を持つサイズ適応型局所アテンションを提案する。
論文 参考訳(メタデータ) (2023-01-06T18:52:12Z) - OPA-3D: Occlusion-Aware Pixel-Wise Aggregation for Monocular 3D Object
Detection [51.153003057515754]
OPA-3Dは、Occlusion-Aware Pixel-Wise Aggregationネットワークである。
密集した風景深度と、奥行きのある箱残量と物の境界箱を共同で推定する。
メインカーのカテゴリーでは最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2022-11-02T14:19:13Z) - H2RBox: Horizonal Box Annotation is All You Need for Oriented Object
Detection [63.66553556240689]
オブジェクト指向物体検出は、空中画像から自律運転に至るまで、多くの用途に現れる。
多くの既存の検出ベンチマークには水平バウンディングボックスがアノテートされているが、これはきめ細かな回転ボックスよりもコストが低い。
本稿では,H2RBoxと呼ばれる単純なオブジェクト指向検出手法を提案する。
論文 参考訳(メタデータ) (2022-10-13T05:12:45Z) - CMR3D: Contextualized Multi-Stage Refinement for 3D Object Detection [57.44434974289945]
本稿では,3次元オブジェクト検出(CMR3D)フレームワークのためのコンテキスト型マルチステージリファインメントを提案する。
我々のフレームワークは3Dシーンを入力として取り、シーンの有用なコンテキスト情報を明示的に統合しようと試みている。
3Dオブジェクトの検出に加えて,3Dオブジェクトカウント問題に対するフレームワークの有効性について検討する。
論文 参考訳(メタデータ) (2022-09-13T05:26:09Z) - SRCN3D: Sparse R-CNN 3D for Compact Convolutional Multi-View 3D Object
Detection and Tracking [12.285423418301683]
本稿では,スパースクエリ,ボックスワイズサンプリングによるスパースアテンション,スパース予測を組み込んだ新しい2段フルスパース検出器であるスパースR-CNN3Dを提案する。
nuScenesデータセットの実験では、SRCN3Dは3Dオブジェクト検出とマルチオブジェクト追跡の両方で競合性能を達成している。
論文 参考訳(メタデータ) (2022-06-29T07:58:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。