論文の概要: ARM3D: Attention-based relation module for indoor 3D object detection
- arxiv url: http://arxiv.org/abs/2202.09715v1
- Date: Sun, 20 Feb 2022 02:43:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-23 09:07:26.247435
- Title: ARM3D: Attention-based relation module for indoor 3D object detection
- Title(参考訳): ARM3D:屋内3次元物体検出のための注意に基づく関係モジュール
- Authors: Yuqing Lan, Yao Duan, Chenyi Liu, Chenyang Zhu, Yueshan Xiong, Hui
Huang, Kai Xu
- Abstract要約: 我々は新しい3Dアテンションベース関係モジュール(ARM3D)を提案する。
それは、適格な提案の中からペアワイズ関係のコンテキストを抽出するために、オブジェクト・アウェア関係の推論を含む。
ARM3Dは有用な関係コンテキストを最大限に活用し、関連性の低いコンテキストや混乱したコンテキストをフィルタリングする。
- 参考スコア(独自算出の注目度): 18.58659759308696
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Relation context has been proved to be useful for many challenging vision
tasks. In the field of 3D object detection, previous methods have been taking
the advantage of context encoding, graph embedding, or explicit relation
reasoning to extract relation context. However, there exists inevitably
redundant relation context due to noisy or low-quality proposals. In fact,
invalid relation context usually indicates underlying scene misunderstanding
and ambiguity, which may, on the contrary, reduce the performance in complex
scenes. Inspired by recent attention mechanism like Transformer, we propose a
novel 3D attention-based relation module (ARM3D). It encompasses object-aware
relation reasoning to extract pair-wise relation contexts among qualified
proposals and an attention module to distribute attention weights towards
different relation contexts. In this way, ARM3D can take full advantage of the
useful relation context and filter those less relevant or even confusing
contexts, which mitigates the ambiguity in detection. We have evaluated the
effectiveness of ARM3D by plugging it into several state-of-the-art 3D object
detectors and showing more accurate and robust detection results. Extensive
experiments show the capability and generalization of ARM3D on 3D object
detection. Our source code is available at https://github.com/lanlan96/ARM3D.
- Abstract(参考訳): 関連コンテキストは、多くの困難なビジョンタスクで有用であることが証明されている。
3Dオブジェクト検出の分野では、従来の手法ではコンテキストエンコーディングやグラフ埋め込み、関係コンテキスト抽出のための明示的関係推論といった利点を生かしてきた。
しかし、ノイズや低品質の提案によって必然的に冗長な関係コンテキストが存在する。
実際、無効な関係コンテキストは、通常、下位のシーン誤解と曖昧さを示し、逆に複雑なシーンのパフォーマンスを低下させる可能性がある。
近年のtransformerのような注意機構に触発されて,新しい3次元注意ベース関係モジュール (arm3d) を提案する。
適格な提案間の対関係コンテキストを抽出するオブジェクト指向関係推論と、異なる関係コンテキストに対して注意重みを分配する注意モジュールとを包含する。
このようにして、ARM3Dは有用な関係コンテキストを完全に活用し、関連性の低いコンテキストや混乱したコンテキストをフィルタリングすることで、検出の曖昧さを軽減することができる。
我々は、ARM3Dを最先端の3Dオブジェクト検出器に差し込んで、より正確で堅牢な検出結果を示すことにより、ARM3Dの有効性を評価した。
大規模な実験は、3Dオブジェクト検出におけるARM3Dの機能と一般化を示している。
ソースコードはhttps://github.com/lanlan96/arm3dで入手できます。
関連論文リスト
- 3DRP-Net: 3D Relative Position-aware Network for 3D Visual Grounding [58.924180772480504]
3Dビジュアルグラウンドは、自由形式の言語記述によって、ターゲットオブジェクトを3Dポイントクラウドにローカライズすることを目的としている。
3次元相対位置認識ネットワーク(3-Net)という,関係性を考慮した一段階フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-25T09:33:25Z) - Distilling Coarse-to-Fine Semantic Matching Knowledge for Weakly
Supervised 3D Visual Grounding [58.924180772480504]
3Dビジュアルグラウンドリングは、所定の文クエリに対応する3Dシーンでターゲットオブジェクトを見つけることを含む。
弱教師付きアノテーションを利用して3次元視覚的接地モデルを学ぶことを提案する。
オブジェクトの提案と文のセマンティックな類似性を粗大な方法で解析する新しいセマンティックマッチングモデルを設計する。
論文 参考訳(メタデータ) (2023-07-18T13:49:49Z) - Attention-Based Depth Distillation with 3D-Aware Positional Encoding for
Monocular 3D Object Detection [10.84784828447741]
ADDは、3D対応の位置符号化を備えた注意に基づく深度知識蒸留フレームワークである。
教師の設計によると、私たちのフレームワークはシームレスで、ドメインギャップフリーで、実装が容易で、オブジェクト指向の地層深度と互換性があります。
我々は,3つの代表的な単分子検出器上でのフレームワークを実装し,予測計算コストの増大を伴わず,最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-11-30T06:39:25Z) - Ret3D: Rethinking Object Relations for Efficient 3D Object Detection in
Driving Scenes [82.4186966781934]
Ret3Dと呼ばれるシンプルで効率的で効果的な2段階検出器を導入する。
Ret3Dの中核は、新しいフレーム内およびフレーム間関係モジュールの利用である。
無視できる余分なオーバーヘッドにより、Ret3Dは最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-08-18T03:48:58Z) - Homography Loss for Monocular 3D Object Detection [54.04870007473932]
ホログラフィーロス(Homography Loss)と呼ばれる,2次元情報と3次元情報の両方を利用する識別可能なロス関数を提案する。
提案手法は,KITTI 3Dデータセットにおいて,他の最先端技術と比較して高い性能を示す。
論文 参考訳(メタデータ) (2022-04-02T03:48:03Z) - DisARM: Displacement Aware Relation Module for 3D Detection [38.4380420322491]
Displacement Aware Relation Module (DisARM)は、ポイントクラウドシーンにおける3Dオブジェクト検出の性能を向上させるニューラルネットワークモジュールである。
アンカーを見つけるために,まず,対象性を考慮したサンプリング手法を用いて予備的な関係アンカーモジュールを実行する。
この軽量なリレーショナルモジュールは、最先端検出器に差し込む際にオブジェクトインスタンス検出の精度を著しく向上させる。
論文 参考訳(メタデータ) (2022-03-02T14:49:55Z) - 3DRM:Pair-wise relation module for 3D object detection [17.757203529615815]
我々は3次元物体検出の曖昧さを軽減できるオブジェクト関係推論によるシーン理解の利点を論じる。
本稿では,ペアレベルのオブジェクト関係を理由として,新しい3次元関係モジュール(DRM)を提案する。
3DRMはオブジェクト間の意味的および空間的関係を予測し、オブジェクト関係の特徴を抽出する。
論文 参考訳(メタデータ) (2022-02-20T03:06:35Z) - Progressive Coordinate Transforms for Monocular 3D Object Detection [52.00071336733109]
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
論文 参考訳(メタデータ) (2021-08-12T15:22:33Z) - TransRefer3D: Entity-and-Relation Aware Transformer for Fine-Grained 3D
Visual Grounding [15.617150859765024]
我々はTransformerを、置換不変な3次元点群データに対する自然な適合性に活用する。
本稿では,エンティティとリレーショナルを意識したマルチモーダルコンテキストを抽出するTransRefer3Dネットワークを提案する。
提案手法は既存手法を最大10.6%上回る性能を示した。
論文 参考訳(メタデータ) (2021-08-05T05:47:12Z) - SESS: Self-Ensembling Semi-Supervised 3D Object Detection [138.80825169240302]
具体的には、ラベルのない新しい未知のデータに基づくネットワークの一般化を促進するための、徹底的な摂動スキームを設計する。
我々のSESSは、50%のラベル付きデータを用いて、最先端の完全教師付き手法と比較して、競争性能を達成している。
論文 参考訳(メタデータ) (2019-12-26T08:48:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。