論文の概要: 3DRM:Pair-wise relation module for 3D object detection
- arxiv url: http://arxiv.org/abs/2202.09721v1
- Date: Sun, 20 Feb 2022 03:06:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-23 09:07:03.978843
- Title: 3DRM:Pair-wise relation module for 3D object detection
- Title(参考訳): 3DRM:3Dオブジェクト検出のためのPair-wiseリレーションモジュール
- Authors: Yuqing Lan, Yao Duan, Yifei Shi, Hui Huang, Kai Xu
- Abstract要約: 我々は3次元物体検出の曖昧さを軽減できるオブジェクト関係推論によるシーン理解の利点を論じる。
本稿では,ペアレベルのオブジェクト関係を理由として,新しい3次元関係モジュール(DRM)を提案する。
3DRMはオブジェクト間の意味的および空間的関係を予測し、オブジェクト関係の特徴を抽出する。
- 参考スコア(独自算出の注目度): 17.757203529615815
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Context has proven to be one of the most important factors in object layout
reasoning for 3D scene understanding. Existing deep contextual models either
learn holistic features for context encoding or rely on pre-defined scene
templates for context modeling. We argue that scene understanding benefits from
object relation reasoning, which is capable of mitigating the ambiguity of 3D
object detections and thus helps locate and classify the 3D objects more
accurately and robustly. To achieve this, we propose a novel 3D relation module
(3DRM) which reasons about object relations at pair-wise levels. The 3DRM
predicts the semantic and spatial relationships between objects and extracts
the object-wise relation features. We demonstrate the effects of 3DRM by
plugging it into proposal-based and voting-based 3D object detection pipelines,
respectively. Extensive evaluations show the effectiveness and generalization
of 3DRM on 3D object detection. Our source code is available at
https://github.com/lanlan96/3DRM.
- Abstract(参考訳): コンテキストは3Dシーン理解のためのオブジェクトレイアウト推論において最も重要な要素の1つであることが証明されている。
既存のディープコンテキストモデルは、コンテキストエンコーディングの全体的特徴を学ぶか、コンテキストモデリングのために事前に定義されたシーンテンプレートに依存する。
我々は,3次元オブジェクト検出の曖昧さを軽減し,より正確かつ堅牢な3次元オブジェクトの発見・分類を支援する,オブジェクト関係推論によるシーン理解の利点を論じる。
そこで本研究では,ペアレベルのオブジェクト関係を理由として,新しい3D関係モジュール(DRM)を提案する。
3DRMはオブジェクト間の意味的および空間的関係を予測し、オブジェクト関係の特徴を抽出する。
提案方式と投票方式の3Dオブジェクト検出パイプラインに3DRMを接続することで,その効果を実証する。
広範囲な評価は、3Dオブジェクト検出における3DRMの有効性と一般化を示している。
ソースコードはhttps://github.com/lanlan96/3drmで入手できます。
関連論文リスト
- Multimodal 3D Reasoning Segmentation with Complex Scenes [92.92045550692765]
シーン内の複数のオブジェクトに対する3次元推論セグメンテーションタスクを提案することで,研究ギャップを埋める。
このタスクは、オブジェクト間の3次元空間関係によって強化された3Dセグメンテーションマスクと詳細なテキスト説明を作成することができる。
さらに,ユーザ質問やテキスト出力による多目的3D推論セグメンテーションを可能にする,シンプルで効果的なMORE3Dを設計する。
論文 参考訳(メタデータ) (2024-11-21T08:22:45Z) - Reason3D: Searching and Reasoning 3D Segmentation via Large Language Model [108.35777542298224]
本稿では,包括的3次元理解のための新しい大規模言語モデルReason3Dを紹介する。
拡張シーン内の小さな物体を見つけるための階層型マスクデコーダを提案する。
大規模なScanNetとMatterport3Dデータセットにおいて、Reason3Dが顕著な結果が得られることを検証する。
論文 参考訳(メタデータ) (2024-05-27T17:59:41Z) - PARIS3D: Reasoning-based 3D Part Segmentation Using Large Multimodal Model [19.333506797686695]
本稿では,3次元オブジェクトに対する推論部分分割と呼ばれる新しいセグメンテーションタスクを提案する。
我々は3Dオブジェクトの特定の部分に関する複雑で暗黙的なテキストクエリに基づいてセグメンテーションマスクを出力する。
本稿では,暗黙のテキストクエリに基づいて3次元オブジェクトの一部を分割し,自然言語による説明を生成するモデルを提案する。
論文 参考訳(メタデータ) (2024-04-04T23:38:45Z) - Chat-Scene: Bridging 3D Scene and Large Language Models with Object Identifiers [65.51132104404051]
オブジェクトレベルのシーンと対話するために、オブジェクト識別子とオブジェクト中心表現を導入する。
我々のモデルは、ScanRefer、Multi3DRefer、Scan2Cap、ScanQA、SQA3Dなど、既存のベンチマーク手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2023-12-13T14:27:45Z) - 3DRP-Net: 3D Relative Position-aware Network for 3D Visual Grounding [58.924180772480504]
3Dビジュアルグラウンドは、自由形式の言語記述によって、ターゲットオブジェクトを3Dポイントクラウドにローカライズすることを目的としている。
3次元相対位置認識ネットワーク(3-Net)という,関係性を考慮した一段階フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-25T09:33:25Z) - Attention-Based Depth Distillation with 3D-Aware Positional Encoding for
Monocular 3D Object Detection [10.84784828447741]
ADDは、3D対応の位置符号化を備えた注意に基づく深度知識蒸留フレームワークである。
教師の設計によると、私たちのフレームワークはシームレスで、ドメインギャップフリーで、実装が容易で、オブジェクト指向の地層深度と互換性があります。
我々は,3つの代表的な単分子検出器上でのフレームワークを実装し,予測計算コストの増大を伴わず,最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-11-30T06:39:25Z) - CMR3D: Contextualized Multi-Stage Refinement for 3D Object Detection [57.44434974289945]
本稿では,3次元オブジェクト検出(CMR3D)フレームワークのためのコンテキスト型マルチステージリファインメントを提案する。
我々のフレームワークは3Dシーンを入力として取り、シーンの有用なコンテキスト情報を明示的に統合しようと試みている。
3Dオブジェクトの検出に加えて,3Dオブジェクトカウント問題に対するフレームワークの有効性について検討する。
論文 参考訳(メタデータ) (2022-09-13T05:26:09Z) - Point2Seq: Detecting 3D Objects as Sequences [58.63662049729309]
我々は、ポイントクラウドから3次元オブジェクトを検出するためのシンプルで効果的なフレームワーク、Point2Seqを提案する。
我々は,各3Dオブジェクトを単語列とみなし,その3Dオブジェクト検出タスクを,自動回帰的に3Dシーンからの単語の復号化として再構成する。
論文 参考訳(メタデータ) (2022-03-25T00:20:31Z) - ARM3D: Attention-based relation module for indoor 3D object detection [18.58659759308696]
我々は新しい3Dアテンションベース関係モジュール(ARM3D)を提案する。
それは、適格な提案の中からペアワイズ関係のコンテキストを抽出するために、オブジェクト・アウェア関係の推論を含む。
ARM3Dは有用な関係コンテキストを最大限に活用し、関連性の低いコンテキストや混乱したコンテキストをフィルタリングする。
論文 参考訳(メタデータ) (2022-02-20T02:43:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。