論文の概要: MLCVNet: Multi-Level Context VoteNet for 3D Object Detection
- arxiv url: http://arxiv.org/abs/2004.05679v1
- Date: Sun, 12 Apr 2020 19:10:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-14 05:42:27.429745
- Title: MLCVNet: Multi-Level Context VoteNet for 3D Object Detection
- Title(参考訳): MLCVNet:3Dオブジェクト検出のためのマルチレベルコンテキスト投票ネット
- Authors: Qian Xie, Yu-Kun Lai, Jing Wu, Zhoutao Wang, Yiming Zhang, Kai Xu, Jun
Wang
- Abstract要約: 我々は,最先端のVoteNet上に構築された3次元オブジェクトを相関的に認識するためのマルチレベルコンテキストVoteNet(MLCVNet)を提案する。
異なるレベルのコンテキスト情報をエンコードするために,VoteNetの投票・分類段階に3つのコンテキストモジュールを導入する。
本手法は,3次元物体検出データセットの精度向上に有効な手法である。
- 参考スコア(独自算出の注目度): 51.45832752942529
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we address the 3D object detection task by capturing
multi-level contextual information with the self-attention mechanism and
multi-scale feature fusion. Most existing 3D object detection methods recognize
objects individually, without giving any consideration on contextual
information between these objects. Comparatively, we propose Multi-Level
Context VoteNet (MLCVNet) to recognize 3D objects correlatively, building on
the state-of-the-art VoteNet. We introduce three context modules into the
voting and classifying stages of VoteNet to encode contextual information at
different levels. Specifically, a Patch-to-Patch Context (PPC) module is
employed to capture contextual information between the point patches, before
voting for their corresponding object centroid points. Subsequently, an
Object-to-Object Context (OOC) module is incorporated before the proposal and
classification stage, to capture the contextual information between object
candidates. Finally, a Global Scene Context (GSC) module is designed to learn
the global scene context. We demonstrate these by capturing contextual
information at patch, object and scene levels. Our method is an effective way
to promote detection accuracy, achieving new state-of-the-art detection
performance on challenging 3D object detection datasets, i.e., SUN RGBD and
ScanNet. We also release our code at https://github.com/NUAAXQ/MLCVNet.
- Abstract(参考訳): 本稿では,マルチスケール特徴融合とセルフアテンション機構を用いて,多レベル文脈情報を取り込むことにより,3次元物体検出課題を解決する。
既存の3dオブジェクト検出手法のほとんどは、オブジェクト間のコンテキスト情報を考慮せずに、オブジェクトを個別に認識する。
本稿では,最先端のVoteNet上に構築された3次元オブジェクトを相関的に認識するためのMLCVNetを提案する。
我々は3つのコンテキストモジュールを投票の段階と分類段階に導入し,異なるレベルのコンテキスト情報をエンコードする。
具体的には、Patch-to-Patch Context(PPC)モジュールを使用して、対応するオブジェクトセントロイドポイントに対して投票する前に、ポイントパッチ間のコンテキスト情報をキャプチャする。
その後、提案と分類段階の前にオブジェクト間コンテキスト(ooc)モジュールが組み込まれ、オブジェクト候補間のコンテキスト情報をキャプチャする。
最後に、グローバルシーンコンテキスト(gsc)モジュールは、グローバルシーンコンテキストを学ぶように設計されている。
パッチやオブジェクト,シーンレベルでコンテキスト情報をキャプチャすることで,これらを実証する。
本手法は,SUN RGBD と ScanNet の3次元オブジェクト検出データセットに対して,検出精度の向上と,新しい最先端検出性能の実現に有効である。
また、コードはhttps://github.com/nuaaxq/mlcvnetでリリースしています。
関連論文リスト
- Global-Local Collaborative Inference with LLM for Lidar-Based Open-Vocabulary Detection [44.92009038111696]
Open-Vocabulary Detection (OVD)は、事前に定義されたオブジェクトクラスなしで、あるシーンですべての興味深いオブジェクトを検出するタスクである。
我々は,ライダーに基づくOVDタスクのためのグローバルローカル協調スキーム(GLIS)を提案する。
グローバルなローカル情報では、Large Language Model (LLM) がチェーン・オブ・シント推論に適用される。
論文 参考訳(メタデータ) (2024-07-12T02:34:11Z) - Chat-Scene: Bridging 3D Scene and Large Language Models with Object Identifiers [65.51132104404051]
オブジェクトレベルのシーンと対話するために、オブジェクト識別子とオブジェクト中心表現を導入する。
我々のモデルは、ScanRefer、Multi3DRefer、Scan2Cap、ScanQA、SQA3Dなど、既存のベンチマーク手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2023-12-13T14:27:45Z) - PatchContrast: Self-Supervised Pre-training for 3D Object Detection [14.603858163158625]
PatchContrastは、3Dオブジェクト検出のための新しい自己教師付きポイントクラウド事前学習フレームワークである。
提案手法は,3つの一般的な3次元検出データセットにおいて,既存の最先端モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-08-14T07:45:54Z) - 3DRP-Net: 3D Relative Position-aware Network for 3D Visual Grounding [58.924180772480504]
3Dビジュアルグラウンドは、自由形式の言語記述によって、ターゲットオブジェクトを3Dポイントクラウドにローカライズすることを目的としている。
3次元相対位置認識ネットワーク(3-Net)という,関係性を考慮した一段階フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-25T09:33:25Z) - Learning Object-level Point Augmentor for Semi-supervised 3D Object
Detection [85.170578641966]
半教師付き3次元オブジェクト検出のための局所変換を行うオブジェクトレベルポイント拡張器(OPA)を提案する。
このようにして、結果のオーグメンタは、無関係なバックグラウンドではなく、オブジェクトインスタンスを強調するように導出されます。
ScanNetとSUN RGB-Dデータセットの実験は、提案したOPAが最先端の手法に対して好適に動作することを示している。
論文 参考訳(メタデータ) (2022-12-19T06:56:14Z) - Contextual Modeling for 3D Dense Captioning on Point Clouds [85.68339840274857]
3Dの高密度キャプションは、新しい視覚言語タスクとして、一組の点雲から各物体を識別し、発見することを目的としている。
我々は,GCM(Global Context Modeling)とLCM(Local Context Modeling)の2つのモジュールを粗い方法で提案する。
提案モデルでは,オブジェクト表現とコンテキスト情報を効果的に特徴付けることができる。
論文 参考訳(メタデータ) (2022-10-08T05:33:00Z) - CMR3D: Contextualized Multi-Stage Refinement for 3D Object Detection [57.44434974289945]
本稿では,3次元オブジェクト検出(CMR3D)フレームワークのためのコンテキスト型マルチステージリファインメントを提案する。
我々のフレームワークは3Dシーンを入力として取り、シーンの有用なコンテキスト情報を明示的に統合しようと試みている。
3Dオブジェクトの検出に加えて,3Dオブジェクトカウント問題に対するフレームワークの有効性について検討する。
論文 参考訳(メタデータ) (2022-09-13T05:26:09Z) - Boundary-Guided Camouflaged Object Detection [20.937071658007255]
カモフラージュ物体検出のための新しい境界誘導ネットワーク(BGNet)を提案する。
提案手法は,CODの表現学習をガイドするために,重要かつ余分なオブジェクト関連エッジセマンティクスを探索する。
提案手法は, 正確な境界位置同定を行うために, カモフラージュした物体の検出を促進する。
論文 参考訳(メタデータ) (2022-07-02T10:48:35Z) - Group-Free 3D Object Detection via Transformers [26.040378025818416]
3Dポイントクラウドから3Dオブジェクトを直接検出するためのシンプルで効果的な方法を紹介します。
本手法は, 点群内のすべての点から物体の特徴を, 変圧器 citevaswaniattention における注意機構の助けを借りて計算する。
ベルやホイッスルが少ないため,ScanNet V2とSUN RGB-Dの2つのベンチマークで最先端の3Dオブジェクト検出性能を実現する。
論文 参考訳(メタデータ) (2021-04-01T17:59:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。