論文の概要: 3D-SPS: Single-Stage 3D Visual Grounding via Referred Point Progressive
Selection
- arxiv url: http://arxiv.org/abs/2204.06272v1
- Date: Wed, 13 Apr 2022 09:46:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-14 13:23:41.677404
- Title: 3D-SPS: Single-Stage 3D Visual Grounding via Referred Point Progressive
Selection
- Title(参考訳): 3D-SPS: Referred Point Progressive Selectionによるワンステージ3次元視覚グラウンド
- Authors: Junyu Luo, Jiahui Fu, Xianghao Kong, Chen Gao, Haibing Ren, Hao Shen,
Huaxia Xia, Si Liu
- Abstract要約: 3Dビジュアルグラウンドは、自由形式の言語記述に従って、3Dポイントクラウドシーンで参照対象物を見つけることを目的としている。
従来の手法は主に2段階のパラダイム、すなわち言語非関連検出とクロスモーダルマッチングに従う。
本稿では,言語指導を用いてキーポイントを段階的に選択し,ターゲットを直接特定する3Dシングルステージ参照ポイントプログレッシブ選択法を提案する。
- 参考スコア(独自算出の注目度): 35.5386998382886
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D visual grounding aims to locate the referred target object in 3D point
cloud scenes according to a free-form language description. Previous methods
mostly follow a two-stage paradigm, i.e., language-irrelevant detection and
cross-modal matching, which is limited by the isolated architecture. In such a
paradigm, the detector needs to sample keypoints from raw point clouds due to
the inherent properties of 3D point clouds (irregular and large-scale), to
generate the corresponding object proposal for each keypoint. However, sparse
proposals may leave out the target in detection, while dense proposals may
confuse the matching model. Moreover, the language-irrelevant detection stage
can only sample a small proportion of keypoints on the target, deteriorating
the target prediction. In this paper, we propose a 3D Single-Stage Referred
Point Progressive Selection (3D-SPS) method, which progressively selects
keypoints with the guidance of language and directly locates the target.
Specifically, we propose a Description-aware Keypoint Sampling (DKS) module to
coarsely focus on the points of language-relevant objects, which are
significant clues for grounding. Besides, we devise a Target-oriented
Progressive Mining (TPM) module to finely concentrate on the points of the
target, which is enabled by progressive intra-modal relation modeling and
inter-modal target mining. 3D-SPS bridges the gap between detection and
matching in the 3D visual grounding task, localizing the target at a single
stage. Experiments demonstrate that 3D-SPS achieves state-of-the-art
performance on both ScanRefer and Nr3D/Sr3D datasets.
- Abstract(参考訳): 3dビジュアルグラウンドは、フリーフォーム言語記述に従って、参照対象オブジェクトを3dポイントクラウドシーンに配置することを目的としている。
以前の手法は、主に2段階のパラダイム、すなわち孤立したアーキテクチャによって制限された言語非関係検出とクロスモーダルマッチングに従う。
このようなパラダイムでは、検出器は3次元点雲(不規則かつ大規模)の性質から生の点雲からキーポイントをサンプリングし、各キーポイントに対して対応するオブジェクトの提案を生成する必要がある。
しかし、スパースの提案は検出対象を除外し、密接な提案はマッチングモデルを混乱させる可能性がある。
さらに、言語非関連検出段階は、ターゲット上のキーポイントのごく一部しかサンプリングできず、ターゲット予測が劣化する。
本稿では,言語指導によりキーポイントを段階的に選択し,直接目標を特定できる3次元単段参照点プログレッシブセレクション(3d-sps)法を提案する。
具体的には,記述対応キーポイントサンプリング(DKS)モジュールを提案する。
さらに、ターゲット指向のプログレッシブマイニング(TPM)モジュールを考案し、ターゲットのポイントを微妙に集中させ、プログレッシブ・モーダル・リレーショナル・モデリングとモーダル・ターゲットマイニングによって実現した。
3D-SPSは、3D視覚グラウンドタスクにおける検出とマッチングのギャップを埋め、ターゲットを1つのステージに配置する。
実験によると、3D-SPSはScanReferとNr3D/Sr3Dデータセットの両方で最先端のパフォーマンスを実現する。
関連論文リスト
- Open-Vocabulary Point-Cloud Object Detection without 3D Annotation [62.18197846270103]
オープン語彙の3Dポイントクラウド検出の目的は、任意のテキスト記述に基づいて新しいオブジェクトを識別することである。
様々な物体を局所化するための一般的な表現を学習できる点クラウド検出器を開発した。
また,画像,点雲,テキストのモダリティを結合する,非偏差三重項クロスモーダルコントラスト学習を提案する。
論文 参考訳(メタデータ) (2023-04-03T08:22:02Z) - PSA-Det3D: Pillar Set Abstraction for 3D object Detection [14.788139868324155]
我々は,小物体の検出性能を向上させるために,柱集合抽象化(PSA)と前景点補償(FPC)を提案する。
KITTI 3D 検出ベンチマーク実験の結果,提案した PSA-Det3D は他のアルゴリズムよりも高い精度で小物体検出を行うことができた。
論文 参考訳(メタデータ) (2022-10-20T03:05:34Z) - ProposalContrast: Unsupervised Pre-training for LiDAR-based 3D Object
Detection [114.54835359657707]
ProposalContrastは、教師なしのポイントクラウド事前トレーニングフレームワークである。
地域提案と対比することで、堅牢な3D表現を学習する。
ProposalContrastは様々な3D検出器で検証される。
論文 参考訳(メタデータ) (2022-07-26T04:45:49Z) - RBGNet: Ray-based Grouping for 3D Object Detection [104.98776095895641]
本稿では,点雲からの正確な3次元物体検出のための投票型3次元検出器RBGNetフレームワークを提案する。
決定された光線群を用いて物体表面上の点方向の特徴を集約する。
ScanNet V2 と SUN RGB-D による最先端の3D 検出性能を実現する。
論文 参考訳(メタデータ) (2022-04-05T14:42:57Z) - SASA: Semantics-Augmented Set Abstraction for Point-based 3D Object
Detection [78.90102636266276]
SASA(Semantics-Augmented Set Abstraction)と呼ばれる新しい集合抽象化手法を提案する。
そこで本研究では, 推定点前景スコアに基づいて, より重要な前景点の維持を支援するセマンティックス誘導点サンプリングアルゴリズムを提案する。
実際には、SASAは、前景オブジェクトに関連する貴重な点を識別し、ポイントベースの3D検出のための特徴学習を改善するのに有効である。
論文 参考訳(メタデータ) (2022-01-06T08:54:47Z) - Group-Free 3D Object Detection via Transformers [26.040378025818416]
3Dポイントクラウドから3Dオブジェクトを直接検出するためのシンプルで効果的な方法を紹介します。
本手法は, 点群内のすべての点から物体の特徴を, 変圧器 citevaswaniattention における注意機構の助けを借りて計算する。
ベルやホイッスルが少ないため,ScanNet V2とSUN RGB-Dの2つのベンチマークで最先端の3Dオブジェクト検出性能を実現する。
論文 参考訳(メタデータ) (2021-04-01T17:59:36Z) - M3DSSD: Monocular 3D Single Stage Object Detector [82.25793227026443]
特徴アライメントと非対称非局所的注意を有するモノクロ3次元単段物体検出器(M3DSSD)を提案する。
提案したM3DSSDは,KITTIデータセット上のモノラルな3Dオブジェクト検出手法よりも大幅に性能が向上する。
論文 参考訳(メタデータ) (2021-03-24T13:09:11Z) - Reinforced Axial Refinement Network for Monocular 3D Object Detection [160.34246529816085]
モノクロ3次元物体検出は、2次元入力画像から物体の位置と特性を抽出することを目的としている。
従来のアプローチでは、空間から3D境界ボックスをサンプリングし、対象オブジェクトと各オブジェクトの関係を推定するが、有効サンプルの確率は3D空間で比較的小さい。
我々は,まず最初の予測から始めて,各ステップで1つの3dパラメータだけを変えて,基礎的真理に向けて徐々に洗練することを提案する。
これは、いくつかのステップの後に報酬を得るポリシーを設計する必要があるため、最適化するために強化学習を採用します。
論文 参考訳(メタデータ) (2020-08-31T17:10:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。