論文の概要: 3DRP-Net: 3D Relative Position-aware Network for 3D Visual Grounding
- arxiv url: http://arxiv.org/abs/2307.13363v1
- Date: Tue, 25 Jul 2023 09:33:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-26 17:45:09.957525
- Title: 3DRP-Net: 3D Relative Position-aware Network for 3D Visual Grounding
- Title(参考訳): 3drp-net:3次元相対位置認識ネットワーク
- Authors: Zehan Wang, Haifeng Huang, Yang Zhao, Linjun Li, Xize Cheng, Yichen
Zhu, Aoxiong Yin, Zhou Zhao
- Abstract要約: 3Dビジュアルグラウンドは、自由形式の言語記述によって、ターゲットオブジェクトを3Dポイントクラウドにローカライズすることを目的としている。
3次元相対位置認識ネットワーク(3-Net)という,関係性を考慮した一段階フレームワークを提案する。
- 参考スコア(独自算出の注目度): 58.924180772480504
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: 3D visual grounding aims to localize the target object in a 3D point cloud by
a free-form language description. Typically, the sentences describing the
target object tend to provide information about its relative relation between
other objects and its position within the whole scene. In this work, we propose
a relation-aware one-stage framework, named 3D Relative Position-aware Network
(3DRP-Net), which can effectively capture the relative spatial relationships
between objects and enhance object attributes. Specifically, 1) we propose a 3D
Relative Position Multi-head Attention (3DRP-MA) module to analyze relative
relations from different directions in the context of object pairs, which helps
the model to focus on the specific object relations mentioned in the sentence.
2) We designed a soft-labeling strategy to alleviate the spatial ambiguity
caused by redundant points, which further stabilizes and enhances the learning
process through a constant and discriminative distribution. Extensive
experiments conducted on three benchmarks (i.e., ScanRefer and Nr3D/Sr3D)
demonstrate that our method outperforms all the state-of-the-art methods in
general. The source code will be released on GitHub.
- Abstract(参考訳): 3dビジュアルグラウンドは、フリーフォーム言語記述によってターゲットオブジェクトを3dポイントクラウドにローカライズすることを目的としている。
通常、対象オブジェクトを記述する文は、他のオブジェクト間の相対的関係とシーン全体の位置に関する情報を提供する傾向にある。
本研究では,オブジェクト間の相対的空間的関係を効果的に捉え,オブジェクト属性を高める3次元相対位置認識ネットワーク(3drp-net)を提案する。
具体的には
1) 3次元相対的位置多頭部注意(DRP-MA)モジュールをオブジェクトペアの文脈で異なる方向から相対関係を解析し,文中の特定のオブジェクト関係に焦点を合わせるのに役立つ。
2) 冗長点に起因する空間的曖昧さを緩和するソフトラベル戦略を考案し, 一定かつ判別的な分布を通じて学習プロセスをさらに安定化し, 強化する。
3つのベンチマーク(scanrefer と nr3d/sr3d)で行った広範囲な実験によって、この手法が最先端のメソッド全般よりも優れていることが示されている。
ソースコードはgithubで公開されている。
関連論文リスト
- R2G: Reasoning to Ground in 3D Scenes [22.917172452931844]
R2G(Reasoning to Ground)は、3Dシーン内の対象物を推論的にグラウンド化するニューラルネットワークのシンボルモデルである。
R2Gは、セマンティックな概念に基づくシーングラフで3Dシーンを明示的にモデル化し、オブジェクトエンティティ間での注意伝達を反復的にシミュレートする。
Sr3D/Nr3Dベンチマークの実験により、R2Gは解釈可能性の向上を維持しつつ、以前の研究と同等の結果を得ることが示された。
論文 参考訳(メタデータ) (2024-08-24T06:52:14Z) - Generating Visual Spatial Description via Holistic 3D Scene
Understanding [88.99773815159345]
視覚空間記述(VSD)は、画像内の対象物の空間的関係を記述するテキストを生成することを目的としている。
外部の3Dシーン抽出器を用いて,入力画像の3Dオブジェクトとシーン特徴を抽出する。
対象物の中心となる3次元空間シーングラフ(Go3D-S2G)を構築し,対象物の空間意味を総合的な3次元シーン内にモデル化する。
論文 参考訳(メタデータ) (2023-05-19T15:53:56Z) - Grounding 3D Object Affordance from 2D Interactions in Images [128.6316708679246]
接地した3Dオブジェクトは、3D空間内のオブジェクトの'アクション可能性'領域を見つけようとする。
人間は、実演画像やビデオを通じて、物理的世界の物体の余裕を知覚する能力を持っている。
我々は、異なるソースからのオブジェクトの領域的特徴を整合させる、インタラクション駆動の3D Affordance Grounding Network (IAG) を考案する。
論文 参考訳(メタデータ) (2023-03-18T15:37:35Z) - Language Conditioned Spatial Relation Reasoning for 3D Object Grounding [87.03299519917019]
自然言語に基づく3Dシーンにおけるオブジェクトのローカライズには,空間的関係の理解と推論が必要である。
本稿では,3次元オブジェクトとその空間関係をグラウンド化するための言語条件付きトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2022-11-17T16:42:39Z) - CMR3D: Contextualized Multi-Stage Refinement for 3D Object Detection [57.44434974289945]
本稿では,3次元オブジェクト検出(CMR3D)フレームワークのためのコンテキスト型マルチステージリファインメントを提案する。
我々のフレームワークは3Dシーンを入力として取り、シーンの有用なコンテキスト情報を明示的に統合しようと試みている。
3Dオブジェクトの検出に加えて,3Dオブジェクトカウント問題に対するフレームワークの有効性について検討する。
論文 参考訳(メタデータ) (2022-09-13T05:26:09Z) - Point2Seq: Detecting 3D Objects as Sequences [58.63662049729309]
我々は、ポイントクラウドから3次元オブジェクトを検出するためのシンプルで効果的なフレームワーク、Point2Seqを提案する。
我々は,各3Dオブジェクトを単語列とみなし,その3Dオブジェクト検出タスクを,自動回帰的に3Dシーンからの単語の復号化として再構成する。
論文 参考訳(メタデータ) (2022-03-25T00:20:31Z) - 3DRM:Pair-wise relation module for 3D object detection [17.757203529615815]
我々は3次元物体検出の曖昧さを軽減できるオブジェクト関係推論によるシーン理解の利点を論じる。
本稿では,ペアレベルのオブジェクト関係を理由として,新しい3次元関係モジュール(DRM)を提案する。
3DRMはオブジェクト間の意味的および空間的関係を予測し、オブジェクト関係の特徴を抽出する。
論文 参考訳(メタデータ) (2022-02-20T03:06:35Z) - OCM3D: Object-Centric Monocular 3D Object Detection [35.804542148335706]
モノクロ3次元物体検出のための新しい物体中心ボクセル表現を提案する。
具体的には、各オブジェクトの提案に基づいてボクセルを構築し、それらのサイズは点の3次元空間分布によって適応的に決定される。
本手法は、最先端の手法を大きなマージンで上回る。
論文 参考訳(メタデータ) (2021-04-13T09:15:40Z) - Object as Hotspots: An Anchor-Free 3D Object Detection Approach via
Firing of Hotspots [37.16690737208046]
オブジェクトレベルのアンカーを用いた既存のメソッドとは逆のアプローチを論じる。
構成モデルに着想を得て、内部の空でないボクセルの組成として、ホットスポットと呼ばれる物体を提案する。
提案手法は,OHSに基づく新しい地中真理割当て戦略を用いたアンカーフリー検出ヘッドを提案する。
論文 参考訳(メタデータ) (2019-12-30T03:02:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。