論文の概要: Dense Object Grounding in 3D Scenes
- arxiv url: http://arxiv.org/abs/2309.02224v1
- Date: Tue, 5 Sep 2023 13:27:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-06 14:34:02.748467
- Title: Dense Object Grounding in 3D Scenes
- Title(参考訳): 3dシーンにおける高密度物体の接地
- Authors: Wencan Huang, Daizong Liu, Wei Hu
- Abstract要約: 自然言語のセマンティクスに応じた3Dシーンでのオブジェクトのローカライズは、マルチメディア理解の分野における基本的な重要な課題である。
我々は,1文ではなく,より複雑な段落で記述された複数のオブジェクトを共同でローカライズする3D Dense Object Grounding (3D DOG)を紹介した。
提案した3DOGSFormerは,最先端の3次元単一物体グラウンド法と,その密度オブジェクトの変形率を有意差で上回る。
- 参考スコア(独自算出の注目度): 28.05720194887322
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Localizing objects in 3D scenes according to the semantics of a given natural
language is a fundamental yet important task in the field of multimedia
understanding, which benefits various real-world applications such as robotics
and autonomous driving. However, the majority of existing 3D object grounding
methods are restricted to a single-sentence input describing an individual
object, which cannot comprehend and reason more contextualized descriptions of
multiple objects in more practical 3D cases. To this end, we introduce a new
challenging task, called 3D Dense Object Grounding (3D DOG), to jointly
localize multiple objects described in a more complicated paragraph rather than
a single sentence. Instead of naively localizing each sentence-guided object
independently, we found that dense objects described in the same paragraph are
often semantically related and spatially located in a focused region of the 3D
scene. To explore such semantic and spatial relationships of densely referred
objects for more accurate localization, we propose a novel Stacked Transformer
based framework for 3D DOG, named 3DOGSFormer. Specifically, we first devise a
contextual query-driven local transformer decoder to generate initial grounding
proposals for each target object. Then, we employ a proposal-guided global
transformer decoder that exploits the local object features to learn their
correlation for further refining initial grounding proposals. Extensive
experiments on three challenging benchmarks (Nr3D, Sr3D, and ScanRefer) show
that our proposed 3DOGSFormer outperforms state-of-the-art 3D single-object
grounding methods and their dense-object variants by significant margins.
- Abstract(参考訳): 与えられた自然言語のセマンティクスに従って3Dシーンにオブジェクトをローカライズすることは、マルチメディア理解の分野における基本的な重要なタスクであり、ロボット工学や自律運転といった様々な現実世界の応用に恩恵をもたらす。
しかし、既存の3Dオブジェクトグラウンド法の大部分は、個々のオブジェクトを記述する単一文入力に限られており、より実用的な3Dケースでは、複数のオブジェクトのよりコンテキスト化された記述を理解および推論できない。
この目的のために,1文ではなく,より複雑な段落で記述された複数のオブジェクトを共同でローカライズする3D Dense Object Grounding (3D DOG) という課題を導入した。
各文誘導対象を別々に局所化する代わりに、同じ段落に記述された密接な対象はしばしば意味的に関連し、3dシーンの焦点領域に空間的に位置する。
高密度に参照される物体のそのような意味的・空間的関係を探索し,より正確な位置推定を行うため,我々は3d犬用スタック型トランスフォーマフレームワーク,3dogsformerを提案する。
具体的には、まずコンテキスト型クエリ駆動ローカルトランスフォーマーデコーダを考案し、各対象オブジェクトに対する初期基底提案を生成する。
次に,局所オブジェクトの特徴を生かして相関関係を学習し,初期接地提案をさらに洗練するグローバルトランスフォーマーデコーダを提案する。
3つの挑戦的ベンチマーク(Nr3D, Sr3D, ScanRefer)の大規模な実験により、提案した3DOGSFormerは、最先端の3Dシングルオブジェクトグラウンド法とその密度オブジェクトの変種を大きなマージンで上回っていることが示された。
関連論文リスト
- Multimodal 3D Reasoning Segmentation with Complex Scenes [92.92045550692765]
シーン内の複数のオブジェクトに対する3次元推論セグメンテーションタスクを提案することで,研究ギャップを埋める。
このタスクは、オブジェクト間の3次元空間関係によって強化された3Dセグメンテーションマスクと詳細なテキスト説明を作成することができる。
さらに,ユーザ質問やテキスト出力による多目的3D推論セグメンテーションを可能にする,シンプルで効果的なMORE3Dを設計する。
論文 参考訳(メタデータ) (2024-11-21T08:22:45Z) - Chat-Scene: Bridging 3D Scene and Large Language Models with Object Identifiers [65.51132104404051]
オブジェクトレベルのシーンと対話するために、オブジェクト識別子とオブジェクト中心表現を導入する。
我々のモデルは、ScanRefer、Multi3DRefer、Scan2Cap、ScanQA、SQA3Dなど、既存のベンチマーク手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2023-12-13T14:27:45Z) - Multi3DRefer: Grounding Text Description to Multiple 3D Objects [15.54885309441946]
本稿では,自然言語記述を用いて,現実の3Dシーンにおけるフレキシブルなオブジェクトをローカライズするタスクを紹介する。
我々のデータセットには1609個のオブジェクトの61926の記述が含まれており、0、単、複数個の対象オブジェクトがそれぞれの記述によって参照される。
コントラスト学習による提案をオンラインでレンダリングすることで,CLIPの2D機能を活用したより良いベースラインを構築する。
論文 参考訳(メタデータ) (2023-09-11T06:03:39Z) - Four Ways to Improve Verbo-visual Fusion for Dense 3D Visual Grounding [56.00186960144545]
3Dビジュアルグラウンドティング(3D visual grounding)は、自然言語で記述された3Dシーンでオブジェクトをローカライズするタスクである。
そこで本研究では,高密度な3次元グラウンドネットワークを提案し,グラウンド性能向上を目的とした4つの新しいスタンドアローンモジュールを提案する。
論文 参考訳(メタデータ) (2023-09-08T19:27:01Z) - 3DRP-Net: 3D Relative Position-aware Network for 3D Visual Grounding [58.924180772480504]
3Dビジュアルグラウンドは、自由形式の言語記述によって、ターゲットオブジェクトを3Dポイントクラウドにローカライズすることを目的としている。
3次元相対位置認識ネットワーク(3-Net)という,関係性を考慮した一段階フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-25T09:33:25Z) - CMR3D: Contextualized Multi-Stage Refinement for 3D Object Detection [57.44434974289945]
本稿では,3次元オブジェクト検出(CMR3D)フレームワークのためのコンテキスト型マルチステージリファインメントを提案する。
我々のフレームワークは3Dシーンを入力として取り、シーンの有用なコンテキスト情報を明示的に統合しようと試みている。
3Dオブジェクトの検出に加えて,3Dオブジェクトカウント問題に対するフレームワークの有効性について検討する。
論文 参考訳(メタデータ) (2022-09-13T05:26:09Z) - Looking Outside the Box to Ground Language in 3D Scenes [27.126171549887232]
本稿では,3つの主要な革新を伴う3次元シーンにおける接地言語モデルを提案する。
言語ストリーム、ポイントクラウド機能ストリーム、および3Dボックスの提案に反復的に注目する。
3Dオブジェクトアノテーションと言語基底アノテーションからの共同管理。
マイナーな変更を伴う2Dイメージの言語基盤に適用すると、GPU時間の半分に収束しながら、最先端の処理と同等に動作します。
論文 参考訳(メタデータ) (2021-12-16T13:50:23Z) - LanguageRefer: Spatial-Language Model for 3D Visual Grounding [72.7618059299306]
3次元視覚的グラウンドリング問題に対する空間言語モデルを構築した。
本稿では,ReferIt3Dが提案する視覚言語データセットに対して,本モデルが競合的に動作することを示す。
論文 参考訳(メタデータ) (2021-07-07T18:55:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。