論文の概要: Free-form Description Guided 3D Visual Graph Network for Object
Grounding in Point Cloud
- arxiv url: http://arxiv.org/abs/2103.16381v1
- Date: Tue, 30 Mar 2021 14:22:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-31 14:52:28.027105
- Title: Free-form Description Guided 3D Visual Graph Network for Object
Grounding in Point Cloud
- Title(参考訳): ポイントクラウドにおける物体接地のためのフリーフォーム記述誘導3次元ビジュアルグラフネットワーク
- Authors: Mingtao Feng, Zhen Li, Qi Li, Liang Zhang, XiangDong Zhang, Guangming
Zhu, Hui Zhang, Yaonan Wang and Ajmal Mian
- Abstract要約: 3dオブジェクトのグラウンド化は、フリーフォーム言語記述に基づいて、生のポイントクラウドシーンで最も関連するターゲットオブジェクトを見つけることを目的としている。
豊かな構造と長距離句相関を捉えるための言語シーングラフモジュールを提案する。
次に,オブジェクト-オブジェクト間およびオブジェクト-シーン間共起関係を抽出するために,多レベル3次元提案関係グラフモジュールを提案する。
- 参考スコア(独自算出の注目度): 39.055928838826226
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D object grounding aims to locate the most relevant target object in a raw
point cloud scene based on a free-form language description. Understanding
complex and diverse descriptions, and lifting them directly to a point cloud is
a new and challenging topic due to the irregular and sparse nature of point
clouds. There are three main challenges in 3D object grounding: to find the
main focus in the complex and diverse description; to understand the point
cloud scene; and to locate the target object. In this paper, we address all
three challenges. Firstly, we propose a language scene graph module to capture
the rich structure and long-distance phrase correlations. Secondly, we
introduce a multi-level 3D proposal relation graph module to extract the
object-object and object-scene co-occurrence relationships, and strengthen the
visual features of the initial proposals. Lastly, we develop a description
guided 3D visual graph module to encode global contexts of phrases and
proposals by a nodes matching strategy. Extensive experiments on challenging
benchmark datasets (ScanRefer and Nr3D) show that our algorithm outperforms
existing state-of-the-art. Our code is available at
https://github.com/PNXD/FFL-3DOG.
- Abstract(参考訳): 3dオブジェクトのグラウンド化は、フリーフォーム言語記述に基づいて、生のポイントクラウドシーンで最も関連するターゲットオブジェクトを見つけることを目的としている。
複雑で多様な記述を理解し、それらをポイントクラウドに直接持ち上げることは、ポイントクラウドの不規則でスパースな性質のため、新しくて挑戦的なトピックです。
3dオブジェクトのグラウンド化には3つの大きな課題がある: 複雑で多様な記述の焦点を見つけること、ポイントクラウドのシーンを理解すること、ターゲットオブジェクトを見つけること。
本稿では,3つの課題に対処する。
まず,リッチな構造と長距離句の相関関係を抽出する言語シーングラフモジュールを提案する。
次に,オブジェクト・オブジェクトとオブジェクト・シーンの共起関係を抽出し,最初の提案の視覚的特徴を強化するための多レベル3次元提案関係グラフモジュールを提案する。
最後に,節と提案のグローバルコンテキストをノードマッチング戦略によって符号化する3次元ビジュアルグラフモジュールについて述べる。
挑戦的なベンチマークデータセット(ScanReferとNr3D)に関する大規模な実験により、我々のアルゴリズムは既存の最先端のアルゴリズムよりも優れていることが示された。
私たちのコードはhttps://github.com/pnxd/ffl-3dogで利用可能です。
関連論文リスト
- Open-Vocabulary Octree-Graph for 3D Scene Understanding [54.11828083068082]
Octree-Graphはオープンな3Dシーン理解のための新しいシーン表現である。
セマンティクスを記憶し、その形状に応じてオブジェクトの占有度を調節するアダプティブ・オクツリー構造を開発する。
論文 参考訳(メタデータ) (2024-11-25T10:14:10Z) - Open3DSG: Open-Vocabulary 3D Scene Graphs from Point Clouds with Queryable Objects and Open-Set Relationships [15.513180297629546]
ラベル付きシーングラフデータを必要としないオープンな世界で3次元シーングラフを学習するための代替手法であるOpen3DSGを提案する。
我々は,3次元シーングラフ予測バックボーンの機能を,強力なオープンワールド2Dビジョン言語基盤モデルの特徴空間と組み合わせた。
論文 参考訳(メタデータ) (2024-02-19T16:15:03Z) - TeMO: Towards Text-Driven 3D Stylization for Multi-Object Meshes [67.5351491691866]
我々は,多目的3Dシーンを解析し,そのスタイルを編集する,TeMOと呼ばれる新しいフレームワークを提案する。
提案手法は,高品質なスタイリングコンテンツを合成し,多目的3Dメッシュで既存手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-12-07T12:10:05Z) - 3DRP-Net: 3D Relative Position-aware Network for 3D Visual Grounding [58.924180772480504]
3Dビジュアルグラウンドは、自由形式の言語記述によって、ターゲットオブジェクトを3Dポイントクラウドにローカライズすることを目的としている。
3次元相対位置認識ネットワーク(3-Net)という,関係性を考慮した一段階フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-25T09:33:25Z) - Joint Representation Learning for Text and 3D Point Cloud [35.67281936143821]
言語誘導型3Dポイントクラウドモデルを構築するための新しいText4Pointフレームワークを提案する。
提案されたText4Pointは、事前トレーニングと微調整のパラダイムに従っている。
我々のモデルは、ポイントクラウドセマンティックセグメンテーション、インスタンスセグメンテーション、オブジェクト検出など、さまざまなダウンストリームタスクにおいて一貫した改善を示す。
論文 参考訳(メタデータ) (2023-01-18T15:02:07Z) - Contextual Modeling for 3D Dense Captioning on Point Clouds [85.68339840274857]
3Dの高密度キャプションは、新しい視覚言語タスクとして、一組の点雲から各物体を識別し、発見することを目的としている。
我々は,GCM(Global Context Modeling)とLCM(Local Context Modeling)の2つのモジュールを粗い方法で提案する。
提案モデルでは,オブジェクト表現とコンテキスト情報を効果的に特徴付けることができる。
論文 参考訳(メタデータ) (2022-10-08T05:33:00Z) - EDA: Explicit Text-Decoupling and Dense Alignment for 3D Visual
Grounding [4.447173454116189]
3Dビジュアルグラウンドティングは、リッチなセマンティックキューを備えた自由形式の自然言語記述によって言及されているポイントクラウド内のオブジェクトを見つけることを目的としている。
文中のテキスト属性を明示的に分離するEDAを提案する。
さらに、オブジェクト名を含まないオブジェクトを位置決めする新しい視覚的接地タスクを導入し、モデルの高密度アライメント能力を徹底的に評価する。
論文 参考訳(メタデータ) (2022-09-29T17:00:22Z) - Single Image 3D Object Estimation with Primitive Graph Networks [30.315124364682994]
1つの画像から3Dオブジェクトを再構成することは、視覚的シーン理解の基本的な問題である。
プリミティブに基づく3次元オブジェクト推定のための2段階グラフネットワークを提案する。
ステージワイズ戦略でグラフニューラルネットワーク全体をトレーニングし、Pix3D、ModelNet、NYU Depth V2の3つのベンチマークで評価する。
論文 参考訳(メタデータ) (2021-09-09T10:28:37Z) - Learning 3D Semantic Scene Graphs from 3D Indoor Reconstructions [94.17683799712397]
我々は、グラフ内のシーンのエンティティを整理するデータ構造であるシーングラフに焦点を当てる。
本研究では,シーンの点雲からシーングラフを回帰する学習手法を提案する。
本稿では,3D-3Dおよび2D-3Dマッチングの中間表現としてグラフが機能するドメインに依存しない検索タスクにおける本手法の適用について述べる。
論文 参考訳(メタデータ) (2020-04-08T12:25:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。