論文の概要: GroundFlow: A Plug-in Module for Temporal Reasoning on 3D Point Cloud Sequential Grounding
- arxiv url: http://arxiv.org/abs/2506.21188v1
- Date: Thu, 26 Jun 2025 12:47:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-27 19:53:10.080595
- Title: GroundFlow: A Plug-in Module for Temporal Reasoning on 3D Point Cloud Sequential Grounding
- Title(参考訳): GroundFlow: 3Dポイントクラウドシークエンシャルグラウンド上での時間推論のためのプラグインモジュール
- Authors: Zijun Lin, Shuting He, Cheston Tan, Bihan Wen,
- Abstract要約: 3次元点雲(SG3D)における連続的な接地は、詳細なステップで日々の作業のためにテキスト命令に従うことによって、オブジェクトのシーケンスを探索することを指す。
現在の3Dビジュアルグラウンド法では,各ステップから有用な時間情報を抽出することなく,複数のステップでテキスト命令を処理している。
GroundFlow - 3Dポイントクラウドシーケンシャルグラウンド上での時間的推論のためのプラグインモジュール。
- 参考スコア(独自算出の注目度): 26.430390282267062
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sequential grounding in 3D point clouds (SG3D) refers to locating sequences of objects by following text instructions for a daily activity with detailed steps. Current 3D visual grounding (3DVG) methods treat text instructions with multiple steps as a whole, without extracting useful temporal information from each step. However, the instructions in SG3D often contain pronouns such as "it", "here" and "the same" to make language expressions concise. This requires grounding methods to understand the context and retrieve relevant information from previous steps to correctly locate object sequences. Due to the lack of an effective module for collecting related historical information, state-of-the-art 3DVG methods face significant challenges in adapting to the SG3D task. To fill this gap, we propose GroundFlow -- a plug-in module for temporal reasoning on 3D point cloud sequential grounding. Firstly, we demonstrate that integrating GroundFlow improves the task accuracy of 3DVG baseline methods by a large margin (+7.5\% and +10.2\%) in the SG3D benchmark, even outperforming a 3D large language model pre-trained on various datasets. Furthermore, we selectively extract both short-term and long-term step information based on its relevance to the current instruction, enabling GroundFlow to take a comprehensive view of historical information and maintain its temporal understanding advantage as step counts increase. Overall, our work introduces temporal reasoning capabilities to existing 3DVG models and achieves state-of-the-art performance in the SG3D benchmark across five datasets.
- Abstract(参考訳): 3次元点雲(SG3D)における連続的な接地は、詳細なステップで日々の作業のためにテキスト命令に従うことによって、オブジェクトのシーケンスを探索することを指す。
現在の3Dビジュアルグラウンドティング(3DVG)法では、各ステップから有用な時間情報を抽出することなく、複数のステップでテキスト命令を処理している。
しかし、SG3Dの命令には「it」、「here」、「the same」といった代名詞が含まれており、言語表現を簡潔にしている。
これは、コンテキストを理解し、オブジェクトのシーケンスを正しく見つけるために、以前のステップから関連する情報を取得するための基礎的な方法を必要とする。
関連する歴史的情報を収集するための効果的なモジュールがないため、最先端の3DVG手法はSG3Dタスクに適応する上で重大な課題に直面している。
このギャップを埋めるために、3Dポイントクラウドシーケンシャルグラウンドで時間的推論を行うプラグインモジュールであるGroundFlowを提案する。
まず、SG3Dベンチマークにおいて、3DVGベースライン手法のタスク精度を3DVGベースライン手法のタスクマージン(+7.5\%および+10.2\%)で向上させることを示した。
さらに,現在の指導と関係性に基づいて,短期段階情報と長期段階情報の両方を選択的に抽出し,ステップ数が増加するにつれて,GroundFlowは過去の情報を総合的に把握し,その時間的理解の優位性を維持することができる。
全体として、既存の3DVGモデルに時間的推論機能を導入し、5つのデータセットにわたるSG3Dベンチマークで最先端のパフォーマンスを実現する。
関連論文リスト
- Task-oriented Sequential Grounding and Navigation in 3D Scenes [33.740081195089964]
3D環境における自然言語の接地は、堅牢な3Dビジョン言語アライメントを実現するための重要なステップである。
本研究では,3次元シーンにおけるタスク指向の逐次的グラウンドとナビゲーションという,新しいタスクを紹介する。
SG3Dは22,346のタスクと112,236のステップからなる大規模データセットで、4,895の現実世界の3Dシーンにまたがる。
論文 参考訳(メタデータ) (2024-08-07T18:30:18Z) - MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations [55.022519020409405]
本稿では,マルチモーダルな3Dシーンデータセットと階層型言語アノテーションを用いたベンチマーク,MMScanを構築した。
結果として得られたマルチモーダルな3Dデータセットは、109kオブジェクトと7.7kリージョン上の1.4Mメタアノテーション付きキャプションと、3Dビジュアルグラウンドと質問応答ベンチマークのための3.04M以上の多様なサンプルを含んでいる。
論文 参考訳(メタデータ) (2024-06-13T17:59:30Z) - Grounded 3D-LLM with Referent Tokens [58.890058568493096]
そこで我々は,Grounded 3D-LLMを提案する。
このモデルは、3Dシーンを参照するために特別な名詞句としてシーン参照トークンを使用する。
タスクごとの指示追従テンプレートは、3D視覚タスクを言語形式に翻訳する際の自然と多様性を保証するために使用される。
論文 参考訳(メタデータ) (2024-05-16T18:03:41Z) - DatasetNeRF: Efficient 3D-aware Data Factory with Generative Radiance Fields [68.94868475824575]
本稿では,無限で高品質な3Dアノテーションを3Dポイントクラウドセグメンテーションとともに生成できる新しいアプローチを提案する。
我々は3次元生成モデルに先立って強力なセマンティクスを活用してセマンティクスデコーダを訓練する。
トレーニングが完了すると、デコーダは遅延空間を効率よく一般化し、無限のデータの生成を可能にする。
論文 参考訳(メタデータ) (2023-11-18T21:58:28Z) - Toward Explainable and Fine-Grained 3D Grounding through Referring
Textual Phrases [35.18565109770112]
3DPAGタスクは, 対象オブジェクトを3Dシーンでローカライズすることを目的として, 全てのフレーズ関連オブジェクトを明示的に識別し, 文脈的フレーズに従って推論を行う。
データセットをタップすることで、従来の3DVGメソッドを粒度の細かいフレーズ認識シナリオに拡張できます。
その結果,Nr3D,Sr3D,ScanReferの3.9%,3.5%,4.6%の精度向上が得られた。
論文 参考訳(メタデータ) (2022-07-05T05:50:12Z) - H3D: Benchmark on Semantic Segmentation of High-Resolution 3D Point
Clouds and textured Meshes from UAV LiDAR and Multi-View-Stereo [4.263987603222371]
本稿では,3つの方法でユニークな3次元データセットを提案する。
ヘシグハイム(ドイツ語: Hessigheim, H3D)は、ドイツの都市。
片手で3次元データ分析の分野での研究を促進するとともに、新しいアプローチの評価とランク付けを目的としている。
論文 参考訳(メタデータ) (2021-02-10T09:33:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。