論文の概要: FreeQ-Graph: Free-form Querying with Semantic Consistent Scene Graph for 3D Scene Understanding
- arxiv url: http://arxiv.org/abs/2506.13629v1
- Date: Mon, 16 Jun 2025 15:56:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:48.89431
- Title: FreeQ-Graph: Free-form Querying with Semantic Consistent Scene Graph for 3D Scene Understanding
- Title(参考訳): FreeQ-Graph:3次元シーン理解のためのセマンティック一貫性シーングラフによるフリーフォームクエリ
- Authors: Chenlu Zhan, Gaoang Wang, Hongwei Wang,
- Abstract要約: FreeQ-Graphは、事前に定義された語彙なしで、完全で正確な3Dシーングラフから自由形式のクエリをエンコードする。
グラフノードを正確なセマンティックラベルと整合し、マージしたスーパーポイントの3次元セマンティックアライメント機能を活用する。
我々のモデルは、複雑な自由形式のセマンティッククエリと複雑なリレーショナル推論の両方に優れている。
- 参考スコア(独自算出の注目度): 10.076870206428477
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semantic querying in complex 3D scenes through free-form language presents a significant challenge. Existing 3D scene understanding methods use large-scale training data and CLIP to align text queries with 3D semantic features. However, their reliance on predefined vocabulary priors from training data hinders free-form semantic querying. Besides, recent advanced methods rely on LLMs for scene understanding but lack comprehensive 3D scene-level information and often overlook the potential inconsistencies in LLM-generated outputs. In our paper, we propose FreeQ-Graph, which enables Free-form Querying with a semantic consistent scene Graph for 3D scene understanding. The core idea is to encode free-form queries from a complete and accurate 3D scene graph without predefined vocabularies, and to align them with 3D consistent semantic labels, which accomplished through three key steps. We initiate by constructing a complete and accurate 3D scene graph that maps free-form objects and their relations through LLM and LVLM guidance, entirely free from training data or predefined priors. Most importantly, we align graph nodes with accurate semantic labels by leveraging 3D semantic aligned features from merged superpoints, enhancing 3D semantic consistency. To enable free-form semantic querying, we then design an LLM-based reasoning algorithm that combines scene-level and object-level information to intricate reasoning. We conducted extensive experiments on 3D semantic grounding, segmentation, and complex querying tasks, while also validating the accuracy of graph generation. Experiments on 6 datasets show that our model excels in both complex free-form semantic queries and intricate relational reasoning.
- Abstract(参考訳): 自由形式言語による複雑な3Dシーンのセマンティッククエリは、大きな課題である。
既存の3Dシーン理解手法では、大規模トレーニングデータとCLIPを使用して、テキストクエリと3Dセマンティック機能を調整する。
しかし、トレーニングデータからの事前定義された語彙への依存は、自由形式のセマンティッククエリを妨げている。
さらに、最近の高度な手法はシーン理解にLLMに依存しているが、包括的な3Dシーンレベルの情報がなく、LLM生成出力の潜在的な矛盾を見落としていることが多い。
本稿では,3次元シーン理解のためのセマンティック一貫性のあるシーングラフを用いたフリーフォームクエリを実現するFreeQ-Graphを提案する。
中心となる考え方は、事前に定義された語彙を使わずに、完全で正確な3Dシーングラフから自由形式のクエリをエンコードし、3つの重要なステップによって達成される3D一貫性のあるセマンティックラベルと整合させることである。
我々は,自由形オブジェクトとその関係をLLMおよびLVLMガイダンスを通じてマッピングする完全かつ正確な3Dシーングラフの構築から始める。
最も重要なことは、グラフノードを正確なセマンティックラベルと整合させることで、マージされたスーパーポイントから3Dセマンティックな特徴を活用し、3Dセマンティックな一貫性を向上させることである。
自由形式のセマンティッククエリを可能にするために,シーンレベルの情報とオブジェクトレベルの情報を組み合わせて複雑な推論を行うLLMベースの推論アルゴリズムを設計する。
我々は3次元セマンティックグラウンド、セグメンテーション、複雑なクエリタスクについて広範な実験を行い、グラフ生成の精度を検証した。
6つのデータセットの実験により、我々のモデルは複雑な自由形式のセマンティッククエリと複雑なリレーショナル推論の両方で優れていることが示された。
関連論文リスト
- Training-Free Hierarchical Scene Understanding for Gaussian Splatting with Superpoint Graphs [16.153129392697885]
ガウス原始体から直接スーパーポイントグラフを構築する訓練自由フレームワークを導入する。
スーパーポイントグラフはシーンを空間的にコンパクトでセマンティックなコヒーレントな領域に分割し、ビュー一貫性の3Dエンティティを形成する。
提案手法は,30時間以上のセグメンテーションを高速化し,最先端のオープン語彙セグメンテーション性能を実現する。
論文 参考訳(メタデータ) (2025-04-17T17:56:07Z) - 3DGraphLLM: Combining Semantic Graphs and Large Language Models for 3D Scene Understanding [0.5755004576310334]
3Dシーングラフはコンパクトなシーンモデルを表し、オブジェクトに関する情報とそれらの間のセマンティックな関係を格納する。
本研究では,3Dシーングラフの学習可能な表現を構築するための3DGraphLLMを提案する。
学習可能な表現は、3次元視覚言語タスクの実行にLLMの入力として使用される。
論文 参考訳(メタデータ) (2024-12-24T14:21:58Z) - Bootstraping Clustering of Gaussians for View-consistent 3D Scene Understanding [59.51535163599723]
FreeGSは、教師なしセマンティック組み込み3DGSフレームワークで、2Dラベルを必要とせずに、ビュー一貫性のある3Dシーン理解を実現する。
FreeGSは複雑なデータ前処理のワークロードを避けながら、最先端のメソッドと互換性がある。
論文 参考訳(メタデータ) (2024-11-29T08:52:32Z) - 3D Scene Graph Guided Vision-Language Pre-training [11.131667398927394]
3次元視覚言語推論(VL)は、3次元物理世界を自然言語記述で橋渡しする可能性から注目されている。
既存のアプローチは通常、タスク固有の高度に専門化されたパラダイムに従う。
本稿では,3次元シーングラフ誘導型視覚言語事前学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-27T16:10:44Z) - ConceptGraphs: Open-Vocabulary 3D Scene Graphs for Perception and
Planning [125.90002884194838]
ConceptGraphsはオープンな3Dシーン用のグラフ構造化表現である。
2Dファウンデーションモデルを活用し、マルチビューアソシエーションによってアウトプットを3Dに融合することで構築される。
我々は,この表現の有用性を,下流の計画タスクを通じて実証する。
論文 参考訳(メタデータ) (2023-09-28T17:53:38Z) - OpenScene: 3D Scene Understanding with Open Vocabularies [73.1411930820683]
従来の3Dシーン理解アプローチは、単一のタスクのためにモデルをトレーニングするためのラベル付き3Dデータセットに依存している。
私たちは,CLIP機能空間にテキストと画像ピクセルを埋め込んだ3次元シーンポイントの高密度な特徴をモデルが予測する代替手法OpenSceneを提案する。
このゼロショットアプローチは、タスク非依存のトレーニングとオープン語彙クエリを可能にする。
論文 参考訳(メタデータ) (2022-11-28T18:58:36Z) - Learning 3D Semantic Scene Graphs from 3D Indoor Reconstructions [94.17683799712397]
我々は、グラフ内のシーンのエンティティを整理するデータ構造であるシーングラフに焦点を当てる。
本研究では,シーンの点雲からシーングラフを回帰する学習手法を提案する。
本稿では,3D-3Dおよび2D-3Dマッチングの中間表現としてグラフが機能するドメインに依存しない検索タスクにおける本手法の適用について述べる。
論文 参考訳(メタデータ) (2020-04-08T12:25:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。