論文の概要: Sparse3DPR: Training-Free 3D Hierarchical Scene Parsing and Task-Adaptive Subgraph Reasoning from Sparse RGB Views
- arxiv url: http://arxiv.org/abs/2511.07813v1
- Date: Wed, 12 Nov 2025 01:20:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.491336
- Title: Sparse3DPR: Training-Free 3D Hierarchical Scene Parsing and Task-Adaptive Subgraph Reasoning from Sparse RGB Views
- Title(参考訳): スパース3DPR: スパースRGBビューからの訓練自由な3次元階層的シーン解析とタスク適応サブグラフ推論
- Authors: Haida Feng, Hao Wei, Zewen Xu, Haolin Wang, Chade Li, Yihong Wu,
- Abstract要約: 本研究では,オープンエンドシーン理解のためのトレーニングフリーフレームワークであるSparse3DPRを提案する。
オープン語彙をサポートする階層型平面強調シーングラフを導入し,空間的アンカーとして支配的な平面構造を採用する。
Sparse3DPRはSpace3D-BenchのConceptGraphsと比較して28.7%のEM@1改善と78.2%のスピードアップを実現している。
- 参考スコア(独自算出の注目度): 7.846553013153199
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, large language models (LLMs) have been explored widely for 3D scene understanding. Among them, training-free approaches are gaining attention for their flexibility and generalization over training-based methods. However, they typically struggle with accuracy and efficiency in practical deployment. To address the problems, we propose Sparse3DPR, a novel training-free framework for open-ended scene understanding, which leverages the reasoning capabilities of pre-trained LLMs and requires only sparse-view RGB inputs. Specifically, we introduce a hierarchical plane-enhanced scene graph that supports open vocabulary and adopts dominant planar structures as spatial anchors, which enables clearer reasoning chains and more reliable high-level inferences. Furthermore, we design a task-adaptive subgraph extraction method to filter query-irrelevant information dynamically, reducing contextual noise and improving 3D scene reasoning efficiency and accuracy. Experimental results demonstrate the superiority of Sparse3DPR, which achieves a 28.7% EM@1 improvement and a 78.2% speedup compared with ConceptGraphs on the Space3D-Bench. Moreover, Sparse3DPR obtains comparable performance to training-based methods on ScanQA, with additional real-world experiments confirming its robustness and generalization capability.
- Abstract(参考訳): 近年,3次元シーン理解のための大規模言語モデル (LLM) が広く研究されている。
中でも、トレーニングベースの手法よりも、その柔軟性と一般化について、トレーニングフリーなアプローチが注目されている。
しかし、それらは実際的な展開において、正確さと効率性に苦しむ。
この問題を解決するために,オープンエンドシーン理解のための新しいトレーニングフリーフレームワークであるSparse3DPRを提案する。
具体的には,オープン語彙をサポートする階層型平面強調シーングラフを導入し,空間アンカーとして支配的な平面構造を採用することにより,より明確な推論チェーンとより信頼性の高い高レベル推論を実現する。
さらに,問合せ非関連情報を動的にフィルタリングするタスク適応サブグラフ抽出手法を設計し,文脈雑音を低減し,3Dシーンの推論効率と精度を向上させる。
Sparse3DPRは、Space3D-BenchのConceptGraphsと比較して28.7%のEM@1の改善と78.2%の高速化を実現している。
さらに、Sparse3DPRはScanQA上でのトレーニングベースの手法に匹敵する性能を得る。
関連論文リスト
- SceneSplat++: A Large Dataset and Comprehensive Benchmark for Language Gaussian Splatting [104.83629308412958]
3D Gaussian Splatting (3DGS) は、シーン幾何学、外観、意味論の高性能かつ効率的な符号化として機能する。
3次元空間で直接3つの手法群を体系的に評価する,最初の大規模ベンチマークを提案する。
結果は、特にシーン固有の制限を緩和する上で、一般化可能なパラダイムの明確な利点を示している。
論文 参考訳(メタデータ) (2025-06-10T11:52:45Z) - Training-Free Hierarchical Scene Understanding for Gaussian Splatting with Superpoint Graphs [16.153129392697885]
ガウス原始体から直接スーパーポイントグラフを構築する訓練自由フレームワークを導入する。
スーパーポイントグラフはシーンを空間的にコンパクトでセマンティックなコヒーレントな領域に分割し、ビュー一貫性の3Dエンティティを形成する。
提案手法は,30時間以上のセグメンテーションを高速化し,最先端のオープン語彙セグメンテーション性能を実現する。
論文 参考訳(メタデータ) (2025-04-17T17:56:07Z) - Adapt3R: Adaptive 3D Scene Representation for Domain Transfer in Imitation Learning [28.80962812015936]
模倣学習は、ロボットに複雑な多様な操作タスクを実行するよう訓練することができるが、学習されたポリシーはトレーニング分布外の観察で不安定である。
本稿では,キャリブレーションされたRGBDカメラのデータを任意のILアルゴリズムの条件付けとして使用できるベクトルに合成する汎用3D観測エンコーダAdapt3Rを提案する。
93のシミュレーションと6つの実際のタスクを、さまざまなILアルゴリズムでエンドツーエンドにトレーニングすると、Adapt3Rはこれらのアルゴリズムの学習能力を維持しながら、新しいエボディメントやカメラのポーズへのゼロショット転送を可能にします。
論文 参考訳(メタデータ) (2025-03-06T18:17:09Z) - SLGaussian: Fast Language Gaussian Splatting in Sparse Views [15.0280871846496]
スパース視点から3次元意味体を構築するフィードフォワード手法であるSLGaussianを提案する。
SLGaussianは、3D空間に言語情報を効率よく埋め込むことができ、スパースビュー条件下で正確な3Dシーン理解のための堅牢なソリューションを提供する。
論文 参考訳(メタデータ) (2024-12-11T12:18:30Z) - SparseGrasp: Robotic Grasping via 3D Semantic Gaussian Splatting from Sparse Multi-View RGB Images [125.66499135980344]
オープンボキャブラリ型ロボットグリップシステムであるSparseGraspを提案する。
SparseGraspはスパースビューのRGBイメージで効率的に動作し、シーン更新を高速に処理する。
SparseGraspは, 高速化と適応性の両方の観点から, 最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-12-03T03:56:01Z) - GOI: Find 3D Gaussians of Interest with an Optimizable Open-vocabulary Semantic-space Hyperplane [53.388937705785025]
3Dオープンボキャブラリのシーン理解は、拡張現実とロボット応用の推進に不可欠である。
GOIは2次元視覚言語基礎モデルから3次元ガウススプラッティング(3DGS)に意味的特徴を統合するフレームワークである。
提案手法では,特徴空間内の超平面分割として特徴選択処理を扱い,クエリに関連性の高い特徴のみを保持する。
論文 参考訳(メタデータ) (2024-05-27T18:57:18Z) - Generalized Robot 3D Vision-Language Model with Fast Rendering and Pre-Training Vision-Language Alignment [55.11291053011696]
本研究は,ラベル付きシーンが極めて限定された場合の3次元シーン理解のためのフレームワークを提案する。
事前学習された視覚言語モデルから新しいカテゴリーの知識を抽出するために,階層的特徴整合型事前学習と知識蒸留戦略を提案する。
限定的な再構築の場合、提案手法はWS3D++と呼ばれ、大規模なScanNetベンチマークで1位にランクインした。
論文 参考訳(メタデータ) (2023-12-01T15:47:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。