論文の概要: KeySG: Hierarchical Keyframe-Based 3D Scene Graphs
- arxiv url: http://arxiv.org/abs/2510.01049v1
- Date: Wed, 01 Oct 2025 15:53:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 14:32:17.217392
- Title: KeySG: Hierarchical Keyframe-Based 3D Scene Graphs
- Title(参考訳): KeySG: 階層的なキーフレームベースの3Dシーングラフ
- Authors: Abdelrhman Werby, Dennis Rotondi, Fabio Scaparro, Kai O. Arras,
- Abstract要約: KeySGは3Dシーンを、床、部屋、オブジェクト、機能要素からなる階層的なグラフとして表現している。
我々はVLMを利用してシーン情報を抽出し、オブジェクト間の関係エッジを明示的にモデル化する必要性を緩和する。
我々のアプローチは、大規模シーングラフに関連するスケーラビリティ問題を緩和しながら、複雑であいまいなクエリを処理できる。
- 参考スコア(独自算出の注目度): 1.5134439544218246
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, 3D scene graphs have emerged as a powerful world representation, offering both geometric accuracy and semantic richness. Combining 3D scene graphs with large language models enables robots to reason, plan, and navigate in complex human-centered environments. However, current approaches for constructing 3D scene graphs are semantically limited to a predefined set of relationships, and their serialization in large environments can easily exceed an LLM's context window. We introduce KeySG, a framework that represents 3D scenes as a hierarchical graph consisting of floors, rooms, objects, and functional elements, where nodes are augmented with multi-modal information extracted from keyframes selected to optimize geometric and visual coverage. The keyframes allow us to efficiently leverage VLM to extract scene information, alleviating the need to explicitly model relationship edges between objects, enabling more general, task-agnostic reasoning and planning. Our approach can process complex and ambiguous queries while mitigating the scalability issues associated with large scene graphs by utilizing a hierarchical retrieval-augmented generation (RAG) pipeline to extract relevant context from the graph. Evaluated across four distinct benchmarks -- including 3D object segmentation and complex query retrieval -- KeySG outperforms prior approaches on most metrics, demonstrating its superior semantic richness and efficiency.
- Abstract(参考訳): 近年、3Dシーングラフは、幾何学的精度とセマンティックリッチネスの両方を提供する強力な世界表現として出現している。
3Dシーングラフと大きな言語モデルを組み合わせることで、ロボットは複雑な人間中心の環境で推論、計画、ナビゲートを行うことができる。
しかし、3Dシーングラフを構築するための現在のアプローチは、セマンティックに定義された関係の集合に限られており、大規模環境におけるそれらのシリアライゼーションは、LLMのコンテキストウインドウを容易に越えることができる。
我々は,3次元シーンを床,部屋,オブジェクト,機能要素からなる階層グラフとして表現するフレームワークであるKeySGを紹介し,ノードを幾何学的および視覚的カバレッジを最適化するために選択されたキーフレームから抽出されたマルチモーダル情報で拡張する。
キーフレームは、VLMを効率的に活用してシーン情報を抽出し、オブジェクト間の関係エッジを明示的にモデル化する必要性を緩和し、より汎用的でタスクに依存しない推論と計画を可能にします。
提案手法は,階層的検索拡張生成(RAG)パイプラインを用いて,グラフから関連するコンテキストを抽出することにより,大規模シーングラフに関連するスケーラビリティ問題を緩和しながら,複雑で曖昧なクエリを処理できる。
3Dオブジェクトのセグメンテーションや複雑なクエリ検索を含む4つの異なるベンチマークで評価されたKeySGは、ほとんどのメトリクスに対する以前のアプローチよりも優れており、その優れたセマンティック・リッチネスと効率を示している。
関連論文リスト
- Open-Vocabulary Indoor Object Grounding with 3D Hierarchical Scene Graph [0.0]
OVIGo-3DHSGは階層的なシーングラフ上の広い屋内環境を表す。
階層的表現は、床、部屋、場所、オブジェクト間の空間関係を明示的にモデル化する。
提案手法は,既存の手法と比較して,効率的なシーン理解とロバストなオブジェクトグラウンド化を実証する。
論文 参考訳(メタデータ) (2025-07-16T10:47:12Z) - Agentic 3D Scene Generation with Spatially Contextualized VLMs [67.31920821192323]
本稿では,複雑な3D環境の生成,理解,編集を可能にする新しいパラダイムを提案する。
我々は,VLMが空間コンテキストから反復的に読み取って更新するエージェント型3Dシーン生成パイプラインを開発した。
その結果,我々のフレームワークは多様かつ困難な入力を処理でき,事前の作業では観測できないような一般化のレベルを達成することができることがわかった。
論文 参考訳(メタデータ) (2025-05-26T15:28:17Z) - Open-Vocabulary Octree-Graph for 3D Scene Understanding [54.11828083068082]
Octree-Graphはオープンな3Dシーン理解のための新しいシーン表現である。
セマンティクスを記憶し、その形状に応じてオブジェクトの占有度を調節するアダプティブ・オクツリー構造を開発する。
論文 参考訳(メタデータ) (2024-11-25T10:14:10Z) - Multiview Scene Graph [7.460438046915524]
適切なシーン表現は、空間知性の追求の中心である。
未提示画像からマルチビューシーングラフ(MSG)を構築することを提案する。
MSGは、場所とオブジェクトノードを相互接続したシーンをトポロジ的に表現する。
論文 参考訳(メタデータ) (2024-10-15T02:04:05Z) - ConceptGraphs: Open-Vocabulary 3D Scene Graphs for Perception and
Planning [125.90002884194838]
ConceptGraphsはオープンな3Dシーン用のグラフ構造化表現である。
2Dファウンデーションモデルを活用し、マルチビューアソシエーションによってアウトプットを3Dに融合することで構築される。
我々は,この表現の有用性を,下流の計画タスクを通じて実証する。
論文 参考訳(メタデータ) (2023-09-28T17:53:38Z) - SGAligner : 3D Scene Alignment with Scene Graphs [84.01002998166145]
3Dシーングラフの構築は、いくつかの具体的AIアプリケーションのためのシーン表現のトピックとして登場した。
オーバーラップ可能な3次元シーングラフのペアをゼロから部分的に整列させるという基本的な問題に着目する。
そこで我々はSGAlignerを提案する。SGAlignerは3次元シーングラフのペアを組合わせるための最初の方法であり、その組込みシナリオに対して堅牢である。
論文 参考訳(メタデータ) (2023-04-28T14:39:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。