論文の概要: HERO: Hierarchical Traversable 3D Scene Graphs for Embodied Navigation Among Movable Obstacles
- arxiv url: http://arxiv.org/abs/2512.15047v1
- Date: Wed, 17 Dec 2025 03:22:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:26.8413
- Title: HERO: Hierarchical Traversable 3D Scene Graphs for Embodied Navigation Among Movable Obstacles
- Title(参考訳): HERO:移動可能な障害物間の身体的ナビゲーションのための階層的トラバース可能な3Dシーングラフ
- Authors: Yunheng Wang, Yixiao Feng, Yuetong Fang, Shuning Zhang, Tan Jing, Jian Li, Xiangrui Jiang, Renjing Xu,
- Abstract要約: 3次元シーングラフ(3DSG)は物理世界の強力な表現である。
本稿では,3DSGを横断的に構築するフレームワークHEROを提案する。
HEROは部分閉塞環境においてPLを35.1%減少させ,完全閉塞環境ではSRを79.4%増加させることを示した。
- 参考スコア(独自算出の注目度): 20.613017082510655
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D Scene Graphs (3DSGs) constitute a powerful representation of the physical world, distinguished by their abilities to explicitly model the complex spatial, semantic, and functional relationships between entities, rendering a foundational understanding that enables agents to interact intelligently with their environment and execute versatile behaviors. Embodied navigation, as a crucial component of such capabilities, leverages the compact and expressive nature of 3DSGs to enable long-horizon reasoning and planning in complex, large-scale environments. However, prior works rely on a static-world assumption, defining traversable space solely based on static spatial layouts and thereby treating interactable obstacles as non-traversable. This fundamental limitation severely undermines their effectiveness in real-world scenarios, leading to limited reachability, low efficiency, and inferior extensibility. To address these issues, we propose HERO, a novel framework for constructing Hierarchical Traversable 3DSGs, that redefines traversability by modeling operable obstacles as pathways, capturing their physical interactivity, functional semantics, and the scene's relational hierarchy. The results show that, relative to its baseline, HERO reduces PL by 35.1% in partially obstructed environments and increases SR by 79.4% in fully obstructed ones, demonstrating substantially higher efficiency and reachability.
- Abstract(参考訳): 3Dシーングラフ(3DSG)は物理世界の強力な表現であり、実体間の複雑な空間的、意味的、機能的関係を明示的にモデル化し、エージェントが環境と知的に相互作用し、多目的な振る舞いを実行することを可能にする基礎的な理解を表現している。
身体的ナビゲーションは、3DSGのコンパクトで表現力のある性質を活用し、複雑な大規模環境での長期的推論と計画を可能にする。
しかし、以前の研究は静的空間の仮定に依存しており、静的空間配置のみに基づいてトラバース可能な空間を定義し、それによって相互作用可能な障害物を非トラバース可能なものとして扱う。
この基本的な制限は、現実のシナリオにおけるそれらの効果を著しく損なうものであり、到達性、低効率、低拡張性へと繋がる。
これらの課題に対処するために,階層的トラバーサブル3DSGを構築するための新しいフレームワークHEROを提案する。これは,操作可能な障害物を経路としてモデル化し,物理的相互作用,機能的意味論,シーンの階層構造を捉えることで,トラバーサビリティを再定義する。
その結果、HEROはベースラインと比較して、部分的に阻害された環境でPLを35.1%削減し、完全に阻害された環境ではSRを79.4%増加させ、効率と到達性が著しく向上した。
関連論文リスト
- OpenHype: Hyperbolic Embeddings for Hierarchical Open-Vocabulary Radiance Fields [25.81679730373062]
連続的な双曲型潜在空間を用いてシーン階層を表現する新しい手法であるOpenHypeを提案する。
双曲幾何学の特性を活用することにより、OpenHypeは自然にマルチスケールな関係を符号化する。
提案手法は,標準ベンチマークにおける最先端手法よりも優れている。
論文 参考訳(メタデータ) (2025-10-24T13:17:56Z) - From Spatial to Actions: Grounding Vision-Language-Action Model in Spatial Foundation Priors [54.84863164684646]
既存の視覚言語アクション(VLA)モデルは3Dの現実世界で機能するが、通常は2Dエンコーダ上に構築される。
本研究では,アクションヘッドにリッチな3次元空間トークンを注入する新しいパラダイムであるFALCONを紹介する。
論文 参考訳(メタデータ) (2025-10-20T11:26:45Z) - ReSem3D: Refinable 3D Spatial Constraints via Fine-Grained Semantic Grounding for Generalizable Robotic Manipulation [12.059517583878756]
本稿では,意味的に多様な環境に対する統一的な操作フレームワークReSem3Dを提案する。
本稿では,ReSem3Dがゼロショット条件下で多様な操作を行い,適応性と一般化性を示すことを示す。
論文 参考訳(メタデータ) (2025-07-24T10:07:31Z) - HOSIG: Full-Body Human-Object-Scene Interaction Generation with Hierarchical Scene Perception [57.37135310143126]
HO SIGは階層的なシーン認識を通じて全体インタラクションを合成するための新しいフレームワークである。
我々のフレームワークは、自己回帰生成による運動長の無制限化をサポートし、手動による介入を最小限に抑える。
この研究は、シーン認識ナビゲーションとデクスタラスオブジェクト操作の間に重要なギャップを埋める。
論文 参考訳(メタデータ) (2025-06-02T12:08:08Z) - Agentic 3D Scene Generation with Spatially Contextualized VLMs [67.31920821192323]
本稿では,複雑な3D環境の生成,理解,編集を可能にする新しいパラダイムを提案する。
我々は,VLMが空間コンテキストから反復的に読み取って更新するエージェント型3Dシーン生成パイプラインを開発した。
その結果,我々のフレームワークは多様かつ困難な入力を処理でき,事前の作業では観測できないような一般化のレベルを達成することができることがわかった。
論文 参考訳(メタデータ) (2025-05-26T15:28:17Z) - EmbodiedVSR: Dynamic Scene Graph-Guided Chain-of-Thought Reasoning for Visual Spatial Tasks [24.41705039390567]
EmbodiedVSR (Embodied Visual Space Reasoning) は動的シーングラフ誘導型Chain-of-Thought (CoT)推論を統合する新しいフレームワークである。
本手法はタスク固有の微調整なしでゼロショット空間推論を可能にする。
実験により,我々のフレームワークは,既存のMLLM法よりも精度と推論コヒーレンスにおいて優れていることが示された。
論文 参考訳(メタデータ) (2025-03-14T05:06:07Z) - Dynamic Scene Understanding through Object-Centric Voxelization and Neural Rendering [57.895846642868904]
オブジェクト中心学習が可能な動的シーンのための3次元生成モデルDynaVol-Sを提案する。
ボキセル化は、個々の空間的位置において、物体ごとの占有確率を推定する。
提案手法は2次元セマンティックな特徴を統合して3次元セマンティック・グリッドを作成し,複数の不整合ボクセル・グリッドを通してシーンを表現する。
論文 参考訳(メタデータ) (2024-07-30T15:33:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。