論文の概要: Hi-Dyna Graph: Hierarchical Dynamic Scene Graph for Robotic Autonomy in Human-Centric Environments
- arxiv url: http://arxiv.org/abs/2506.00083v1
- Date: Fri, 30 May 2025 03:35:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:32.276531
- Title: Hi-Dyna Graph: Hierarchical Dynamic Scene Graph for Robotic Autonomy in Human-Centric Environments
- Title(参考訳): ハイダイナグラフ:人間中心環境におけるロボット自律性のための階層的動的シーングラフ
- Authors: Jiawei Hou, Xiangyang Xue, Taiping Zeng,
- Abstract要約: Hi-Dyna Graphは階層的な動的シーングラフアーキテクチャで、永続的なグローバルレイアウトと局所的な動的セマンティクスを統合し、ロボットの自律性を具現化する。
大型言語モデル(LLM)を利用したエージェントを用いて、統一されたグラフを解釈し、遅延タスクトリガーを推論し、ロボットの余裕に基づいて実行可能な命令を生成する。
- 参考スコア(独自算出の注目度): 41.80879866951797
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autonomous operation of service robotics in human-centric scenes remains challenging due to the need for understanding of changing environments and context-aware decision-making. While existing approaches like topological maps offer efficient spatial priors, they fail to model transient object relationships, whereas dense neural representations (e.g., NeRF) incur prohibitive computational costs. Inspired by the hierarchical scene representation and video scene graph generation works, we propose Hi-Dyna Graph, a hierarchical dynamic scene graph architecture that integrates persistent global layouts with localized dynamic semantics for embodied robotic autonomy. Our framework constructs a global topological graph from posed RGB-D inputs, encoding room-scale connectivity and large static objects (e.g., furniture), while environmental and egocentric cameras populate dynamic subgraphs with object position relations and human-object interaction patterns. A hybrid architecture is conducted by anchoring these subgraphs to the global topology using semantic and spatial constraints, enabling seamless updates as the environment evolves. An agent powered by large language models (LLMs) is employed to interpret the unified graph, infer latent task triggers, and generate executable instructions grounded in robotic affordances. We conduct complex experiments to demonstrate Hi-Dyna Grap's superior scene representation effectiveness. Real-world deployments validate the system's practicality with a mobile manipulator: robotics autonomously complete complex tasks with no further training or complex rewarding in a dynamic scene as cafeteria assistant. See https://anonymous.4open.science/r/Hi-Dyna-Graph-B326 for video demonstration and more details.
- Abstract(参考訳): 人間中心のシーンにおけるサービスロボティクスの自律的な操作は、環境の変化や状況に応じた意思決定を理解する必要があるため、依然として困難である。
トポロジカルマップのような既存のアプローチは効率的な空間的先行性を提供するが、それらは過渡的な物体の関係をモデル化するのに失敗する。
階層的シーン表現と映像シーングラフ生成の作業に着想を得たHi-Dyna Graphを提案する。
提案フレームワークは,RGB-D入力を用いたグローバルなトポロジカルグラフを構築し,部屋の大きさの接続性や大きな静的オブジェクト(家具など)を符号化する。
ハイブリッドアーキテクチャは、これらのサブグラフを意味的制約と空間的制約を使ってグローバルトポロジに固定することで、環境が進化するにつれてシームレスな更新を可能にする。
大型言語モデル(LLM)を利用したエージェントを用いて、統一されたグラフを解釈し、遅延タスクトリガーを推論し、ロボットの余裕に基づいて実行可能な命令を生成する。
我々は、Hi-Dyna Grapのより優れたシーン表現の有効性を示す複雑な実験を行う。
ロボット工学は、カフェテリアアシスタントとしての動的なシーンにおいて、さらなるトレーニングや複雑な報酬なしで、自律的に複雑なタスクを完了します。
ビデオデモについてはhttps://anonymous.4open.science/r/Hi-Dyna-Graph-B326を参照。
関連論文リスト
- DyGEnc: Encoding a Sequence of Textual Scene Graphs to Reason and Answer Questions in Dynamic Scenes [0.0]
我々は新しい方法であるDyGEncを紹介する。
動的グラフ。
本手法は,圧縮時空間構造観察と大規模言語モデルの認知能力を統合する。
DyGEncは、人間とオブジェクトの相互作用の歴史に関する問い合わせに対して、15~25%の差で既存の視覚的手法より優れています。
論文 参考訳(メタデータ) (2025-05-06T14:41:42Z) - EnerVerse: Envisioning Embodied Future Space for Robotics Manipulation [55.26713167507132]
本稿では,エンボディ空間の構築と解釈を行う生成ロボティクス基礎モデルを提案する。
EnerVerseは、自己回帰的ビデオ拡散フレームワークを使用して、命令から将来のエンボディドスペースを予測する。
本稿では,生成モデルと4次元ガウススプラッティングを組み合わせたデータエンジンパイプラインであるEnerVerse-Dについて述べる。
論文 参考訳(メタデータ) (2025-01-03T17:00:33Z) - Time is on my sight: scene graph filtering for dynamic environment perception in an LLM-driven robot [0.8515309662618664]
本稿では,人間とロボットのインタラクションにおける重要な課題に対処するロボット制御アーキテクチャを提案する。
アーキテクチャはLarge Language Modelsを使用して、自然言語コマンドを含む多様な情報ソースを統合する。
このアーキテクチャは、動的環境における適応性、タスク効率、人間とロボットのコラボレーションを強化する。
論文 参考訳(メタデータ) (2024-11-22T15:58:26Z) - Polaris: Open-ended Interactive Robotic Manipulation via Syn2Real Visual Grounding and Large Language Models [53.22792173053473]
我々はPolarisという対話型ロボット操作フレームワークを紹介した。
ポラリスはGPT-4と接地された視覚モデルを利用して知覚と相互作用を統合する。
本稿では,Syn2Real(Synthetic-to-Real)ポーズ推定パイプラインを提案する。
論文 参考訳(メタデータ) (2024-08-15T06:40:38Z) - GRUtopia: Dream General Robots in a City at Scale [65.08318324604116]
本稿では,各種ロボットを対象とした対話型3D社会「GRUtopia」について紹介する。
GRScenesには100万のインタラクティブな微妙な注釈付きシーンが含まれており、都市規模の環境に自由に組み合わせることができる。
GRResidentsはLarge Language Model (LLM)によって駆動されるNon-Player Character (NPC)システムである。
論文 参考訳(メタデータ) (2024-07-15T17:40:46Z) - RoboEXP: Action-Conditioned Scene Graph via Interactive Exploration for Robotic Manipulation [21.387160107315797]
本稿では,ロボットが自律的に環境を探索し,行動条件付きシーングラフ(ACSG)を作成する,インタラクティブなシーン探索という新たな課題を紹介する。
ACSGは、シーン内の低レベル情報(幾何学と意味論)と高レベル情報(異なるエンティティ間のアクション条件付き関係)の両方を記述している。
本稿では,LMM(Large Multimodal Model)と明示的なメモリ設計を取り入れたロボット探索システム(RoboEXP)を提案する。
論文 参考訳(メタデータ) (2024-02-23T18:27:17Z) - Situational Graphs for Robot Navigation in Structured Indoor
Environments [9.13466172688693]
環境を表す1つのグラフからなるリアルタイムオンライン構築状況グラフ(S-Graphs)を提示する。
本手法は3次元LiDARスキャンから抽出した計測値と平面面を用いて3層Sグラフをリアルタイムに構築・最適化する。
提案手法は,ロボットのポーズ推定の最先端結果を示すだけでなく,環境の計量意味・トポロジーモデルにも寄与する。
論文 参考訳(メタデータ) (2022-02-24T16:59:06Z) - OG-SGG: Ontology-Guided Scene Graph Generation. A Case Study in Transfer
Learning for Telepresence Robotics [124.08684545010664]
画像からのシーングラフ生成は、ロボット工学のようなアプリケーションに非常に関心を持つタスクである。
オントロジー誘導シーングラフ生成(OG-SGG)と呼ばれるフレームワークの初期近似を提案する。
論文 参考訳(メタデータ) (2022-02-21T13:23:15Z) - iGibson, a Simulation Environment for Interactive Tasks in Large
Realistic Scenes [54.04456391489063]
iGibsonは、大規模な現実的なシーンにおける対話的なタスクのためのロボットソリューションを開発するための、新しいシミュレーション環境である。
私たちの環境には、厳密で明瞭な物体が密集した15のインタラクティブなホームサイズシーンが含まれています。
iGibsonの機能はナビゲーションエージェントの一般化を可能にし、人間-iGibsonインターフェースと統合されたモーションプランナーは、単純な人間の実演行動の効率的な模倣学習を促進する。
論文 参考訳(メタデータ) (2020-12-05T02:14:17Z) - 3D Dynamic Scene Graphs: Actionable Spatial Perception with Places,
Objects, and Humans [27.747241700017728]
動作可能な空間知覚のための統一表現として,3次元ダイナミックシーングラフを提案する。
3D Dynamic Scene Graphsは、計画と意思決定、人間とロボットのインタラクション、長期的な自律性、シーン予測に大きな影響を与える可能性がある。
論文 参考訳(メタデータ) (2020-02-15T00:46:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。