論文の概要: Semantic Area Graph Reasoning for Multi-Robot Language-Guided Search
- arxiv url: http://arxiv.org/abs/2604.16263v1
- Date: Fri, 17 Apr 2026 17:19:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-20 22:00:20.025521
- Title: Semantic Area Graph Reasoning for Multi-Robot Language-Guided Search
- Title(参考訳): マルチロボット言語誘導検索のための意味領域グラフ推論
- Authors: Ruiyang Wang, Hao-Lun Hsu, Jiwoo Kim, Miroslav Pajic,
- Abstract要約: textitSemantic Area Graph Reasoning (SAGR)は、大規模言語モデル(LLM)が環境の構造的セマンティックトポロジ的抽象化を通して、マルチロボット探索とセマンティックサーチの協調を可能にする階層的なフレームワークである。
100のシナリオにわたるHabitat-Matterport3Dデータセットの実験では、SAGRは最先端の探索手法と競合し続け、セマンティックターゲットの探索効率は最大18.8%向上した。
- 参考スコア(独自算出の注目度): 12.427956436869584
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Coordinating multi-robot systems (MRS) to search in unknown environments is particularly challenging for tasks that require semantic reasoning beyond geometric exploration. Classical coordination strategies rely on frontier coverage or information gain and cannot incorporate high-level task intent, such as searching for objects associated with specific room types. We propose \textit{Semantic Area Graph Reasoning} (SAGR), a hierarchical framework that enables Large Language Models (LLMs) to coordinate multi-robot exploration and semantic search through a structured semantic-topological abstraction of the environment. SAGR incrementally constructs a semantic area graph from a semantic occupancy map, encoding room instances, connectivity, frontier availability, and robot states into a compact task-relevant representation for LLM reasoning. The LLM performs high-level semantic room assignment based on spatial structure and task context, while deterministic frontier planning and local navigation handle geometric execution within assigned rooms. Experiments on the Habitat-Matterport3D dataset across 100 scenarios show that SAGR remains competitive with state-of-the-art exploration methods while consistently improving semantic target search efficiency, with up to 18.8\% in large environments. These results highlight the value of structured semantic abstractions as an effective interface between LLM-based reasoning and multi-robot coordination in complex indoor environments.
- Abstract(参考訳): 未知の環境での探索にMRS(Multi-robot system)をコーディネートすることは、幾何学的探索以上の意味論的推論を必要とするタスクにおいて特に困難である。
古典的なコーディネーション戦略は、フロンティアカバレッジや情報ゲインに依存しており、特定のルームタイプに関連するオブジェクトの検索など、ハイレベルなタスク意図を組み込むことはできない。
本稿では,大規模言語モデル(LLM)が環境の構造的意味論的抽象化を通じて,マルチロボット探索とセマンティック検索を協調できる階層的フレームワークである,‘textit{Semantic Area Graph Reasoning} を提案する。
SAGRは、セマンティック占有マップから意味領域グラフを段階的に構築し、部屋のインスタンス、接続性、フロンティア可用性、ロボット状態をLLM推論のためのコンパクトなタスク関連表現に変換する。
LLMは空間構造とタスクコンテキストに基づいて高レベルのセマンティックルーム割り当てを行い、決定論的フロンティア計画と局所ナビゲーションは割り当てられた部屋内の幾何的実行を処理する。
100のシナリオにわたるHabitat-Matterport3Dデータセットの実験は、SAGRが最先端の探索手法と競合し続けながら、大きな環境では最大18.8\%のセマンティックターゲット探索効率を一貫して改善していることを示している。
これらの結果は,LLMに基づく推論と複雑な屋内環境におけるマルチロボット協調の効果的なインターフェースとして,構造化セマンティック抽象化の価値を強調した。
関連論文リスト
- GIST: Multimodal Knowledge Extraction and Spatial Grounding via Intelligent Semantic Topology [2.049702429898688]
複雑で密集した環境は、人間や具体化されたAIにとって大きな空間的基盤となる。
GISTは、コンシューマグレードの移動点クラウドを意味的に注釈付けされたナビゲーショントポロジに変換するマルチモーダルな知識抽出パイプラインである。
本アーキテクチャでは,シーンを2次元占有マップに抽出し,そのトポロジ的レイアウトを抽出し,知的かつセマンティックな選択を通じて軽量なセマンティック層をオーバーレイする。
論文 参考訳(メタデータ) (2026-04-16T19:59:52Z) - Relational Semantic Reasoning on 3D Scene Graphs for Open World Interactive Object Search [14.297888615008041]
SCOUT: Scene Graph-Based Exploration with Learned Utility for Open-World Interactive Object Searchを紹介する。
SCOUTは部屋、フロンティア、オブジェクトにユーティリティスコアを割り当てることで、3Dシーングラフを直接検索する。
対話型オブジェクト検索タスクにおける意味的推論を評価するためのスケーラブルなシンボリックベンチマークであるSymSearchを提案する。
論文 参考訳(メタデータ) (2026-03-05T19:52:26Z) - Hierarchical Language Models for Semantic Navigation and Manipulation in an Aerial-Ground Robotic System [8.88014241557266]
不均一なマルチロボットシステムは、協調的なハイブリッド協調を必要とする複雑なタスクにおいて大きな可能性を示す。
静的またはタスク固有のモデルに依存する既存のメソッドは、様々なタスクや動的環境にまたがる一般化性に欠けることが多い。
本稿では,大規模言語モデル (LLM) と微調整型視覚言語モデル (VLM) を統合した階層型マルチモーダルフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-05T13:27:41Z) - Embodied-RAG: General Non-parametric Embodied Memory for Retrieval and Generation [69.01029651113386]
Embodied-RAGは、非パラメトリックメモリシステムによるエンボディエージェントのモデルを強化するフレームワークである。
コアとなるEmbodied-RAGのメモリはセマンティックフォレストとして構成され、言語記述を様々なレベルで詳細に保存する。
Embodied-RAGがRAGをロボット領域に効果的にブリッジし、250以上の説明とナビゲーションクエリをうまく処理できることを実証する。
論文 参考訳(メタデータ) (2024-09-26T21:44:11Z) - Embodied Instruction Following in Unknown Environments [64.57388036567461]
未知環境における複雑なタスクに対するEIF(Embodied instruction following)法を提案する。
我々は,ハイレベルなタスクプランナと低レベルな探索コントローラを含む,階層的な具体化命令に従うフレームワークを構築した。
タスクプランナに対しては、タスク完了プロセスと既知の視覚的手がかりに基づいて、人間の目標達成のための実行可能なステップバイステッププランを生成する。
論文 参考訳(メタデータ) (2024-06-17T17:55:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。