論文の概要: LLM-Based Agentic Exploration for Robot Navigation & Manipulation with Skill Orchestration
- arxiv url: http://arxiv.org/abs/2601.00555v1
- Date: Fri, 02 Jan 2026 04:04:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:40.603032
- Title: LLM-Based Agentic Exploration for Robot Navigation & Manipulation with Skill Orchestration
- Title(参考訳): スキルオーケストレーションによるロボットナビゲーション・マニピュレーションのためのLLMに基づくエージェント探索
- Authors: Abu Hanif Muhammad Syarubany, Farhan Zaki Rahmani, Trio Widianto,
- Abstract要約: 本稿では,Gazeboシミュレーションとそれに対応する現実世界の廊下レイアウトで評価した,屋内ショッピングタスクのためのエンドツーエンドのLLMエージェント探索システムを提案する。
ロボットは、接合部の看板を検出し、推定された接合のポーズとともに方向とPOIの関係を記憶することで、軽量なセマンティックマップを構築する。
自然言語ショッピング要求が与えられた後、LLMは各ジャンクション(方向と店に入るかどうか)で制約付き離散アクションを生成し、ROS有限状態メインコントローラはモジュラーモーションプリミティブをゲーティングすることで決定を実行する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents an end-to-end LLM-based agentic exploration system for an indoor shopping task, evaluated in both Gazebo simulation and a corresponding real-world corridor layout. The robot incrementally builds a lightweight semantic map by detecting signboards at junctions and storing direction-to-POI relations together with estimated junction poses, while AprilTags provide repeatable anchors for approach and alignment. Given a natural-language shopping request, an LLM produces a constrained discrete action at each junction (direction and whether to enter a store), and a ROS finite-state main controller executes the decision by gating modular motion primitives, including local-costmap-based obstacle avoidance, AprilTag approaching, store entry, and grasping. Qualitative results show that the integrated stack can perform end-to-end task execution from user instruction to multi-store navigation and object retrieval, while remaining modular and debuggable through its text-based map and logged decision history.
- Abstract(参考訳): 本稿では,Gazeboシミュレーションとそれに対応する現実世界の廊下レイアウトで評価した,屋内ショッピングタスクのためのエンドツーエンドのLLMエージェント探索システムを提案する。
ロボットは、接合部の看板を検出し、推定された接合のポーズとともに方向とPOIの関係を記憶することで、軽量なセマンティックマップを段階的に構築する一方、 AprilTagsは接近とアライメントのための繰り返し可能なアンカーを提供する。
自然言語ショッピング要求が与えられた後、LLMは各ジャンクション(方向と店に入るかどうか)で制約された離散アクションを生成し、ROS有限状態のメインコントローラは、ローカルコストマップベースの障害物回避、4月Tag接近、ストアエントリ、グルーピングを含むモジュラーモーションプリミティブをゲーティングすることで決定を実行する。
定性的な結果は,ユーザインストラクションからマルチストアナビゲーション,オブジェクト検索に至るまで,統合スタックがエンドツーエンドのタスク実行を実行可能であることを示している。
関連論文リスト
- OmniVLN: Omnidirectional 3D Perception and Token-Efficient LLM Reasoning for Visual-Language Navigation across Air and Ground Platforms [33.40889181799252]
言語誘導型エンボディナビゲーションでは、エージェントがオブジェクト参照命令を解釈し、複数の部屋を探索し、参照されたターゲットをローカライズし、それに対する信頼できる動きを実行する必要がある。
OmniVLNは、全方位3次元知覚とトークン効率の高い階層的推論を、空中と地上の両方で組み合わせたゼロショット視覚言語ナビゲーションフレームワークである。
実験により、提案した階層インタフェースは空間参照精度を77.27%から93.18%に改善し、マルチルームの乱雑な設定で累積的なプロンプトトークンを61.7%削減し、フラットで最大11.68%のナビゲーション成功率向上を実現した。
論文 参考訳(メタデータ) (2026-03-18T04:26:30Z) - SignNav: Leveraging Signage for Semantic Visual Navigation in Large-Scale Indoor Environments [57.79171900005793]
人間は、大規模屋内環境内の目的地に向かうために、手話によって提供される意味的ヒントを日常的に活用する。
本稿では,手話からの意味的ヒントを解釈し,現在の観察に基づくその後の行動の推論を行うための,新しい具体的ナビゲーションタスクSignNavを紹介する。
空間認識モジュールは物理的世界へのサインの意味的ヒントを基盤として,時間認識モジュールは歴史的状態と現在の観測との長距離依存性を捉えている。
論文 参考訳(メタデータ) (2026-03-17T06:36:26Z) - From Reactive to Map-Based AI: Tuned Local LLMs for Semantic Zone Inference in Object-Goal Navigation [0.7734726150561086]
Object-Goal Navigation(ObjectNav)は、エージェントが未知の環境で対象のオブジェクトカテゴリを見つけてナビゲートする必要がある。
我々は,LLMに基づく意味推論とハイブリッドトポロジカルグリッドマッピングシステムを統合することにより,リアクティブAIから"マップベースAI"への移行を提案する。
本フレームワークでは,Llama-2モデルを用いて,言語化された対象観測から意味領域のカテゴリと目的存在確率を推定する。
論文 参考訳(メタデータ) (2026-03-09T08:27:28Z) - To Move or Not to Move: Constraint-based Planning Enables Zero-Shot Generalization for Interactive Navigation [14.745622942938532]
家庭環境や倉庫のような現実のシナリオでは、クラッタはすべてのルートをブロックすることができる。
本稿では,移動ロボットが乱雑に移動して自身の進路を鍛える,Lifelong Interactive Navigation問題を紹介する。
アクティブな認識を伴うLLM駆動制約に基づく計画フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-23T17:10:00Z) - OVerSeeC: Open-Vocabulary Costmap Generation from Satellite Images and Natural Language [11.384592553913778]
本稿では,この問題をInterpret--Synthesize:iに分解するゼロショットモジュラーフレームワークを提案する。
我々はOVerSeeCがランク付けや構成の好みを処理し,多様な領域にまたがる人力トラジェクトリと整合した経路を生成することを示す。
論文 参考訳(メタデータ) (2026-02-20T20:49:07Z) - Zero-shot HOI Detection with MLLM-based Detector-agnostic Interaction Recognition [71.5328300638085]
Zero-shot Human-Object Interaction (HOI) は、画像中の人間と物体を特定し、その相互作用を認識することを目的としている。
2段階法を含む既存の手法は、特定の検出器との相互作用認識を密に結合する。
本稿では、オブジェクト検出をIRから分離し、マルチモーダル大言語モデル(MLLM)をゼロショットIRに活用する分離フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-16T19:01:31Z) - ReasonNavi: Human-Inspired Global Map Reasoning for Zero-Shot Embodied Navigation [53.95797153529148]
身体的エージェントは、主に部分的な自我中心の観測に依存するため、効率的なナビゲーションに苦しむことが多い。
本稿では,マルチモーダル大規模言語モデル(MLLM)と決定論的プランナを結合することにより,この理由に基づくパラダイムを運用する,人間にインスパイアされたフレームワークであるReasonNaviを紹介する。
論文 参考訳(メタデータ) (2026-01-26T19:09:20Z) - Constructing coherent spatial memory in LLM agents through graph rectification [11.320476634022244]
本研究では,インクリメンタルに構築されたナビゲーショングラフにおける構造的不整合の検出,局所化,補正を行うフレームワークを提案する。
我々のアプローチは地図の正確性や堅牢性を大幅に改善します。
論文 参考訳(メタデータ) (2025-10-05T13:27:00Z) - Navigating Motion Agents in Dynamic and Cluttered Environments through LLM Reasoning [69.5875073447454]
本稿では,大規模言語モデル(LLM)によって強化された動作エージェントを,動的・乱雑な環境における自律的なナビゲーションに向けて前進させる。
トレーニング不要なフレームワークは、マルチエージェント調整、クローズドループ計画、動的障害物回避を、リトレーニングや微調整なしでサポートしています。
論文 参考訳(メタデータ) (2025-03-10T13:39:09Z) - ROS-LLM: A ROS framework for embodied AI with task feedback and structured reasoning [74.58666091522198]
非専門家による直感的なロボットプログラミングのためのフレームワークを提案する。
ロボットオペレーティングシステム(ROS)からの自然言語のプロンプトと文脈情報を活用する
我々のシステムは,大規模言語モデル (LLM) を統合し,非専門家がチャットインタフェースを通じてシステムにタスク要求を記述できるようにする。
論文 参考訳(メタデータ) (2024-06-28T08:28:38Z) - Can an Embodied Agent Find Your "Cat-shaped Mug"? LLM-Guided Exploration
for Zero-Shot Object Navigation [58.3480730643517]
言語駆動型ゼロショットオブジェクトゴールナビゲーション(L-ZSON)のための新しいアルゴリズムLGXを提案する。
このアプローチでは、このタスクにLarge Language Models(LLM)を使用します。
現状のゼロショットオブジェクトナビゲーションをRoboTHOR上で実現し,現在のベースラインよりも27%以上の成功率(SR)向上を実現した。
論文 参考訳(メタデータ) (2023-03-06T20:19:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。