論文の概要: SPINE: Online Semantic Planning for Missions with Incomplete Natural Language Specifications in Unstructured Environments
- arxiv url: http://arxiv.org/abs/2410.03035v2
- Date: Thu, 20 Mar 2025 17:43:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-21 15:30:51.781428
- Title: SPINE: Online Semantic Planning for Missions with Incomplete Natural Language Specifications in Unstructured Environments
- Title(参考訳): SPINE: 未構造化環境における不完全な自然言語仕様を持つミッションのオンラインセマンティックプランニング
- Authors: Zachary Ravichandran, Varun Murali, Mariliza Tzes, George J. Pappas, Vijay Kumar,
- Abstract要約: spineは、自然言語で提供される不完全なミッション仕様を持つミッションのためのオンラインプランナーです。
提案手法は,時間と距離の面で2倍以上の効率で,ユーザインタラクションを少なくし,フルマップを必要としない。
- 参考スコア(独自算出の注目度): 27.485636944766718
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As robots become increasingly capable, users will want to describe high-level missions and have robots infer the relevant details. because pre-built maps are difficult to obtain in many realistic settings, accomplishing such missions will require the robot to map and plan online. while many semantic planning methods operate online, they are typically designed for well specified missions such as object search or exploration. recently, large language models (LLMs) have demonstrated powerful contextual reasoning abilities over a range of robotic tasks described in natural language. however, existing LLM-enabled planners typically do not consider online planning or complex missions; rather, relevant subtasks and semantics are provided by a pre-built map or a user. we address these limitations via spine, an online planner for missions with incomplete mission specifications provided in natural language. the planner uses an LLM to reason about subtasks implied by the mission specification and then realizes these subtasks in a receding horizon framework. tasks are automatically validated for safety and refined online with new map observations. we evaluate spine in simulation and real-world settings with missions that require multiple steps of semantic reasoning and exploration in cluttered outdoor environments of over 20,000m$^2$. compared to baselines that use existing LLM-enabled planning approaches, our method is over twice as efficient in terms of time and distance, requires less user interactions, and does not require a full map. Additional resources are provided at: https://zacravichandran.github.io/SPINE.
- Abstract(参考訳): ロボットの能力が向上するにつれて、ユーザーは高レベルのミッションを記述し、関連する詳細をロボットに推論させたいだろう。
事前構築された地図は多くの現実的な環境で入手することが難しいため、そのようなミッションを達成するには、ロボットがオンラインで地図を作成して計画する必要がある。
多くのセマンティックプランニング手法がオンラインで運用されているが、それらは典型的には、オブジェクト探索や探索のような、明確に定義されたミッションのために設計されている。
近年、大規模言語モデル(LLM)は、自然言語で記述されたさまざまなロボットタスクに対して、強力な文脈推論能力を示している。
しかし、既存のLCM対応プランナーは、通常、オンライン計画や複雑なミッションを考慮せず、関連するサブタスクとセマンティクスは、事前に構築されたマップまたはユーザによって提供される。
我々はこれらの制限に対処する スパインのオンラインプランナー 自然言語で提供される不完全なミッション仕様を持つ ミッションのオンラインプランナー
プランナーはLSMを使用して、ミッション仕様によって暗示されるサブタスクを推論し、そのサブタスクを後退する水平線フレームワークで実現します。
タスクは安全のために自動的に検証され、新しい地図観察によってオンラインで洗練されます。
本研究では,2万m以上の乱雑な屋外環境におけるセマンティック推論と探索の複数のステップを必要とするミッションを用いて,シミュレーションと実世界設定のスピンを評価した。
既存のLCM対応計画手法を使用するベースラインと比較して,本手法は時間と距離の面で2倍以上効率が良く,ユーザとのインタラクションも少なく,フルマップを必要としない。
追加のリソースは、https://zacravichandran.github.io/SPINE.comで提供されている。
関連論文リスト
- LLM+MAP: Bimanual Robot Task Planning using Large Language Models and Planning Domain Definition Language [17.914580097058106]
両手間の空間的・時間的調整が複雑になるため、両手操作は固有の課題となる。
既存の作業は主に、ロボットハンドのための人間レベルの操作スキルの獲得に重点を置いているが、長い時間軸でのタスクプランニングにはほとんど関心が払われていない。
本稿では,LLM推論とマルチエージェント計画を統合した双方向計画フレームワークであるLLM+MAPを紹介する。
論文 参考訳(メタデータ) (2025-03-21T17:04:01Z) - Simultaneous Localization and Affordance Prediction for Tasks in Egocentric Video [18.14234312389889]
本稿では,視覚的インプットとタスク記述を結びつけるために,空間的局所化されたエゴセントリックビデオのトレーニングを行うシステムを提案する。
提案手法は,VLMを用いてタスク記述の類似性を位置タグ付き画像にマッピングする手法よりも優れていることを示す。
このシステムは、ロボットがエゴセントリックな感覚を使って、自然言語で指定された新しいタスクの物理的な場所をナビゲートすることを可能にする。
論文 参考訳(メタデータ) (2024-07-18T18:55:56Z) - Plan-Seq-Learn: Language Model Guided RL for Solving Long Horizon Robotics Tasks [50.27313829438866]
Plan-Seq-Learn (PSL) は、抽象言語と学習した低レベル制御の間のギャップを埋めるためにモーションプランニングを使用するモジュラーアプローチである。
PSLは85%以上の成功率、言語ベース、古典的、エンドツーエンドのアプローチを達成している。
論文 参考訳(メタデータ) (2024-05-02T17:59:31Z) - TravelPlanner: A Benchmark for Real-World Planning with Language Agents [63.199454024966506]
我々は,旅行計画に焦点を当てた新しい計画ベンチマークであるTravelPlannerを提案する。
豊富なサンドボックス環境、400万近いデータレコードにアクセスするためのさまざまなツール、計画意図とリファレンスプランを慎重にキュレートした1,225のツールを提供する。
包括的評価では、現在の言語エージェントがそのような複雑な計画タスクを処理できないことが示されており、GPT-4でさえ0.6%の成功率しか達成できない。
論文 参考訳(メタデータ) (2024-02-02T18:39:51Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - Navigation with Large Language Models: Semantic Guesswork as a Heuristic
for Planning [73.0990339667978]
不慣れな環境でのナビゲーションは、ロボットにとって大きな課題となる。
言語モデルを用いて、新しい現実世界環境のバイアス探索を行う。
実環境におけるLFGの評価とシミュレーションベンチマークを行った。
論文 参考訳(メタデータ) (2023-10-16T06:21:06Z) - Embodied Task Planning with Large Language Models [86.63533340293361]
本研究では,現場制約を考慮した地上計画のための具体的タスクにおけるTAsk Planing Agent (TaPA)を提案する。
推論の際には,オープンボキャブラリオブジェクト検出器を様々な場所で収集された多視点RGB画像に拡張することにより,シーン内の物体を検出する。
実験の結果,我々のTaPAフレームワークから生成されたプランは,LLaVAやGPT-3.5よりも大きなマージンで高い成功率が得られることがわかった。
論文 参考訳(メタデータ) (2023-07-04T17:58:25Z) - AutoTAMP: Autoregressive Task and Motion Planning with LLMs as Translators and Checkers [20.857692296678632]
人間とロボットの効果的なインタラクションには、ロボットは複雑な長期的タスクを理解し、計画し、実行する必要がある。
大規模言語モデルの最近の進歩は、自然言語をロボットのアクションシーケンスに変換することを約束している。
本研究では,複雑なタスク領域において,LLMをプランナとして用いる手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-10T21:58:29Z) - ProgPrompt: Generating Situated Robot Task Plans using Large Language
Models [68.57918965060787]
大規模言語モデル(LLM)は、タスク計画中の潜在的な次のアクションを評価するために使用することができる。
本稿では, プログラム型LCMプロンプト構造を用いて, 配置環境間での計画生成機能を実現する。
論文 参考訳(メタデータ) (2022-09-22T20:29:49Z) - Inner Monologue: Embodied Reasoning through Planning with Language
Models [81.07216635735571]
大規模言語モデル(LLM)は自然言語処理以外の領域に適用できる。
具体化された環境でのLLMの計画には、何をすべきかだけでなく、どのように、いつ行うべきかを考える必要がある。
環境フィードバックを活用することで、LLMはロボット制御シナリオにおいてよりリッチな処理と計画を行うことができる内部モノローグを形成することができる。
論文 参考訳(メタデータ) (2022-07-12T15:20:48Z) - Can Foundation Models Perform Zero-Shot Task Specification For Robot
Manipulation? [54.442692221567796]
タスク仕様は、熟練していないエンドユーザの関与とパーソナライズされたロボットの採用に不可欠である。
タスク仕様に対する広く研究されているアプローチは、目標を通じて、コンパクトな状態ベクトルまたは同じロボットシーンのゴールイメージを使用することである。
そこで本研究では,人間の指定や使用が容易な目標仕様の代替的,より汎用的な形式について検討する。
論文 参考訳(メタデータ) (2022-04-23T19:39:49Z) - Learning Language-Conditioned Robot Behavior from Offline Data and
Crowd-Sourced Annotation [80.29069988090912]
本研究では,ロボットインタラクションの大規模なオフラインデータセットから視覚に基づく操作タスクを学習する問題について検討する。
クラウドソースの自然言語ラベルを用いたオフラインロボットデータセットの活用を提案する。
提案手法は目標画像仕様と言語条件付き模倣技術の両方を25%以上上回っていることがわかった。
論文 参考訳(メタデータ) (2021-09-02T17:42:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。