論文の概要: Lang2LTL: Translating Natural Language Commands to Temporal Robot Task
Specification
- arxiv url: http://arxiv.org/abs/2302.11649v1
- Date: Wed, 22 Feb 2023 20:56:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-24 16:58:04.224811
- Title: Lang2LTL: Translating Natural Language Commands to Temporal Robot Task
Specification
- Title(参考訳): Lang2LTL: 自然言語コマンドを一時ロボットタスク仕様に変換する
- Authors: Jason Xinyu Liu, Ziyi Yang, Ifrah Idrees, Sam Liang, Benjamin
Schornstein, Stefanie Tellex, Ankit Shah
- Abstract要約: Lang2LTLは、訓練済みの大規模言語モデルを利用して、自然言語コマンドから参照表現を抽出する新しいシステムである。
その後、表現を現実世界のランドマークやオブジェクトに置き、最後にコマンドをロボットのタスク仕様に変換する。
平均精度は88.4%で、22のOSM環境における難解な公式を翻訳する。
- 参考スコア(独自算出の注目度): 11.682314462794494
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Natural language provides a powerful modality to program robots to perform
temporal tasks. Linear temporal logic (LTL) provides unambiguous semantics for
formal descriptions of temporal tasks. However, existing approaches cannot
accurately and robustly translate English sentences to their equivalent LTL
formulas in unseen environments. To address this problem, we propose Lang2LTL,
a novel modular system that leverages pretrained large language models to first
extract referring expressions from a natural language command, then ground the
expressions to real-world landmarks and objects, and finally translate the
command into an LTL task specification for the robot. It enables any robotic
system to interpret natural language navigation commands without additional
training, provided that it tracks its position and has a semantic map with
landmarks labeled with free-form text. We demonstrate the state-of-the-art
ability to generalize to multi-scale navigation domains such as OpenStreetMap
(OSM) and CleanUp World (a simulated household environment). Lang2LTL achieves
an average accuracy of 88.4% in translating challenging LTL formulas in 22
unseen OSM environments as evaluated on a new corpus of over 10,000 commands,
22 times better than the previous SoTA. Without modification, the best
performing Lang2LTL model on the OSM dataset can translate commands in CleanUp
World with 82.8% accuracy. As a part of our proposed comprehensive evaluation
procedures, we collected a new labeled dataset of English commands representing
2,125 unique LTL formulas, the largest ever dataset of natural language
commands to LTL specifications for robotic tasks with the most diverse LTL
formulas, 40 times more than previous largest dataset. Finally, we integrated
Lang2LTL with a planner to command a quadruped mobile robot to perform
multi-step navigational tasks in an analog real-world environment created in
the lab.
- Abstract(参考訳): 自然言語は、時間的タスクを実行するロボットをプログラムするための強力なモダリティを提供する。
線形時間論理(LTL)は、時間的タスクの形式的記述のための曖昧な意味論を提供する。
しかし、既存の手法では、未知の環境で英語文を同等のLTL式に正確かつ堅牢に翻訳することはできない。
この問題を解決するために我々は,事前訓練された大型言語モデルを利用して自然言語コマンドから参照表現を抽出し,その表現を実世界のランドマークやオブジェクトに接地し,最終的にロボットのltlタスク仕様に変換する,新しいモジュールシステムlang2ltlを提案する。
任意のロボットシステムは、追加のトレーニングなしで自然言語ナビゲーションコマンドを解釈することができ、その位置を追跡し、自由形式のテキストでラベル付けされたランドマーク付きセマンティックマップを持つ。
我々は,openstreetmap (osm) や cleanup world (シミュレートされた家庭環境) といったマルチスケールナビゲーションドメインに一般化する最先端の能力を示す。
Lang2LTLは、以前のSoTAの22倍の1万以上のコマンドからなる新しいコーパスで評価された22のOSM環境において、挑戦的なTLL公式を翻訳する際に平均88.4%の精度を達成する。
OSMデータセット上で最高のLang2LTLモデルを実行すると、CleanUp Worldのコマンドを82.8%の精度で翻訳できる。
提案した包括的評価手法の一環として,2125個のLTL式を表す英語コマンドのラベル付きデータセットを新たに収集した。これは,これまでで最大となるLTL式よりも40倍の,最も多様なLTL式を持つロボットタスクのLTL仕様に対する自然言語コマンドのデータセットとして最大である。
最後にlang2ltlとプランナーを統合し,四足歩行ロボットにラボで作成したアナログ現実環境において多段階のナビゲーションタスクを行うように指示した。
関連論文リスト
- From LLMs to Actions: Latent Codes as Bridges in Hierarchical Robot Control [58.72492647570062]
我々は,制限を克服する代替アーキテクチャとして,Learningable Latent Codes as Bridges (LCB)を導入した。
methodoutperforms baselines that leverage pure language as the interface layer on tasks that requires reasoning and multi-step behaviors。
論文 参考訳(メタデータ) (2024-05-08T04:14:06Z) - Vision and Language Navigation in the Real World via Online Visual
Language Mapping [18.769171505280127]
視覚・言語ナビゲーション(VLN)法は主にシミュレーションで評価される。
実世界のVLN課題に対処する新しい枠組みを提案する。
未確認実験環境において,Interbotix LoCoBot WX250を用いたパイプラインの評価を行った。
論文 参考訳(メタデータ) (2023-10-16T20:44:09Z) - SayNav: Grounding Large Language Models for Dynamic Planning to Navigation in New Environments [14.179677726976056]
SayNavは、Large Language Models(LLM)からの人間の知識を活用して、複雑なナビゲーションタスクを効率的に一般化する新しいアプローチである。
SayNavは最先端の結果を達成し、成功率の点で強烈な地道的な仮定でオラクルベースのベースラインを8%以上上回ります。
論文 参考訳(メタデータ) (2023-09-08T02:24:37Z) - $A^2$Nav: Action-Aware Zero-Shot Robot Navigation by Exploiting
Vision-and-Language Ability of Foundation Models [89.64729024399634]
本研究では,ゼロショット視覚言語ナビゲーション(ZS-VLN)の課題について検討する。
通常、命令は複雑な文法構造を持ち、しばしば様々な行動記述を含む。
これらのアクション要求を正しく理解し実行する方法は重要な問題であり、アノテーション付きデータがないため、さらに困難になる。
論文 参考訳(メタデータ) (2023-08-15T19:01:19Z) - VELMA: Verbalization Embodiment of LLM Agents for Vision and Language
Navigation in Street View [81.58612867186633]
視覚と言語ナビゲーション(VLN)は、視覚的および自然言語の理解と空間的および時間的推論能力を必要とする。
VELMAは,2つのコンテキスト内例のみを用いて,ストリートビューでのナビゲーション指示に従うことができることを示す。
数千の例でLLMエージェントをさらに微調整し、従来の2つのデータセットのタスク完了に対する25%-30%の相対的な改善を実現した。
論文 参考訳(メタデータ) (2023-07-12T11:08:24Z) - Data-Efficient Learning of Natural Language to Linear Temporal Logic
Translators for Robot Task Specification [6.091096843566857]
本稿では、自然言語コマンドから、人間ラベルの訓練データに制限のある仕様への変換を学習ベースで行う手法を提案する。
これは、人間のラベル付きデータセットを必要とする既存の自然言語から翻訳者への変換とは対照的である。
自然言語コマンドを75%の精度で翻訳できることを示す。
論文 参考訳(メタデータ) (2023-03-09T00:09:58Z) - LM-Nav: Robotic Navigation with Large Pre-Trained Models of Language,
Vision, and Action [76.71101507291473]
本稿では,無注釈の大規模軌跡データに対するトレーニングの恩恵を享受するロボットナビゲーションシステムLM-Navを提案する。
本研究では,ナビゲーション(ViNG),画像言語アソシエーション(CLIP),言語モデリング(GPT-3)の事前学習モデルから構築可能なシステムについて述べる。
論文 参考訳(メタデータ) (2022-07-10T10:41:50Z) - FILM: Following Instructions in Language with Modular Methods [109.73082108379936]
近年のインボディード・インストラクションの手法は、模倣学習を用いてエンド・ツー・エンドで訓練されている。
本稿では,シーンのセマンティックマップを構築し,セマンティック検索ポリシーを用いて探索を行う構造化表現を用いたモジュラー手法を提案する。
以上の結果から,空間記憶の明示と意味探索の方針が,状態追跡とガイダンスのためのより強固で汎用的な表現を提供する可能性が示唆された。
論文 参考訳(メタデータ) (2021-10-12T16:40:01Z) - Generalizing to New Domains by Mapping Natural Language to Lifted LTL [20.58567011476273]
本稿では、ひとつの肯定的なタスク仕様例から学習可能な、中間的コンテキストクエリ表現を提案する。
我々は、自然言語を翻訳できる最先端のCopyNetモデルと比較する。
シミュレーションされたOO-MDP環境において,提案手法の出力を計画に利用できることを実証した。
論文 参考訳(メタデータ) (2021-10-11T20:49:26Z) - Environment-agnostic Multitask Learning for Natural Language Grounded
Navigation [88.69873520186017]
本稿では,視覚言語ナビゲーション(VLN)タスクと対話履歴からのナビゲーション(NDH)タスクをシームレスにトレーニングできるマルチタスクナビゲーションモデルを提案する。
実験により、環境に依存しないマルチタスク学習は、目に見える環境と目に見えない環境の間のパフォーマンスギャップを著しく減少させることが示された。
論文 参考訳(メタデータ) (2020-03-01T09:06:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。