論文の概要: Grounding Complex Natural Language Commands for Temporal Tasks in Unseen
Environments
- arxiv url: http://arxiv.org/abs/2302.11649v2
- Date: Tue, 17 Oct 2023 18:21:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-19 20:52:41.700263
- Title: Grounding Complex Natural Language Commands for Temporal Tasks in Unseen
Environments
- Title(参考訳): 目に見えない環境における時間課題のための複雑な自然言語コマンド
- Authors: Jason Xinyu Liu, Ziyi Yang, Ifrah Idrees, Sam Liang, Benjamin
Schornstein, Stefanie Tellex, Ankit Shah
- Abstract要約: Lang2LTLは、大規模な言語モデルを利用して、事前の言語データを持たない環境の仕様に時間的ナビゲーションコマンドを基盤とするモジュールシステムである。
都市規模21の環境において,Lang2LTLのナビゲーションコマンドを多種多様な時間的仕様に設定できることを実証する。
- 参考スコア(独自算出の注目度): 21.05763924114676
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Grounding navigational commands to linear temporal logic (LTL) leverages its
unambiguous semantics for reasoning about long-horizon tasks and verifying the
satisfaction of temporal constraints. Existing approaches require training data
from the specific environment and landmarks that will be used in natural
language to understand commands in those environments. We propose Lang2LTL, a
modular system and a software package that leverages large language models
(LLMs) to ground temporal navigational commands to LTL specifications in
environments without prior language data. We comprehensively evaluate Lang2LTL
for five well-defined generalization behaviors. Lang2LTL demonstrates the
state-of-the-art ability of a single model to ground navigational commands to
diverse temporal specifications in 21 city-scaled environments. Finally, we
demonstrate a physical robot using Lang2LTL can follow 52 semantically diverse
navigational commands in two indoor environments.
- Abstract(参考訳): リニア時間論理(LTL)へのナビゲーションコマンドの接地は、その曖昧なセマンティクスを活用して、時間的制約の満足度を検証する。
既存のアプローチでは、これらの環境におけるコマンドを理解するために、自然言語で使用される特定の環境とランドマークからのトレーニングデータが必要です。
本稿では,Lang2LTLを提案する。Lang2LTLは,大規模言語モデル(LLM)を利用して,事前の言語データを持たない環境において,LTL仕様に時間的ナビゲーションコマンドを付加するソフトウェアパッケージである。
我々は,ラング2ltlを5つの well-defined generalization behavior に対して包括的に評価する。
Lang2LTLは、21の都市規模環境において、ナビゲーションコマンドを多様な時間仕様にグラウンドする単一モデルの最先端能力を示す。
最後に,Lang2LTLを用いた物理ロボットは,2つの屋内環境において52種類の意味的に多様なナビゲーションコマンドに従うことができることを示す。
関連論文リスト
- From LLMs to Actions: Latent Codes as Bridges in Hierarchical Robot Control [58.72492647570062]
我々は,制限を克服する代替アーキテクチャとして,Learningable Latent Codes as Bridges (LCB)を導入した。
methodoutperforms baselines that leverage pure language as the interface layer on tasks that requires reasoning and multi-step behaviors。
論文 参考訳(メタデータ) (2024-05-08T04:14:06Z) - Vision and Language Navigation in the Real World via Online Visual
Language Mapping [18.769171505280127]
視覚・言語ナビゲーション(VLN)法は主にシミュレーションで評価される。
実世界のVLN課題に対処する新しい枠組みを提案する。
未確認実験環境において,Interbotix LoCoBot WX250を用いたパイプラインの評価を行った。
論文 参考訳(メタデータ) (2023-10-16T20:44:09Z) - SayNav: Grounding Large Language Models for Dynamic Planning to Navigation in New Environments [14.179677726976056]
SayNavは、Large Language Models(LLM)からの人間の知識を活用して、複雑なナビゲーションタスクを効率的に一般化する新しいアプローチである。
SayNavは最先端の結果を達成し、成功率の点で強烈な地道的な仮定でオラクルベースのベースラインを8%以上上回ります。
論文 参考訳(メタデータ) (2023-09-08T02:24:37Z) - $A^2$Nav: Action-Aware Zero-Shot Robot Navigation by Exploiting
Vision-and-Language Ability of Foundation Models [89.64729024399634]
本研究では,ゼロショット視覚言語ナビゲーション(ZS-VLN)の課題について検討する。
通常、命令は複雑な文法構造を持ち、しばしば様々な行動記述を含む。
これらのアクション要求を正しく理解し実行する方法は重要な問題であり、アノテーション付きデータがないため、さらに困難になる。
論文 参考訳(メタデータ) (2023-08-15T19:01:19Z) - VELMA: Verbalization Embodiment of LLM Agents for Vision and Language
Navigation in Street View [81.58612867186633]
視覚と言語ナビゲーション(VLN)は、視覚的および自然言語の理解と空間的および時間的推論能力を必要とする。
VELMAは,2つのコンテキスト内例のみを用いて,ストリートビューでのナビゲーション指示に従うことができることを示す。
数千の例でLLMエージェントをさらに微調整し、従来の2つのデータセットのタスク完了に対する25%-30%の相対的な改善を実現した。
論文 参考訳(メタデータ) (2023-07-12T11:08:24Z) - Data-Efficient Learning of Natural Language to Linear Temporal Logic
Translators for Robot Task Specification [6.091096843566857]
本稿では、自然言語コマンドから、人間ラベルの訓練データに制限のある仕様への変換を学習ベースで行う手法を提案する。
これは、人間のラベル付きデータセットを必要とする既存の自然言語から翻訳者への変換とは対照的である。
自然言語コマンドを75%の精度で翻訳できることを示す。
論文 参考訳(メタデータ) (2023-03-09T00:09:58Z) - LM-Nav: Robotic Navigation with Large Pre-Trained Models of Language,
Vision, and Action [76.71101507291473]
本稿では,無注釈の大規模軌跡データに対するトレーニングの恩恵を享受するロボットナビゲーションシステムLM-Navを提案する。
本研究では,ナビゲーション(ViNG),画像言語アソシエーション(CLIP),言語モデリング(GPT-3)の事前学習モデルから構築可能なシステムについて述べる。
論文 参考訳(メタデータ) (2022-07-10T10:41:50Z) - FILM: Following Instructions in Language with Modular Methods [109.73082108379936]
近年のインボディード・インストラクションの手法は、模倣学習を用いてエンド・ツー・エンドで訓練されている。
本稿では,シーンのセマンティックマップを構築し,セマンティック検索ポリシーを用いて探索を行う構造化表現を用いたモジュラー手法を提案する。
以上の結果から,空間記憶の明示と意味探索の方針が,状態追跡とガイダンスのためのより強固で汎用的な表現を提供する可能性が示唆された。
論文 参考訳(メタデータ) (2021-10-12T16:40:01Z) - Generalizing to New Domains by Mapping Natural Language to Lifted LTL [20.58567011476273]
本稿では、ひとつの肯定的なタスク仕様例から学習可能な、中間的コンテキストクエリ表現を提案する。
我々は、自然言語を翻訳できる最先端のCopyNetモデルと比較する。
シミュレーションされたOO-MDP環境において,提案手法の出力を計画に利用できることを実証した。
論文 参考訳(メタデータ) (2021-10-11T20:49:26Z) - Environment-agnostic Multitask Learning for Natural Language Grounded
Navigation [88.69873520186017]
本稿では,視覚言語ナビゲーション(VLN)タスクと対話履歴からのナビゲーション(NDH)タスクをシームレスにトレーニングできるマルチタスクナビゲーションモデルを提案する。
実験により、環境に依存しないマルチタスク学習は、目に見える環境と目に見えない環境の間のパフォーマンスギャップを著しく減少させることが示された。
論文 参考訳(メタデータ) (2020-03-01T09:06:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。