Fugu-MT 論文翻訳(概要): Language Understanding for Field and Service Robots in a Priori Unknown Environments

論文の概要: Language Understanding for Field and Service Robots in a Priori Unknown Environments

arxiv url: http://arxiv.org/abs/2105.10396v1
Date: Fri, 21 May 2021 15:13:05 GMT
ステータス: 翻訳完了
システム内更新日: 2021-05-25 03:21:20.021802
Title: Language Understanding for Field and Service Robots in a Priori Unknown Environments
Title（参考訳）: 事前未知環境における現場・サービスロボットのための言語理解
Authors: Matthew R. Walter, Siddharth Patki, Andrea F. Daniele, Ethan Fahnestock, Felix Duvallet, Sachithra Hemachandra, Jean Oh, Anthony Stentz, Nicholas Roy, and Thomas M. Howard
Abstract要約: 本稿では,フィールドロボットとサービスロボットによる自然言語命令の解釈と実行を可能にする,新しい学習フレームワークを提案する。自然言語の発話において、空間的、位相的、意味的な情報を暗黙的に推測する。本研究では,この分布を確率論的言語基底モデルに組み込んで,ロボットの行動空間のシンボル表現上の分布を推定する。
参考スコア（独自算出の注目度）: 29.16936249846063
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Contemporary approaches to perception, planning, estimation, and control have allowed robots to operate robustly as our remote surrogates in uncertain, unstructured environments. There is now an opportunity for robots to operate not only in isolation, but also with and alongside humans in our complex environments. Natural language provides an efficient and flexible medium through which humans can communicate with collaborative robots. Through significant progress in statistical methods for natural language understanding, robots are now able to interpret a diverse array of free-form navigation, manipulation, and mobile manipulation commands. However, most contemporary approaches require a detailed prior spatial-semantic map of the robot's environment that models the space of possible referents of the utterance. Consequently, these methods fail when robots are deployed in new, previously unknown, or partially observed environments, particularly when mental models of the environment differ between the human operator and the robot. This paper provides a comprehensive description of a novel learning framework that allows field and service robots to interpret and correctly execute natural language instructions in a priori unknown, unstructured environments. Integral to our approach is its use of language as a "sensor" -- inferring spatial, topological, and semantic information implicit in natural language utterances and then exploiting this information to learn a distribution over a latent environment model. We incorporate this distribution in a probabilistic language grounding model and infer a distribution over a symbolic representation of the robot's action space. We use imitation learning to identify a belief space policy that reasons over the environment and behavior distributions. We evaluate our framework through a variety of different navigation and mobile manipulation experiments.
Abstract（参考訳）: 認識、計画、推定、制御に対する現代のアプローチにより、ロボットは不確実で非構造的な環境において、我々のリモートサロゲートとして堅牢に動作することができた。現在、ロボットは孤立した環境だけでなく、複雑な環境の中で人間と一緒に活動する機会があります。自然言語は、人間が協調ロボットとコミュニケーションできる効率的で柔軟な媒体を提供する。自然言語理解のための統計的手法の大幅な進歩により、ロボットは様々な自由形式のナビゲーション、操作、移動操作コマンドを解釈できるようになった。しかし、現代のほとんどのアプローチでは、発話の可能な参照者の空間をモデル化するロボット環境の詳細な空間意味マップが必要である。その結果、ロボットが新しい、以前は知られていなかった、あるいは部分的に観察された環境に展開された場合、特に環境のメンタルモデルが人間とロボットの間で異なる場合、これらの方法は失敗する。本稿では,フィールドロボットとサービスロボットが,未知の非構造環境下で自然言語命令を解釈し,正しく実行できるようにする,新しい学習フレームワークの包括的記述を提供する。自然言語の発話で暗黙的に空間的、位相的、意味的な情報を推測し、この情報を利用して潜伏環境モデル上の分布を学習する。本研究では,この分布を確率論的言語基底モデルに組み込んで,ロボットの行動空間のシンボル表現上の分布を推定する。我々は,環境や行動分布の理由となる信念空間政策を模倣学習を用いて同定する。我々は,様々なナビゲーションおよびモバイル操作実験を通じて,我々のフレームワークを評価する。

関連論文リスト

Deploying Foundation Model-Enabled Air and Ground Robots in the Field: Challenges and Opportunities [65.98704516122228]
基礎モデル(FM)をロボット工学に統合することで、ロボットは自然言語を理解し、環境のセマンティクスを推論できるようになった。本稿では,FM対応ロボットを現場に展開する上で,大規模で非構造的な環境下でのロボットの運用に必要なミッションについて述べる。数kmのミッションを持つ非構造環境下での大規模LLM対応ロボット計画の実証実験を行った。
論文参考訳（メタデータ） (2025-05-14T15:28:43Z)
Air-Ground Collaboration for Language-Specified Missions in Unknown Environments [62.56917065429864]
本稿では,無人航空機 (UAV) と無人地上機 (UGV) が,自然言語で指定されたミッションを協調的に達成できる,第一種システムを提案する。我々は、Large Language Model(LLM)対応プランナーを利用して、オンライン上に構築され、航空ロボットと地上ロボットの間で機会的に共有されるセマンティック・メトリック・マップを推論する。
論文参考訳（メタデータ） (2025-05-14T03:33:46Z)
Grounding Robot Policies with Visuomotor Language Guidance [15.774237279917594]
ロボットポリシーを現在の状況に基盤付けるためのエージェントベースのフレームワークを提案する。提案するフレームワークは、特定の役割のために設計された会話エージェントのセットで構成されている。弊社のアプローチは、操作ポリシーを効果的にガイドし、成功率を大幅に向上させることを実証する。
論文参考訳（メタデータ） (2024-10-09T02:00:37Z)
Context-Aware Command Understanding for Tabletop Scenarios [1.7082212774297747]
本稿では,テーブルトップシナリオにおける自然人コマンドの解釈を目的とした,新しいハイブリッドアルゴリズムを提案する。音声、ジェスチャー、シーンコンテキストを含む複数の情報ソースを統合することにより、ロボットに対して実行可能な指示を抽出する。システムの長所と短所、特にマルチモーダルコマンド解釈の扱い方について論じる。
論文参考訳（メタデータ） (2024-10-08T20:46:39Z)
Hearing the shape of an arena with spectral swarm robotics [0.0]
ロボットが隣人に情報を拡散してラプラシアン演算子をエミュレートするスペクトルスウォームロボットを紹介した。本研究では,アリーナ形状のワンショット分類による課題条件下でのスペクトルスウォームロボティクスの検証を行った。スペクトル法はロボティクスを超えて、交通や群衆といった様々な性質のエージェントの群れを分析し、調整することができる。
論文参考訳（メタデータ） (2024-03-25T19:50:07Z)
Exploring Large Language Models to Facilitate Variable Autonomy for Human-Robot Teaming [4.779196219827508]
本稿では,VR(Unity Virtual Reality)設定に基づく,GPTを利用したマルチロボットテストベッド環境のための新しいフレームワークを提案する。このシステムにより、ユーザーは自然言語でロボットエージェントと対話でき、それぞれが個々のGPTコアで動く。 12人の参加者によるユーザスタディでは、GPT-4の有効性と、さらに重要なのは、マルチロボット環境で自然言語で会話する機会を与えられる際のユーザ戦略について検討している。
論文参考訳（メタデータ） (2023-12-12T12:26:48Z)
Navigation with Large Language Models: Semantic Guesswork as a Heuristic for Planning [73.0990339667978]
不慣れな環境でのナビゲーションは、ロボットにとって大きな課題となる。言語モデルを用いて、新しい現実世界環境のバイアス探索を行う。実環境におけるLFGの評価とシミュレーションベンチマークを行った。
論文参考訳（メタデータ） (2023-10-16T06:21:06Z)
Open-World Object Manipulation using Pre-trained Vision-Language Models [72.87306011500084]
ロボットが人からの指示に従うためには、人間の語彙の豊かな意味情報を繋げなければならない。我々は、事前学習された視覚言語モデルを利用して、オブジェクト識別情報を抽出するシンプルなアプローチを開発する。実際の移動マニピュレータにおける様々な実験において、MOOはゼロショットを様々な新しいオブジェクトカテゴリや環境に一般化する。
論文参考訳（メタデータ） (2023-03-02T01:55:10Z)
Grounded Decoding: Guiding Text Generation with Grounded Models for Embodied Agents [111.15288256221764]
グラウンデッドデコーディングプロジェクトは、両方のモデルの知識を活用することで、ロボット環境で複雑な長期タスクを解決することを目的としている。我々はこれを確率的フィルタリングに類似した問題として、言語モデルの下で高い確率を持つシーケンスをデコードし、基底モデル対象のセットで高い確率を示す。本研究では,3つのシミュレーション領域と実世界の領域にまたがって,そのような基底モデルがどのように得られるのかを実証し,両モデルの知識を活用して,ロボット環境での複雑な長期的タスクを解くことができることを示す。
論文参考訳（メタデータ） (2023-03-01T22:58:50Z)
"No, to the Right" -- Online Language Corrections for Robotic Manipulation via Shared Autonomy [70.45420918526926]
LILACは、実行中に自然言語の修正をオンラインで実施し、適応するためのフレームワークである。 LILACは人間とロボットを個別にターンテイクする代わりに、人間とロボットの間にエージェンシーを分割する。提案手法は,タスク完了率が高く,ユーザによって主観的に好まれることを示す。
論文参考訳（メタデータ） (2023-01-06T15:03:27Z)
Do As I Can, Not As I Say: Grounding Language in Robotic Affordances [119.29555551279155]
大規模な言語モデルは、世界に関する豊富な意味知識を符号化することができる。このような知識は、自然言語で表現された高レベルで時間的に拡張された命令を動作させようとするロボットにとって極めて有用である。低レベルのスキルを大規模言語モデルと組み合わせることで,言語モデルが複雑かつ時間的に拡張された命令を実行する手順について高いレベルの知識を提供することを示す。
論文参考訳（メタデータ） (2022-04-04T17:57:11Z)
Reshaping Robot Trajectories Using Natural Language Commands: A Study of Multi-Modal Data Alignment Using Transformers [33.7939079214046]
我々は、人間とロボットのコラボレーションのための柔軟な言語ベースのインタフェースを提供する。我々は、ユーザコマンドをエンコードする大規模言語モデルの分野における最近の進歩を生かしている。言語コマンドによって修正されたロボット軌跡を含むデータセット上で、模倣学習を用いてモデルを訓練する。
論文参考訳（メタデータ） (2022-03-25T01:36:56Z)
Learning Language-Conditioned Robot Behavior from Offline Data and Crowd-Sourced Annotation [80.29069988090912]
本研究では,ロボットインタラクションの大規模なオフラインデータセットから視覚に基づく操作タスクを学習する問題について検討する。クラウドソースの自然言語ラベルを用いたオフラインロボットデータセットの活用を提案する。提案手法は目標画像仕様と言語条件付き模倣技術の両方を25%以上上回っていることがわかった。
論文参考訳（メタデータ） (2021-09-02T17:42:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。