Fugu-MT 論文翻訳(概要): Deep compositional robotic planners that follow natural language commands

論文の概要: Deep compositional robotic planners that follow natural language commands

arxiv url: http://arxiv.org/abs/2002.05201v2
Date: Wed, 19 Feb 2020 16:21:46 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-01 20:23:23.056483
Title: Deep compositional robotic planners that follow natural language commands
Title（参考訳）: 自然言語命令に従う深層合成型ロボットプランナー
Authors: Yen-Ling Kuo, Boris Katz, Andrei Barbu
Abstract要約: サンプルベースのロボットプランナが、自然言語コマンドのシーケンスを理解するためにどのように拡張できるかを示す。我々のアプローチは、オブジェクト、動詞、空間関係、属性を含む複雑なコマンドのパースに基づいて構築されたディープネットワークを組み合わせる。
参考スコア（独自算出の注目度）: 21.481360281719006
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We demonstrate how a sampling-based robotic planner can be augmented to learn to understand a sequence of natural language commands in a continuous configuration space to move and manipulate objects. Our approach combines a deep network structured according to the parse of a complex command that includes objects, verbs, spatial relations, and attributes, with a sampling-based planner, RRT. A recurrent hierarchical deep network controls how the planner explores the environment, determines when a planned path is likely to achieve a goal, and estimates the confidence of each move to trade off exploitation and exploration between the network and the planner. Planners are designed to have near-optimal behavior when information about the task is missing, while networks learn to exploit observations which are available from the environment, making the two naturally complementary. Combining the two enables generalization to new maps, new kinds of obstacles, and more complex sentences that do not occur in the training set. Little data is required to train the model despite it jointly acquiring a CNN that extracts features from the environment as it learns the meanings of words. The model provides a level of interpretability through the use of attention maps allowing users to see its reasoning steps despite being an end-to-end model. This end-to-end model allows robots to learn to follow natural language commands in challenging continuous environments.
Abstract（参考訳）: 連続的な構成空間における自然言語コマンドのシーケンスを理解してオブジェクトを移動・操作するために、サンプリングベースのロボットプランナをどのように拡張できるかを実証する。提案手法では,オブジェクト,動詞,空間関係,属性を含む複雑なコマンドのパースに基づいて構築されたディープネットワークと,サンプリングベースプランナであるRTを組み合わせる。繰り返し行われる階層的なディープネットワークは、プランナーがどのように環境を探索するかを制御し、計画されたパスがいつ目標を達成するかを決定し、ネットワークとプランナーの間のエクスプロイトと探索をトレードオフするそれぞれの動きの信頼性を推定する。プランナーは、タスクに関する情報が欠けているときに、ほぼ最適に振る舞うように設計されており、一方、ネットワークは環境から入手可能な観測を生かし、これら2つを自然に補完する。この2つを組み合わせることで、トレーニングセットにはない新しいマップ、新しい種類の障害、より複雑な文への一般化が可能になる。単語の意味を学習する際に環境から特徴を抽出するcnnを共同で取得しているにも関わらず、モデルをトレーニングするデータはほとんど必要ありません。このモデルは、エンド・ツー・エンドのモデルであるにもかかわらず、ユーザーが推論ステップを見ることができるように注意マップを使用することで、解釈可能性のレベルを提供する。このエンドツーエンドモデルにより、ロボットは、継続的な環境に挑戦して自然言語コマンドに従うことを学べる。

関連論文リスト

Adaptive Interactive Navigation of Quadruped Robots using Large Language Models [14.14967096139099]
大規模言語モデル(LLM)を用いたタスク計画のための原始木を提案する。動作計画のための多目的移動と相互作用行動を含む総合的なスキルライブラリを事前学習するために強化学習を採用する。ツリー構造に統合されたリプランニングメカニズムにより、便利なノードの追加とプルーニングが可能になる。
論文参考訳（メタデータ） (2025-03-29T02:17:52Z)
Flex: End-to-End Text-Instructed Visual Navigation with Foundation Models [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。この知見はFlex (Fly-lexically) で合成され,VLM(Vision Language Models) をフリーズしたパッチワイド特徴抽出器として利用するフレームワークである。本研究では,本手法が4段階のフライ・トゥ・ターゲットタスクにおいて有効であることを示す。
論文参考訳（メタデータ） (2024-10-16T19:59:31Z)
Context-Aware Command Understanding for Tabletop Scenarios [1.7082212774297747]
本稿では,テーブルトップシナリオにおける自然人コマンドの解釈を目的とした,新しいハイブリッドアルゴリズムを提案する。音声、ジェスチャー、シーンコンテキストを含む複数の情報ソースを統合することにより、ロボットに対して実行可能な指示を抽出する。システムの長所と短所、特にマルチモーダルコマンド解釈の扱い方について論じる。
論文参考訳（メタデータ） (2024-10-08T20:46:39Z)
Embodied Instruction Following in Unknown Environments [66.60163202450954]
未知環境における複雑なタスクに対するEIF(Embodied instruction following)法を提案する。我々は,ハイレベルなタスクプランナと低レベルな探索コントローラを含む,階層的な具体化命令に従うフレームワークを構築した。タスクプランナに対しては、タスク完了プロセスと既知の視覚的手がかりに基づいて、人間の目標達成のための実行可能なステップバイステッププランを生成する。
論文参考訳（メタデータ） (2024-06-17T17:55:40Z)
Interactive Planning Using Large Language Models for Partially Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。 LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文参考訳（メタデータ） (2023-12-11T22:54:44Z)
tagE: Enabling an Embodied Agent to Understand Human Instructions [3.943519623674811]
我々は, Embodied Agent (tagE) のためのタスク・アンド・引数・グラウンドティング(タスク・アンド・引数・グラウンドディング)と呼ばれる新しいシステムを導入する。本システムでは,自然言語で表現された複雑なタスク命令から一連のタスクを抽出するために,発明的なニューラルネットワークモデルを採用している。提案モデルでは,入れ子デコードに富んだエンコーダ・デコーダ・フレームワークを用いて,複雑な命令からタスクとその引数を効果的に抽出する。
論文参考訳（メタデータ） (2023-10-24T08:17:48Z)
Navigation with Large Language Models: Semantic Guesswork as a Heuristic for Planning [73.0990339667978]
不慣れな環境でのナビゲーションは、ロボットにとって大きな課題となる。言語モデルを用いて、新しい現実世界環境のバイアス探索を行う。実環境におけるLFGの評価とシミュレーションベンチマークを行った。
論文参考訳（メタデータ） (2023-10-16T06:21:06Z)
A General Framework for Interpretable Neural Learning based on Local Information-Theoretic Goal Functions [1.5236380958983644]
我々は、教師なし、教師なし、メモリ学習のタスクを実行するために、'不定型'ニューラルネットワークを導入する。 PIDフレームワークの解釈可能な性質を活用することで、インフォモーフィックネットワークは、局所学習の複雑な構造を理解するための貴重なツールとなる。
論文参考訳（メタデータ） (2023-06-03T16:34:25Z)
PDSketch: Integrated Planning Domain Programming and Learning [86.07442931141637]
我々は PDSketch という新しいドメイン定義言語を提案する。これにより、ユーザーはトランジションモデルで柔軟にハイレベルな構造を定義できる。移行モデルの詳細は、トレーニング可能なニューラルネットワークによって満たされる。
論文参考訳（メタデータ） (2023-03-09T18:54:12Z)
Embodied Active Learning of Relational State Abstractions for Bilevel Planning [6.1678491628787455]
述語で計画するには、エージェントはそれらを連続した環境状態で解釈できなければならない。本稿では,エージェントが専門家とのオンライン対話を通じて述語解釈を学習する,実践型アクティブラーニングパラダイムを提案する。我々はニューラルネットワークのアンサンブルとして述語解釈を学習し、そのエントロピーを用いて潜在的なクエリの情報性を測定する。
論文参考訳（メタデータ） (2023-03-08T22:04:31Z)
Modeling Long-horizon Tasks as Sequential Interaction Landscapes [75.5824586200507]
本稿では,一連のデモビデオからのみ,サブタスク間の依存関係と遷移を学習するディープラーニングネットワークを提案する。これらのシンボルは、画像観察から直接学習し、予測できることが示される。我々は,(1)人間によって実行されるパズル片のブロック積み重ね,(2)物体のピック・アンド・プレイスとキャビネットドアを7-DoFロボットアームで滑らせるロボット操作という,2つの長期水平作業において,我々の枠組みを評価する。
論文参考訳（メタデータ） (2020-06-08T18:07:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。