論文の概要: Deep compositional robotic planners that follow natural language
commands
- arxiv url: http://arxiv.org/abs/2002.05201v2
- Date: Wed, 19 Feb 2020 16:21:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-01 20:23:23.056483
- Title: Deep compositional robotic planners that follow natural language
commands
- Title(参考訳): 自然言語命令に従う深層合成型ロボットプランナー
- Authors: Yen-Ling Kuo, Boris Katz, Andrei Barbu
- Abstract要約: サンプルベースのロボットプランナが、自然言語コマンドのシーケンスを理解するためにどのように拡張できるかを示す。
我々のアプローチは、オブジェクト、動詞、空間関係、属性を含む複雑なコマンドのパースに基づいて構築されたディープネットワークを組み合わせる。
- 参考スコア(独自算出の注目度): 21.481360281719006
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We demonstrate how a sampling-based robotic planner can be augmented to learn
to understand a sequence of natural language commands in a continuous
configuration space to move and manipulate objects. Our approach combines a
deep network structured according to the parse of a complex command that
includes objects, verbs, spatial relations, and attributes, with a
sampling-based planner, RRT. A recurrent hierarchical deep network controls how
the planner explores the environment, determines when a planned path is likely
to achieve a goal, and estimates the confidence of each move to trade off
exploitation and exploration between the network and the planner. Planners are
designed to have near-optimal behavior when information about the task is
missing, while networks learn to exploit observations which are available from
the environment, making the two naturally complementary. Combining the two
enables generalization to new maps, new kinds of obstacles, and more complex
sentences that do not occur in the training set. Little data is required to
train the model despite it jointly acquiring a CNN that extracts features from
the environment as it learns the meanings of words. The model provides a level
of interpretability through the use of attention maps allowing users to see its
reasoning steps despite being an end-to-end model. This end-to-end model allows
robots to learn to follow natural language commands in challenging continuous
environments.
- Abstract(参考訳): 連続的な構成空間における自然言語コマンドのシーケンスを理解してオブジェクトを移動・操作するために、サンプリングベースのロボットプランナをどのように拡張できるかを実証する。
提案手法では,オブジェクト,動詞,空間関係,属性を含む複雑なコマンドのパースに基づいて構築されたディープネットワークと,サンプリングベースプランナであるRTを組み合わせる。
繰り返し行われる階層的なディープネットワークは、プランナーがどのように環境を探索するかを制御し、計画されたパスがいつ目標を達成するかを決定し、ネットワークとプランナーの間のエクスプロイトと探索をトレードオフするそれぞれの動きの信頼性を推定する。
プランナーは、タスクに関する情報が欠けているときに、ほぼ最適に振る舞うように設計されており、一方、ネットワークは環境から入手可能な観測を生かし、これら2つを自然に補完する。
この2つを組み合わせることで、トレーニングセットにはない新しいマップ、新しい種類の障害、より複雑な文への一般化が可能になる。
単語の意味を学習する際に環境から特徴を抽出するcnnを共同で取得しているにも関わらず、モデルをトレーニングするデータはほとんど必要ありません。
このモデルは、エンド・ツー・エンドのモデルであるにもかかわらず、ユーザーが推論ステップを見ることができるように注意マップを使用することで、解釈可能性のレベルを提供する。
このエンドツーエンドモデルにより、ロボットは、継続的な環境に挑戦して自然言語コマンドに従うことを学べる。
関連論文リスト
- Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - tagE: Enabling an Embodied Agent to Understand Human Instructions [3.943519623674811]
我々は, Embodied Agent (tagE) のためのタスク・アンド・引数・グラウンドティング(タスク・アンド・引数・グラウンドディング)と呼ばれる新しいシステムを導入する。
本システムでは,自然言語で表現された複雑なタスク命令から一連のタスクを抽出するために,発明的なニューラルネットワークモデルを採用している。
提案モデルでは,入れ子デコードに富んだエンコーダ・デコーダ・フレームワークを用いて,複雑な命令からタスクとその引数を効果的に抽出する。
論文 参考訳(メタデータ) (2023-10-24T08:17:48Z) - Navigation with Large Language Models: Semantic Guesswork as a Heuristic
for Planning [73.0990339667978]
不慣れな環境でのナビゲーションは、ロボットにとって大きな課題となる。
言語モデルを用いて、新しい現実世界環境のバイアス探索を行う。
実環境におけるLFGの評価とシミュレーションベンチマークを行った。
論文 参考訳(メタデータ) (2023-10-16T06:21:06Z) - PDSketch: Integrated Planning Domain Programming and Learning [86.07442931141637]
我々は PDSketch という新しいドメイン定義言語を提案する。
これにより、ユーザーはトランジションモデルで柔軟にハイレベルな構造を定義できる。
移行モデルの詳細は、トレーニング可能なニューラルネットワークによって満たされる。
論文 参考訳(メタデータ) (2023-03-09T18:54:12Z) - Embodied Active Learning of Relational State Abstractions for Bilevel
Planning [6.1678491628787455]
述語で計画するには、エージェントはそれらを連続した環境状態で解釈できなければならない。
本稿では,エージェントが専門家とのオンライン対話を通じて述語解釈を学習する,実践型アクティブラーニングパラダイムを提案する。
我々はニューラルネットワークのアンサンブルとして述語解釈を学習し、そのエントロピーを用いて潜在的なクエリの情報性を測定する。
論文 参考訳(メタデータ) (2023-03-08T22:04:31Z) - Grounded Decoding: Guiding Text Generation with Grounded Models for
Embodied Agents [111.15288256221764]
グラウンデッドデコーディングプロジェクトは、両方のモデルの知識を活用することで、ロボット環境で複雑な長期タスクを解決することを目的としている。
我々はこれを確率的フィルタリングに類似した問題として、言語モデルの下で高い確率を持つシーケンスをデコードし、基底モデル対象のセットで高い確率を示す。
本研究では,3つのシミュレーション領域と実世界の領域にまたがって,そのような基底モデルがどのように得られるのかを実証し,両モデルの知識を活用して,ロボット環境での複雑な長期的タスクを解くことができることを示す。
論文 参考訳(メタデータ) (2023-03-01T22:58:50Z) - Planning for Learning Object Properties [117.27898922118946]
我々は、物体特性を象徴的な計画問題として認識するために、ニューラルネットワークを自動的に訓練する問題を定式化する。
トレーニングデータセット作成と学習プロセスを自動化するための戦略を作成するために,計画手法を使用します。
シミュレーションと実環境の両方で実験的な評価を行う。
論文 参考訳(メタデータ) (2023-01-15T09:37:55Z) - SCIM: Simultaneous Clustering, Inference, and Mapping for Open-World
Semantic Scene Understanding [34.19666841489646]
本研究では,ロボットが未知の環境を探索する際に,新しいセマンティッククラスを自律的に発見し,既知のクラスの精度を向上させる方法を示す。
セグメンテーションモデルを更新するための自己教師付き学習信号を生成するために,マッピングとクラスタリングのための一般的なフレームワークを開発する。
特に、デプロイ中にクラスタリングパラメータをどのように最適化するかを示し、複数の観測モダリティの融合が、以前の作業と比べて新しいオブジェクト発見を改善することを示す。
論文 参考訳(メタデータ) (2022-06-21T18:41:51Z) - Self-Supervised Learning of Lidar Segmentation for Autonomous Indoor
Navigation [17.46116398744719]
本稿では,ライダーフレームのセマンティックセグメンテーションのための自己監督型学習手法を提案する。
本手法は,人間のアノテーションを使わずに,ディープポイントクラウドセグメンテーションアーキテクチャをトレーニングするために用いられる。
ネットワーク予測に関する洞察を提供し、我々のアプローチが共通のローカライズ技術のパフォーマンスを向上できることを示します。
論文 参考訳(メタデータ) (2020-12-10T18:58:10Z) - Modeling Long-horizon Tasks as Sequential Interaction Landscapes [75.5824586200507]
本稿では,一連のデモビデオからのみ,サブタスク間の依存関係と遷移を学習するディープラーニングネットワークを提案する。
これらのシンボルは、画像観察から直接学習し、予測できることが示される。
我々は,(1)人間によって実行されるパズル片のブロック積み重ね,(2)物体のピック・アンド・プレイスとキャビネットドアを7-DoFロボットアームで滑らせるロボット操作という,2つの長期水平作業において,我々の枠組みを評価する。
論文 参考訳(メタデータ) (2020-06-08T18:07:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。