論文の概要: Interactive Language: Talking to Robots in Real Time
- arxiv url: http://arxiv.org/abs/2210.06407v1
- Date: Wed, 12 Oct 2022 17:03:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-13 13:36:00.848208
- Title: Interactive Language: Talking to Robots in Real Time
- Title(参考訳): 対話型言語: ロボットとリアルタイムで会話する
- Authors: Corey Lynch, Ayzaan Wahid, Jonathan Tompson, Tianli Ding, James
Betker, Robert Baruch, Travis Armstrong, Pete Florence
- Abstract要約: 本稿では,対話型,リアルタイム,自然言語で構築可能なロボットを現実世界で構築するためのフレームワークを提案する。
生成されたポリシーは、以前のものよりも桁違いに多くのコマンドを実行することができる。
同じ方針は、人間によってリアルタイム言語を介して誘導され、広範囲の正確な長距離再配置目標に対処することができる。
- 参考スコア(独自算出の注目度): 8.932689947991292
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a framework for building interactive, real-time, natural
language-instructable robots in the real world, and we open source related
assets (dataset, environment, benchmark, and policies). Trained with behavioral
cloning on a dataset of hundreds of thousands of language-annotated
trajectories, a produced policy can proficiently execute an order of magnitude
more commands than previous works: specifically we estimate a 93.5% success
rate on a set of 87,000 unique natural language strings specifying raw
end-to-end visuo-linguo-motor skills in the real world. We find that the same
policy is capable of being guided by a human via real-time language to address
a wide range of precise long-horizon rearrangement goals, e.g. "make a smiley
face out of blocks". The dataset we release comprises nearly 600,000
language-labeled trajectories, an order of magnitude larger than prior
available datasets. We hope the demonstrated results and associated assets
enable further advancement of helpful, capable, natural-language-interactable
robots. See videos at https://interactive-language.github.io.
- Abstract(参考訳): 我々は,対話型,リアルタイム,自然言語で構築可能なロボットを現実世界で構築するためのフレームワークを提案し,関連する資産(データセット,環境,ベンチマーク,ポリシー)をオープンソース化する。
数十万の言語に注釈付けされた軌跡のデータセットで行動的クローンを訓練することにより、生成されたポリシーは、以前の作品よりも桁違いに多くのコマンドを実行することができる。具体的に、現実世界の生のエンドツーエンドのヴィスオリンガモトラースキルを規定する87,000のユニークな自然言語文字列のセットに対して、93.5%の成功率を推定する。
同じ方針が人間によってリアルタイム言語を介してガイドされ、例えば「ブロックから笑顔の顔を作る」など、広範囲の正確なロングホライゾン再構成目標に対処できることがわかった。
私たちがリリースしたデータセットは、60万近い言語ラベル付きトラジェクトリで構成されています。
実証された結果と関連する資産により、有益で有能な自然言語対話型ロボットのさらなる進歩が期待できる。
ビデオはhttps://interactive-language.github.ioを参照。
関連論文リスト
- Goal Representations for Instruction Following: A Semi-Supervised
Language Interface to Control [58.06223121654735]
本稿では,少数の言語データのみを用いて,共同画像と目標条件のポリシーを言語と併用する手法を提案する。
本手法は,言語を目標画像と一致させないラベル付きデータから埋め込みを学習することにより,実世界のロバストな性能を実現する。
ラベル付きデータの外部の言語命令に一般化して,様々な操作タスクをさまざまな場面で追従する命令を示す。
論文 参考訳(メタデータ) (2023-06-30T20:09:39Z) - Robotic Skill Acquisition via Instruction Augmentation with
Vision-Language Models [70.82705830137708]
言語条件制御のためのデータ駆動型インストラクション拡張(DIAL)について紹介する。
我々は,CLIPのセマンティック理解を利用したセミ言語ラベルを用いて,未知の実演データの大規模なデータセットに知識を伝達する。
DIALは、模倣学習ポリシーによって、新しい能力を獲得し、元のデータセットにない60の新しい命令を一般化することができる。
論文 参考訳(メタデータ) (2022-11-21T18:56:00Z) - Grounding Language with Visual Affordances over Unstructured Data [26.92329260907805]
本研究では,非構造化,オフライン,リセットのないデータから,言語条件のロボットスキルを効率的に学習するための新しい手法を提案する。
我々は、言語による全データの1%しか必要としない自己教師型ビジュオ言語割当モデルを利用する。
提案手法は,従来の手法よりも桁違いに少ないデータで,リアルタイムに長時間の多層タスクを完了できることがわかった。
論文 参考訳(メタデータ) (2022-10-04T21:16:48Z) - No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。
何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。
本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文 参考訳(メタデータ) (2022-07-11T07:33:36Z) - Do As I Can, Not As I Say: Grounding Language in Robotic Affordances [119.29555551279155]
大規模な言語モデルは、世界に関する豊富な意味知識を符号化することができる。
このような知識は、自然言語で表現された高レベルで時間的に拡張された命令を動作させようとするロボットにとって極めて有用である。
低レベルのスキルを大規模言語モデルと組み合わせることで,言語モデルが複雑かつ時間的に拡張された命令を実行する手順について高いレベルの知識を提供することを示す。
論文 参考訳(メタデータ) (2022-04-04T17:57:11Z) - Reshaping Robot Trajectories Using Natural Language Commands: A Study of
Multi-Modal Data Alignment Using Transformers [33.7939079214046]
我々は、人間とロボットのコラボレーションのための柔軟な言語ベースのインタフェースを提供する。
我々は、ユーザコマンドをエンコードする大規模言語モデルの分野における最近の進歩を生かしている。
言語コマンドによって修正されたロボット軌跡を含むデータセット上で、模倣学習を用いてモデルを訓練する。
論文 参考訳(メタデータ) (2022-03-25T01:36:56Z) - Linking Emergent and Natural Languages via Corpus Transfer [98.98724497178247]
創発言語と自然言語のコーパス転送によるリンクを確立する新しい方法を提案する。
このアプローチでは,言語モデリングとイメージキャプションという,2つの異なるタスクに対して,非自明な転送メリットを示す。
また,同一画像に基づく自然言語キャプションに創発的メッセージを翻訳することで,創発的言語の伝達可能性を予測する新しい指標を提案する。
論文 参考訳(メタデータ) (2022-03-24T21:24:54Z) - Learning Language-Conditioned Robot Behavior from Offline Data and
Crowd-Sourced Annotation [80.29069988090912]
本研究では,ロボットインタラクションの大規模なオフラインデータセットから視覚に基づく操作タスクを学習する問題について検討する。
クラウドソースの自然言語ラベルを用いたオフラインロボットデータセットの活用を提案する。
提案手法は目標画像仕様と言語条件付き模倣技術の両方を25%以上上回っていることがわかった。
論文 参考訳(メタデータ) (2021-09-02T17:42:13Z) - Inverse Reinforcement Learning with Natural Language Goals [8.972202854038382]
言語条件付きポリシーと報酬関数を学習するための新しい逆強化学習アルゴリズムを提案する。
提案アルゴリズムは,視覚に基づく自然言語によるデータセットの学習において,複数のベースラインをはるかに上回る性能を示した。
論文 参考訳(メタデータ) (2020-08-16T14:43:49Z) - Language Conditioned Imitation Learning over Unstructured Data [9.69886122332044]
本稿では,自由形式の自然言語条件付けを模倣学習に組み込む手法を提案する。
我々のアプローチは、単一のニューラルネットワークとしてピクセル、自然言語理解、マルチタスク連続制御のエンドツーエンドから知覚を学習する。
言語アノテーションのコストを1%以下に抑えつつ,言語条件付き性能を劇的に向上させることを示す。
論文 参考訳(メタデータ) (2020-05-15T17:08:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。