論文の概要: droidlet: modular, heterogenous, multi-modal agents
- arxiv url: http://arxiv.org/abs/2101.10384v1
- Date: Mon, 25 Jan 2021 20:10:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-14 19:01:37.499283
- Title: droidlet: modular, heterogenous, multi-modal agents
- Title(参考訳): droidlet: モジュール型、異種、マルチモーダルエージェント
- Authors: Anurag Pratik, Soumith Chintala, Kavya Srinet, Dhiraj Gandhi, Rebecca
Qian, Yuxuan Sun, Ryan Drew, Sara Elkafrawy, Anoushka Tiwari, Tucker Hart,
Mary Williamson, Abhinav Gupta, Arthur Szlam
- Abstract要約: モジュール化された異種エージェントアーキテクチャとプラットフォームであるdroidletをオープンソースとして導入します。
これにより、認識と言語における大規模な静的データセットと、ロボット工学でよく使われる高度なデータセットの両方を活用できます。
知覚、言語、アクションをひとつのプラットフォームにまとめ、現実世界の相互作用の豊かさから学ぶエージェントへの道を提供する。
- 参考スコア(独自算出の注目度): 34.74340949137707
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, there have been significant advances in building end-to-end
Machine Learning (ML) systems that learn at scale. But most of these systems
are: (a) isolated (perception, speech, or language only); (b) trained on static
datasets. On the other hand, in the field of robotics, large-scale learning has
always been difficult. Supervision is hard to gather and real world physical
interactions are expensive. In this work we introduce and open-source droidlet,
a modular, heterogeneous agent architecture and platform. It allows us to
exploit both large-scale static datasets in perception and language and
sophisticated heuristics often used in robotics; and provides tools for
interactive annotation. Furthermore, it brings together perception, language
and action onto one platform, providing a path towards agents that learn from
the richness of real world interactions.
- Abstract(参考訳): 近年、大規模に学習するエンドツーエンド機械学習(ml)システムを構築するための大きな進歩がある。
しかし、これらのシステムのほとんどは: (a) 分離された(パーセプション、スピーチ、言語のみ); (b) 静的データセットでトレーニングされた。
一方,ロボット工学の分野では,大規模学習が常に困難であった。
スーパービジョンは収集が難しいし、現実世界の物理的相互作用は高価だ。
本研究では,モジュール化された異種エージェントアーキテクチャとプラットフォームであるdroidletをオープンソースとして紹介する。
これにより、認識と言語における大規模な静的データセットと、ロボット工学でよく使われる高度なヒューリスティックの両方を活用でき、インタラクティブなアノテーションのためのツールを提供することができます。
さらに、知覚、言語、行動がひとつのプラットフォームにまとめられ、現実世界の相互作用の豊かさから学ぶエージェントへの道を提供する。
関連論文リスト
- RT-1: Robotics Transformer for Real-World Control at Scale [98.09428483862165]
我々は,有望なスケーラブルなモデル特性を示す,ロボティクストランスフォーマーと呼ばれるモデルクラスを提示する。
実世界の課題を遂行する実ロボットの大規模データ収集に基づいて,様々なモデルクラスと,データサイズ,モデルサイズ,データの多様性の関数として一般化する能力について検証した。
論文 参考訳(メタデータ) (2022-12-13T18:55:15Z) - ExAug: Robot-Conditioned Navigation Policies via Geometric Experience
Augmentation [73.63212031963843]
本研究では,多様な環境における複数のデータセットから異なるロボットプラットフォームを体験するための新しいフレームワークであるExAugを提案する。
トレーニングされたポリシーは、屋内と屋外の障害物のある3つの異なるカメラを備えた2つの新しいロボットプラットフォームで評価される。
論文 参考訳(メタデータ) (2022-10-14T01:32:15Z) - Grounding Language with Visual Affordances over Unstructured Data [26.92329260907805]
本研究では,非構造化,オフライン,リセットのないデータから,言語条件のロボットスキルを効率的に学習するための新しい手法を提案する。
我々は、言語による全データの1%しか必要としない自己教師型ビジュオ言語割当モデルを利用する。
提案手法は,従来の手法よりも桁違いに少ないデータで,リアルタイムに長時間の多層タスクを完了できることがわかった。
論文 参考訳(メタデータ) (2022-10-04T21:16:48Z) - LaTTe: Language Trajectory TransformEr [33.7939079214046]
本研究は、汎用的な3次元ロボット軌道を修正するための柔軟な言語ベースのフレームワークを提案する。
自然言語入力と文脈イメージを3次元軌跡の変化にマッピングするために,自動回帰変換器を用いる。
シミュレーションや実生活実験を通じて、モデルが人間の意図に従うことができることを示す。
論文 参考訳(メタデータ) (2022-08-04T22:43:21Z) - LM-Nav: Robotic Navigation with Large Pre-Trained Models of Language,
Vision, and Action [76.71101507291473]
本稿では,無注釈の大規模軌跡データに対するトレーニングの恩恵を享受するロボットナビゲーションシステムLM-Navを提案する。
本研究では,ナビゲーション(ViNG),画像言語アソシエーション(CLIP),言語モデリング(GPT-3)の事前学習モデルから構築可能なシステムについて述べる。
論文 参考訳(メタデータ) (2022-07-10T10:41:50Z) - Reshaping Robot Trajectories Using Natural Language Commands: A Study of
Multi-Modal Data Alignment Using Transformers [33.7939079214046]
我々は、人間とロボットのコラボレーションのための柔軟な言語ベースのインタフェースを提供する。
我々は、ユーザコマンドをエンコードする大規模言語モデルの分野における最近の進歩を生かしている。
言語コマンドによって修正されたロボット軌跡を含むデータセット上で、模倣学習を用いてモデルを訓練する。
論文 参考訳(メタデータ) (2022-03-25T01:36:56Z) - V-MAO: Generative Modeling for Multi-Arm Manipulation of Articulated
Objects [51.79035249464852]
本稿では,音声による物体のマルチアーム操作を学習するためのフレームワークを提案する。
本フレームワークは,各ロボットアームの剛部上の接触点分布を学習する変動生成モデルを含む。
論文 参考訳(メタデータ) (2021-11-07T02:31:09Z) - GenNI: Human-AI Collaboration for Data-Backed Text Generation [102.08127062293111]
Table2Textシステムは、機械学習を利用した構造化データに基づいてテキスト出力を生成する。
GenNI (Generation Negotiation Interface) は、対話型ビジュアルシステムである。
論文 参考訳(メタデータ) (2021-10-19T18:07:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。