論文の概要: droidlet: modular, heterogenous, multi-modal agents
- arxiv url: http://arxiv.org/abs/2101.10384v1
- Date: Mon, 25 Jan 2021 20:10:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-14 19:01:37.499283
- Title: droidlet: modular, heterogenous, multi-modal agents
- Title(参考訳): droidlet: モジュール型、異種、マルチモーダルエージェント
- Authors: Anurag Pratik, Soumith Chintala, Kavya Srinet, Dhiraj Gandhi, Rebecca
Qian, Yuxuan Sun, Ryan Drew, Sara Elkafrawy, Anoushka Tiwari, Tucker Hart,
Mary Williamson, Abhinav Gupta, Arthur Szlam
- Abstract要約: モジュール化された異種エージェントアーキテクチャとプラットフォームであるdroidletをオープンソースとして導入します。
これにより、認識と言語における大規模な静的データセットと、ロボット工学でよく使われる高度なデータセットの両方を活用できます。
知覚、言語、アクションをひとつのプラットフォームにまとめ、現実世界の相互作用の豊かさから学ぶエージェントへの道を提供する。
- 参考スコア(独自算出の注目度): 34.74340949137707
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, there have been significant advances in building end-to-end
Machine Learning (ML) systems that learn at scale. But most of these systems
are: (a) isolated (perception, speech, or language only); (b) trained on static
datasets. On the other hand, in the field of robotics, large-scale learning has
always been difficult. Supervision is hard to gather and real world physical
interactions are expensive. In this work we introduce and open-source droidlet,
a modular, heterogeneous agent architecture and platform. It allows us to
exploit both large-scale static datasets in perception and language and
sophisticated heuristics often used in robotics; and provides tools for
interactive annotation. Furthermore, it brings together perception, language
and action onto one platform, providing a path towards agents that learn from
the richness of real world interactions.
- Abstract(参考訳): 近年、大規模に学習するエンドツーエンド機械学習(ml)システムを構築するための大きな進歩がある。
しかし、これらのシステムのほとんどは: (a) 分離された(パーセプション、スピーチ、言語のみ); (b) 静的データセットでトレーニングされた。
一方,ロボット工学の分野では,大規模学習が常に困難であった。
スーパービジョンは収集が難しいし、現実世界の物理的相互作用は高価だ。
本研究では,モジュール化された異種エージェントアーキテクチャとプラットフォームであるdroidletをオープンソースとして紹介する。
これにより、認識と言語における大規模な静的データセットと、ロボット工学でよく使われる高度なヒューリスティックの両方を活用でき、インタラクティブなアノテーションのためのツールを提供することができます。
さらに、知覚、言語、行動がひとつのプラットフォームにまとめられ、現実世界の相互作用の豊かさから学ぶエージェントへの道を提供する。
関連論文リスト
- $π_0$: A Vision-Language-Action Flow Model for General Robot Control [77.32743739202543]
本稿では,インターネット規模のセマンティック知識を継承するために,事前学習された視覚言語モデル(VLM)上に構築された新しいフローマッチングアーキテクチャを提案する。
我々は,事前訓練後のタスクをゼロショットで実行し,人からの言語指導に追従し,微調整で新たなスキルを習得する能力の観点から,我々のモデルを評価した。
論文 参考訳(メタデータ) (2024-10-31T17:22:30Z) - Grounding Robot Policies with Visuomotor Language Guidance [15.774237279917594]
ロボットポリシーを現在の状況に基盤付けるためのエージェントベースのフレームワークを提案する。
提案するフレームワークは、特定の役割のために設計された会話エージェントのセットで構成されている。
弊社のアプローチは、操作ポリシーを効果的にガイドし、成功率を大幅に向上させることを実証する。
論文 参考訳(メタデータ) (2024-10-09T02:00:37Z) - RoboCasa: Large-Scale Simulation of Everyday Tasks for Generalist Robots [25.650235551519952]
本稿では,汎用ロボットを日常的に訓練するための大規模シミュレーションフレームワークであるRoboCasaを紹介する。
私たちは、150以上のオブジェクトカテゴリと数十の対話可能な家具とアプライアンスに対して、何千もの3Dアセットを提供しています。
本実験は, 大規模模倣学習のための合成ロボットデータを用いて, スケーリングの傾向を明らかにするものである。
論文 参考訳(メタデータ) (2024-06-04T17:41:31Z) - WALL-E: Embodied Robotic WAiter Load Lifting with Large Language Model [92.90127398282209]
本稿では,最新のLarge Language Models(LLM)と既存のビジュアルグラウンドとロボットグルーピングシステムを統合する可能性について検討する。
本稿では,この統合の例としてWALL-E (Embodied Robotic WAiter load lifting with Large Language model)を紹介する。
我々は,このLCMを利用したシステムを物理ロボットに展開し,よりユーザフレンドリなインタフェースで指導誘導型把握タスクを実現する。
論文 参考訳(メタデータ) (2023-08-30T11:35:21Z) - VoxPoser: Composable 3D Value Maps for Robotic Manipulation with
Language Models [38.503337052122234]
大規模言語モデル(LLM)は、ロボット操作のために抽出できる豊富な行動可能な知識を持っていることが示されている。
我々は,オープンな命令セットとオープンなオブジェクトセットが与えられた様々な操作タスクに対して,ロボット軌道を合成することを目指している。
筆者らは,接触に富んだインタラクションを含むシーンのダイナミックスモデルを効率的に学習することで,提案フレームワークがオンライン体験の恩恵を享受できることを実証する。
論文 参考訳(メタデータ) (2023-07-12T07:40:48Z) - Kosmos-2: Grounding Multimodal Large Language Models to the World [107.27280175398089]
マルチモーダル大言語モデル(MLLM)であるKosmos-2を紹介する。
オブジェクト記述(例えば、バウンディングボックス)の認識と、視覚の世界へのテキストの接地を可能にする。
コードと事前訓練されたモデルはhttps://aka.ms/kosmos-2.comで入手できる。
論文 参考訳(メタデータ) (2023-06-26T16:32:47Z) - RT-1: Robotics Transformer for Real-World Control at Scale [98.09428483862165]
我々は,有望なスケーラブルなモデル特性を示す,ロボティクストランスフォーマーと呼ばれるモデルクラスを提示する。
実世界の課題を遂行する実ロボットの大規模データ収集に基づいて,様々なモデルクラスと,データサイズ,モデルサイズ,データの多様性の関数として一般化する能力について検証した。
論文 参考訳(メタデータ) (2022-12-13T18:55:15Z) - ExAug: Robot-Conditioned Navigation Policies via Geometric Experience
Augmentation [73.63212031963843]
本研究では,多様な環境における複数のデータセットから異なるロボットプラットフォームを体験するための新しいフレームワークであるExAugを提案する。
トレーニングされたポリシーは、屋内と屋外の障害物のある3つの異なるカメラを備えた2つの新しいロボットプラットフォームで評価される。
論文 参考訳(メタデータ) (2022-10-14T01:32:15Z) - Reshaping Robot Trajectories Using Natural Language Commands: A Study of
Multi-Modal Data Alignment Using Transformers [33.7939079214046]
我々は、人間とロボットのコラボレーションのための柔軟な言語ベースのインタフェースを提供する。
我々は、ユーザコマンドをエンコードする大規模言語モデルの分野における最近の進歩を生かしている。
言語コマンドによって修正されたロボット軌跡を含むデータセット上で、模倣学習を用いてモデルを訓練する。
論文 参考訳(メタデータ) (2022-03-25T01:36:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。