論文の概要: DALL-E-Bot: Introducing Web-Scale Diffusion Models to Robotics
- arxiv url: http://arxiv.org/abs/2210.02438v1
- Date: Wed, 5 Oct 2022 17:58:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-06 13:53:10.310237
- Title: DALL-E-Bot: Introducing Web-Scale Diffusion Models to Robotics
- Title(参考訳): DALL-E-Bot: Webスケール拡散モデルをロボティクスに導入
- Authors: Ivan Kapelyukh, Vitalis Vosylius, Edward Johns
- Abstract要約: DALL-E-Botは、まずそれらのオブジェクトのテキスト記述を推測し、そのオブジェクトの自然な人間的な配置を表す画像を生成し、最終的にその画像に従ってオブジェクトを物理的に配置することで、シーン内のオブジェクトを並べ替えることを可能にする。
- 参考スコア(独自算出の注目度): 13.87953637017351
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We introduce the first work to explore web-scale diffusion models for
robotics. DALL-E-Bot enables a robot to rearrange objects in a scene, by first
inferring a text description of those objects, then generating an image
representing a natural, human-like arrangement of those objects, and finally
physically arranging the objects according to that image. The significance is
that we achieve this zero-shot using DALL-E, without needing any further data
collection or training. Encouraging real-world results with human studies show
that this is an exciting direction for the future of web-scale robot learning
algorithms. We also propose a list of recommendations to the text-to-image
community, to align further developments of these models with applications to
robotics. Videos are available at: https://www.robot-learning.uk/dall-e-bot
- Abstract(参考訳): 本稿では,ロボット工学におけるWebスケール拡散モデルに関する最初の研究を紹介する。
DALL-E-Botは、まずそれらのオブジェクトのテキスト記述を推測し、そのオブジェクトの自然な人間的な配置を表す画像を生成し、最終的にその画像に従ってオブジェクトを物理的に配置することで、シーン内のオブジェクトを並べ替えることができる。
さらにデータ収集やトレーニングを必要とせずに、DALL-Eを使ってゼロショットを実現している点が重要です。
現実世界の成果を人間の研究で促進することは、これはWebスケールのロボット学習アルゴリズムの将来にとってエキサイティングな方向であることを示している。
また,これらのモデルのさらなる発展とロボティクスへの応用を整合させるために,テキストから画像へのコミュニティへのレコメンデーションリストを提案する。
ビデオは、https://www.robot-learning.uk/dall-e-botで公開されている。
関連論文リスト
- High-Degrees-of-Freedom Dynamic Neural Fields for Robot Self-Modeling
and Motion Planning [7.358994636133107]
ロボットの自己モデル(英: Robot self-model)は、ロボットの運動計画タスクに使用できる身体形態の表現である。
我々は、ニューラルネットワークを利用して、ロボットがキネマティクスをニューラルネットワーククエリモデルとして自己モデル化できるようにする。
7-DOFロボットテストでは、学習した自己モデルは、ロボットの寸法の2%のChamfer-L2距離を達成する。
論文 参考訳(メタデータ) (2023-10-05T16:01:29Z) - SG-Bot: Object Rearrangement via Coarse-to-Fine Robotic Imagination on
Scene Graphs [84.65442852611497]
本稿では,新しいアレンジメントフレームワークであるSG-Botを紹介する。
SG-Botは軽量でリアルタイムでユーザ制御可能な特性を実証する。
実験の結果、SG-Botはライバルよりも大きなマージンで優れていることが示された。
論文 参考訳(メタデータ) (2023-09-21T15:54:33Z) - WALL-E: Embodied Robotic WAiter Load Lifting with Large Language Model [92.90127398282209]
本稿では,最新のLarge Language Models(LLM)と既存のビジュアルグラウンドとロボットグルーピングシステムを統合する可能性について検討する。
本稿では,この統合の例としてWALL-E (Embodied Robotic WAiter load lifting with Large Language model)を紹介する。
我々は,このLCMを利用したシステムを物理ロボットに展開し,よりユーザフレンドリなインタフェースで指導誘導型把握タスクを実現する。
論文 参考訳(メタデータ) (2023-08-30T11:35:21Z) - RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic
Control [140.48218261864153]
本研究では,インターネット規模のデータに基づいて学習した視覚言語モデルを,エンドツーエンドのロボット制御に直接組み込む方法について検討する。
提案手法は,インターネット規模のトレーニングから,RT-2による創発的能力の獲得を可能にした。
論文 参考訳(メタデータ) (2023-07-28T21:18:02Z) - Robot Learning with Sensorimotor Pre-training [98.7755895548928]
ロボット工学のための自己教師型感覚運動器事前学習手法を提案する。
我々のモデルはRTTと呼ばれ、センサモレータトークンのシーケンスで動作するトランスフォーマーである。
感覚運動の事前学習は、ゼロからトレーニングを一貫して上回り、優れたスケーリング特性を持ち、さまざまなタスク、環境、ロボット間での移動を可能にしている。
論文 参考訳(メタデータ) (2023-06-16T17:58:10Z) - Open-World Object Manipulation using Pre-trained Vision-Language Models [72.87306011500084]
ロボットが人からの指示に従うためには、人間の語彙の豊かな意味情報を繋げなければならない。
我々は、事前学習された視覚言語モデルを利用して、オブジェクト識別情報を抽出するシンプルなアプローチを開発する。
実際の移動マニピュレータにおける様々な実験において、MOOはゼロショットを様々な新しいオブジェクトカテゴリや環境に一般化する。
論文 参考訳(メタデータ) (2023-03-02T01:55:10Z) - Can Foundation Models Perform Zero-Shot Task Specification For Robot
Manipulation? [54.442692221567796]
タスク仕様は、熟練していないエンドユーザの関与とパーソナライズされたロボットの採用に不可欠である。
タスク仕様に対する広く研究されているアプローチは、目標を通じて、コンパクトな状態ベクトルまたは同じロボットシーンのゴールイメージを使用することである。
そこで本研究では,人間の指定や使用が容易な目標仕様の代替的,より汎用的な形式について検討する。
論文 参考訳(メタデータ) (2022-04-23T19:39:49Z) - Few-Shot Visual Grounding for Natural Human-Robot Interaction [0.0]
本稿では,人間ユーザによって音声で示される,混み合ったシーンから対象物を分割するソフトウェアアーキテクチャを提案する。
システムのコアでは、視覚的な接地のためにマルチモーダルディープニューラルネットワークを使用します。
公開シーンデータセットから収集した実RGB-Dデータに対して,提案モデルの性能を評価する。
論文 参考訳(メタデータ) (2021-03-17T15:24:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。