Fugu-MT 論文翻訳(概要): DALL-E-Bot: Introducing Web-Scale Diffusion Models to Robotics

論文の概要: DALL-E-Bot: Introducing Web-Scale Diffusion Models to Robotics

arxiv url: http://arxiv.org/abs/2210.02438v1
Date: Wed, 5 Oct 2022 17:58:31 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-06 13:53:10.310237
Title: DALL-E-Bot: Introducing Web-Scale Diffusion Models to Robotics
Title（参考訳）: DALL-E-Bot: Webスケール拡散モデルをロボティクスに導入
Authors: Ivan Kapelyukh, Vitalis Vosylius, Edward Johns
Abstract要約: DALL-E-Botは、まずそれらのオブジェクトのテキスト記述を推測し、そのオブジェクトの自然な人間的な配置を表す画像を生成し、最終的にその画像に従ってオブジェクトを物理的に配置することで、シーン内のオブジェクトを並べ替えることを可能にする。
参考スコア（独自算出の注目度）: 13.87953637017351
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: We introduce the first work to explore web-scale diffusion models for robotics. DALL-E-Bot enables a robot to rearrange objects in a scene, by first inferring a text description of those objects, then generating an image representing a natural, human-like arrangement of those objects, and finally physically arranging the objects according to that image. The significance is that we achieve this zero-shot using DALL-E, without needing any further data collection or training. Encouraging real-world results with human studies show that this is an exciting direction for the future of web-scale robot learning algorithms. We also propose a list of recommendations to the text-to-image community, to align further developments of these models with applications to robotics. Videos are available at: https://www.robot-learning.uk/dall-e-bot
Abstract（参考訳）: 本稿では,ロボット工学におけるWebスケール拡散モデルに関する最初の研究を紹介する。 DALL-E-Botは、まずそれらのオブジェクトのテキスト記述を推測し、そのオブジェクトの自然な人間的な配置を表す画像を生成し、最終的にその画像に従ってオブジェクトを物理的に配置することで、シーン内のオブジェクトを並べ替えることができる。さらにデータ収集やトレーニングを必要とせずに、DALL-Eを使ってゼロショットを実現している点が重要です。現実世界の成果を人間の研究で促進することは、これはWebスケールのロボット学習アルゴリズムの将来にとってエキサイティングな方向であることを示している。また,これらのモデルのさらなる発展とロボティクスへの応用を整合させるために,テキストから画像へのコミュニティへのレコメンデーションリストを提案する。ビデオは、https://www.robot-learning.uk/dall-e-botで公開されている。

関連論文リスト

VidBot: Learning Generalizable 3D Actions from In-the-Wild 2D Human Videos for Zero-Shot Robotic Manipulation [53.63540587160549]
VidBotは、WildのモノクルなRGBのみの人間ビデオから学習した3Dアベイランスを使って、ゼロショットロボット操作を可能にするフレームワークである。 VidBotは、人間の日常的なビデオを利用してロボットの学習をよりスケーラブルにする。
論文参考訳（メタデータ） (2025-03-10T10:04:58Z)
Track2Act: Predicting Point Tracks from Internet Videos enables Generalizable Robot Manipulation [65.46610405509338]
我々は、ゼロショットロボット操作を可能にする汎用的な目標条件ポリシーを学習することを目指している。私たちのフレームワークであるTrack2Actは、ゴールに基づいて将来のタイムステップで画像内のポイントがどのように動くかを予測する。学習したトラック予測を残留ポリシーと組み合わせることで,多種多様な汎用ロボット操作が可能となることを示す。
論文参考訳（メタデータ） (2024-05-02T17:56:55Z)
SG-Bot: Object Rearrangement via Coarse-to-Fine Robotic Imagination on Scene Graphs [81.15889805560333]
本稿では,新しいアレンジメントフレームワークであるSG-Botを紹介する。 SG-Botは軽量でリアルタイムでユーザ制御可能な特性を実証する。実験の結果、SG-Botはライバルよりも大きなマージンで優れていることが示された。
論文参考訳（メタデータ） (2023-09-21T15:54:33Z)
WALL-E: Embodied Robotic WAiter Load Lifting with Large Language Model [92.90127398282209]
本稿では,最新のLarge Language Models(LLM)と既存のビジュアルグラウンドとロボットグルーピングシステムを統合する可能性について検討する。本稿では,この統合の例としてWALL-E (Embodied Robotic WAiter load lifting with Large Language model)を紹介する。我々は,このLCMを利用したシステムを物理ロボットに展開し,よりユーザフレンドリなインタフェースで指導誘導型把握タスクを実現する。
論文参考訳（メタデータ） (2023-08-30T11:35:21Z)
RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control [140.48218261864153]
本研究では,インターネット規模のデータに基づいて学習した視覚言語モデルを,エンドツーエンドのロボット制御に直接組み込む方法について検討する。提案手法は,インターネット規模のトレーニングから,RT-2による創発的能力の獲得を可能にした。
論文参考訳（メタデータ） (2023-07-28T21:18:02Z)
Open-World Object Manipulation using Pre-trained Vision-Language Models [72.87306011500084]
ロボットが人からの指示に従うためには、人間の語彙の豊かな意味情報を繋げなければならない。我々は、事前学習された視覚言語モデルを利用して、オブジェクト識別情報を抽出するシンプルなアプローチを開発する。実際の移動マニピュレータにおける様々な実験において、MOOはゼロショットを様々な新しいオブジェクトカテゴリや環境に一般化する。
論文参考訳（メタデータ） (2023-03-02T01:55:10Z)
Can Foundation Models Perform Zero-Shot Task Specification For Robot Manipulation? [54.442692221567796]
タスク仕様は、熟練していないエンドユーザの関与とパーソナライズされたロボットの採用に不可欠である。タスク仕様に対する広く研究されているアプローチは、目標を通じて、コンパクトな状態ベクトルまたは同じロボットシーンのゴールイメージを使用することである。そこで本研究では,人間の指定や使用が容易な目標仕様の代替的,より汎用的な形式について検討する。
論文参考訳（メタデータ） (2022-04-23T19:39:49Z)
Few-Shot Visual Grounding for Natural Human-Robot Interaction [0.0]
本稿では,人間ユーザによって音声で示される,混み合ったシーンから対象物を分割するソフトウェアアーキテクチャを提案する。システムのコアでは、視覚的な接地のためにマルチモーダルディープニューラルネットワークを使用します。公開シーンデータセットから収集した実RGB-Dデータに対して,提案モデルの性能を評価する。
論文参考訳（メタデータ） (2021-03-17T15:24:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。