論文の概要: Blox-Net: Generative Design-for-Robot-Assembly Using VLM Supervision, Physics Simulation, and a Robot with Reset
- arxiv url: http://arxiv.org/abs/2409.17126v1
- Date: Wed, 25 Sep 2024 17:42:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-27 02:33:29.613278
- Title: Blox-Net: Generative Design-for-Robot-Assembly Using VLM Supervision, Physics Simulation, and a Robot with Reset
- Title(参考訳): Blox-Net: VLMスーパービジョン、物理シミュレーション、リセットロボットを用いたジェネレーティブデザイン・ロボットアセンブリ
- Authors: Andrew Goldberg, Kavish Kondap, Tianshuang Qiu, Zehan Ma, Letian Fu, Justin Kerr, Huang Huang, Kaiyuan Chen, Kuan Fang, Ken Goldberg,
- Abstract要約: GDfRA(Generative Design-for-Robot-Assembly)という新しい問題を紹介します。
このタスクは、自然言語のプロンプト(例えば'giraffe')と3Dプリントブロックのような利用可能な物理コンポーネントの画像に基づいてアセンブリを生成する。
本稿では、生成視覚言語モデルとコンピュータビジョン、摂動解析、運動計画、物理ロボット実験の確立した手法を組み合わせたGDfRAシステムであるBlox-Netを提案する。
- 参考スコア(独自算出の注目度): 22.660709957291747
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative AI systems have shown impressive capabilities in creating text, code, and images. Inspired by the rich history of research in industrial ''Design for Assembly'', we introduce a novel problem: Generative Design-for-Robot-Assembly (GDfRA). The task is to generate an assembly based on a natural language prompt (e.g., ''giraffe'') and an image of available physical components, such as 3D-printed blocks. The output is an assembly, a spatial arrangement of these components, and instructions for a robot to build this assembly. The output must 1) resemble the requested object and 2) be reliably assembled by a 6 DoF robot arm with a suction gripper. We then present Blox-Net, a GDfRA system that combines generative vision language models with well-established methods in computer vision, simulation, perturbation analysis, motion planning, and physical robot experimentation to solve a class of GDfRA problems with minimal human supervision. Blox-Net achieved a Top-1 accuracy of 63.5% in the ''recognizability'' of its designed assemblies (eg, resembling giraffe as judged by a VLM). These designs, after automated perturbation redesign, were reliably assembled by a robot, achieving near-perfect success across 10 consecutive assembly iterations with human intervention only during reset prior to assembly. Surprisingly, this entire design process from textual word (''giraffe'') to reliable physical assembly is performed with zero human intervention.
- Abstract(参考訳): ジェネレーティブAIシステムは、テキスト、コード、画像の作成において素晴らしい能力を示している。
産業「組立設計」における研究の豊かな歴史に触発されて,創発的デザイン・ロボット組立(GDfRA)という新たな問題を紹介した。
タスクは、自然言語プロンプト(例えば、'giraffe')と3Dプリントブロックのような利用可能な物理コンポーネントの画像に基づいてアセンブリを生成する。
出力はアセンブリ、これらのコンポーネントの空間配置、そしてロボットがこのアセンブリを構築するための指示である。
output (複数形 outputs)
1)要求対象に類似し、
2)吸込グリップを備えた6DFロボットアームで確実に組み立てる。
次に,生成視覚言語モデルとコンピュータビジョン,シミュレーション,摂動解析,運動計画,物理ロボット実験の確立した手法を組み合わせたGDfRAシステムであるBlox-Netを提案する。
Blox-Netは、設計したアセンブリの'認識可能性'において63.5%のTop-1精度を達成した(例えば、VLMによって判断されるキリンに似ている)。
これらの設計は、自動的な摂動再設計の後、ロボットによって確実に組み立てられ、組立前のリセット時にのみ人間の介入を伴う10回の組立イテレーションでほぼ完璧な成功を収めた。
驚いたことに、このテキスト語('giraffe')から信頼性のある物理集合体への設計プロセスは、人間の介入をゼロにする。
関連論文リスト
- AssemblyComplete: 3D Combinatorial Construction with Deep Reinforcement Learning [4.3507834596906125]
ロボット工学における重要なゴールは、ロボットに現実世界の協調作業、特に自動組み立てに適応するように教えることである。
本稿では, ユニットプリミティブ(レゴブロック)を用いて実演した3次元組立工法を紹介する。
本研究では,ロボットに不完全な組立の目的を理解し,組立を完了するための建設方針を学ぶための2部構成の深層強化学習(DRL)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-20T18:51:17Z) - Speech to Reality: On-Demand Production using Natural Language, 3D Generative AI, and Discrete Robotic Assembly [45.03625198933637]
本稿では,3次元生成人工知能とロボットアセンブリを組み合わせることで,音声を物体に変換するシステムを提案する。
本稿では,格子型ボクセル部品を個別に組立てることで,生成AI出力を物理的生産に利用することの課題に対処することを提案する。
論文 参考訳(メタデータ) (2024-09-27T02:12:56Z) - GRUtopia: Dream General Robots in a City at Scale [65.08318324604116]
本稿では,各種ロボットを対象とした対話型3D社会「GRUtopia」について紹介する。
GRScenesには100万のインタラクティブな微妙な注釈付きシーンが含まれており、都市規模の環境に自由に組み合わせることができる。
GRResidentsはLarge Language Model (LLM)によって駆動されるNon-Player Character (NPC)システムである。
論文 参考訳(メタデータ) (2024-07-15T17:40:46Z) - Unifying 3D Representation and Control of Diverse Robots with a Single Camera [48.279199537720714]
我々は,ロボットを視覚のみからモデル化し,制御することを自律的に学習するアーキテクチャであるNeural Jacobian Fieldsを紹介する。
提案手法は,正確なクローズドループ制御を実現し,各ロボットの因果動的構造を復元する。
論文 参考訳(メタデータ) (2024-07-11T17:55:49Z) - RoboScript: Code Generation for Free-Form Manipulation Tasks across Real
and Simulation [77.41969287400977]
本稿では,コード生成を利用したデプロイ可能なロボット操作パイプラインのためのプラットフォームである textbfRobotScript を提案する。
自由形自然言語におけるロボット操作タスクのためのコード生成ベンチマークも提案する。
我々は,Franka と UR5 のロボットアームを含む,複数のロボットエボディメントにまたがるコード生成フレームワークの適応性を実証した。
論文 参考訳(メタデータ) (2024-02-22T15:12:00Z) - WALL-E: Embodied Robotic WAiter Load Lifting with Large Language Model [92.90127398282209]
本稿では,最新のLarge Language Models(LLM)と既存のビジュアルグラウンドとロボットグルーピングシステムを統合する可能性について検討する。
本稿では,この統合の例としてWALL-E (Embodied Robotic WAiter load lifting with Large Language model)を紹介する。
我々は,このLCMを利用したシステムを物理ロボットに展開し,よりユーザフレンドリなインタフェースで指導誘導型把握タスクを実現する。
論文 参考訳(メタデータ) (2023-08-30T11:35:21Z) - Graph-based Reinforcement Learning meets Mixed Integer Programs: An
application to 3D robot assembly discovery [34.25379651790627]
我々は、テトリスのような構造ブロックとロボットマニピュレータを用いて、スクラッチから完全に定義済みの任意のターゲット構造を構築するという課題に対処する。
我々の新しい階層的アプローチは、タスク全体を相互に利益をもたらす3つの実行可能なレベルに効率的に分解することを目的としています。
論文 参考訳(メタデータ) (2022-03-08T14:44:51Z) - V-MAO: Generative Modeling for Multi-Arm Manipulation of Articulated
Objects [51.79035249464852]
本稿では,音声による物体のマルチアーム操作を学習するためのフレームワークを提案する。
本フレームワークは,各ロボットアームの剛部上の接触点分布を学習する変動生成モデルを含む。
論文 参考訳(メタデータ) (2021-11-07T02:31:09Z) - Single-view robot pose and joint angle estimation via render & compare [40.05546237998603]
本稿では,1枚のRGB画像から関節角度と6Dカメラとロボットのポーズを推定する手法であるRoboPoseを紹介する。
これは、モバイルおよび反復型自律システムに他のロボットと対話する能力を与える上で、重要な問題である。
論文 参考訳(メタデータ) (2021-04-19T14:48:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。