論文の概要: Speech to Reality: On-Demand Production using Natural Language, 3D Generative AI, and Discrete Robotic Assembly
- arxiv url: http://arxiv.org/abs/2409.18390v5
- Date: Tue, 10 Jun 2025 03:59:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:38.764194
- Title: Speech to Reality: On-Demand Production using Natural Language, 3D Generative AI, and Discrete Robotic Assembly
- Title(参考訳): 音声から現実へ:自然言語によるオンデマンド生産、3次元生成AI、離散ロボットアセンブリ
- Authors: Alexander Htet Kyaw, Se Hwan Jeon, Miana Smith, Neil Gershenfeld,
- Abstract要約: 本稿では,3次元生成AIと離散ロボットアセンブリを用いて,音声を物理オブジェクトに変換するシステムを提案する。
このシステムは、3Dモデリングやロボットプログラミングの専門知識のない個人にとって、デザインと製造をより容易にする。
- 参考スコア(独自算出の注目度): 45.03625198933637
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a system that transforms speech into physical objects using 3D generative AI and discrete robotic assembly. By leveraging natural language input, the system makes design and manufacturing more accessible to individuals without expertise in 3D modeling or robotic programming. While current generative AI models can produce a wide range of 3D digital assets, AI-generated meshes are not directly suitable for robotic fabrication and do not account for fabrication constraints. To address this, we contribute a workflow that integrates natural language processing, 3D generative AI, and discrete robotic assembly. The system automatically analyzes and modifies AI-generated geometry to meet physical constraints, such as component count, overhangs, and connectivity, and produces a feasible robotic assembly sequence and toolpath. The results are demonstrated through the assembly of various objects, ranging from chairs to shelves, which are prompted via speech and realized within 5 minutes using a robotic arm.
- Abstract(参考訳): 本稿では,3次元生成AIと離散ロボットアセンブリを用いて,音声を物理オブジェクトに変換するシステムを提案する。
自然言語入力を活用することで、3Dモデリングやロボットプログラミングの専門知識のない個人にとって、設計や製造が容易になる。
現在の生成AIモデルは、幅広い3Dデジタルアセットを生成することができるが、AI生成メッシュは、ロボットの製作に直接適合せず、製造制約を考慮していない。
これを解決するために、自然言語処理、3D生成AI、離散ロボットアセンブリを統合したワークフローをコントリビュートする。
このシステムは、コンポーネントカウント、オーバーハング、接続といった物理的な制約を満たすためにAI生成した幾何学を自動的に分析し、修正し、実現可能なロボット組立シーケンスとツールパスを生成する。
結果は、椅子から棚まで、さまざまな物体の組み立てを通じて実証され、音声によって誘導され、ロボットアームを使用して5分以内に実現される。
関連論文リスト
- VidBot: Learning Generalizable 3D Actions from In-the-Wild 2D Human Videos for Zero-Shot Robotic Manipulation [53.63540587160549]
VidBotは、WildのモノクルなRGBのみの人間ビデオから学習した3Dアベイランスを使って、ゼロショットロボット操作を可能にするフレームワークである。
VidBotは、人間の日常的なビデオを利用してロボットの学習をよりスケーラブルにする。
論文 参考訳(メタデータ) (2025-03-10T10:04:58Z) - Blox-Net: Generative Design-for-Robot-Assembly Using VLM Supervision, Physics Simulation, and a Robot with Reset [22.660709957291747]
GDfRA(Generative Design-for-Robot-Assembly)という新しい問題を紹介します。
このタスクは、自然言語のプロンプト(例えば'giraffe')と3Dプリントブロックのような利用可能な物理コンポーネントの画像に基づいてアセンブリを生成する。
本稿では、生成視覚言語モデルとコンピュータビジョン、摂動解析、運動計画、物理ロボット実験の確立した手法を組み合わせたGDfRAシステムであるBlox-Netを提案する。
論文 参考訳(メタデータ) (2024-09-25T17:42:20Z) - SUGAR: Pre-training 3D Visual Representations for Robotics [85.55534363501131]
ロボット工学のための新しい3D事前学習フレームワークSUGARを紹介した。
SUGARは3次元の点雲を通してオブジェクトの意味的、幾何学的、および余分な特性をキャプチャする。
SuGARの3D表現は最先端の2Dおよび3D表現よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-04-01T21:23:03Z) - PhyGrasp: Generalizing Robotic Grasping with Physics-informed Large
Multimodal Models [58.33913881592706]
人間は、自分の直感的な物理学を巧みに把握し、これまで見たことのない物体であっても、効率的に把握を変更できる。
この研究は、そのような物理的常識的推論をロボット操作に注入することに注力している。
自然言語と3次元点雲の2つのモードからの入力を利用するマルチモーダル大モデルであるPhyGraspを紹介する。
論文 参考訳(メタデータ) (2024-02-26T18:57:52Z) - RoboScript: Code Generation for Free-Form Manipulation Tasks across Real
and Simulation [77.41969287400977]
本稿では,コード生成を利用したデプロイ可能なロボット操作パイプラインのためのプラットフォームである textbfRobotScript を提案する。
自由形自然言語におけるロボット操作タスクのためのコード生成ベンチマークも提案する。
我々は,Franka と UR5 のロボットアームを含む,複数のロボットエボディメントにまたがるコード生成フレームワークの適応性を実証した。
論文 参考訳(メタデータ) (2024-02-22T15:12:00Z) - WALL-E: Embodied Robotic WAiter Load Lifting with Large Language Model [92.90127398282209]
本稿では,最新のLarge Language Models(LLM)と既存のビジュアルグラウンドとロボットグルーピングシステムを統合する可能性について検討する。
本稿では,この統合の例としてWALL-E (Embodied Robotic WAiter load lifting with Large Language model)を紹介する。
我々は,このLCMを利用したシステムを物理ロボットに展開し,よりユーザフレンドリなインタフェースで指導誘導型把握タスクを実現する。
論文 参考訳(メタデータ) (2023-08-30T11:35:21Z) - Learning 6-DoF Fine-grained Grasp Detection Based on Part Affordance Grounding [42.04502185508723]
本稿では,3次元部分レベルの可読性と把握能力学習を促進するために,言語誘導型SHape grAsPingデータを提案する。
ロボット認知の観点から、我々は2段階のきめ細かいロボット把握フレームワーク(LangPartGPD)を設計する。
我々の手法は、人間とロボットの協調と大規模言語モデル(LLM)の利点を組み合わせたものである。
提案手法は,3次元形状のきめ細かな接地,オブジェクトの空き度推定,および3次元部分認識把握タスクにおいて,競争性能を達成できることを示す。
論文 参考訳(メタデータ) (2023-01-27T07:00:54Z) - LaTTe: Language Trajectory TransformEr [33.7939079214046]
本研究は、汎用的な3次元ロボット軌道を修正するための柔軟な言語ベースのフレームワークを提案する。
自然言語入力と文脈イメージを3次元軌跡の変化にマッピングするために,自動回帰変換器を用いる。
シミュレーションや実生活実験を通じて、モデルが人間の意図に従うことができることを示す。
論文 参考訳(メタデータ) (2022-08-04T22:43:21Z) - What Matters in Language Conditioned Robotic Imitation Learning [26.92329260907805]
オフラインのフリーフォーム模倣データセットから言語条件付きポリシーを学習する際の最も重要な課題について検討する。
本稿では,CALVINベンチマークを用いて,言語条件の難易度を向上する手法を提案する。
論文 参考訳(メタデータ) (2022-04-13T08:45:32Z) - V-MAO: Generative Modeling for Multi-Arm Manipulation of Articulated
Objects [51.79035249464852]
本稿では,音声による物体のマルチアーム操作を学習するためのフレームワークを提案する。
本フレームワークは,各ロボットアームの剛部上の接触点分布を学習する変動生成モデルを含む。
論文 参考訳(メタデータ) (2021-11-07T02:31:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。