Fugu-MT 論文翻訳(概要): Speech to Reality: On-Demand Production using Natural Language, 3D Generative AI, and Discrete Robotic Assembly

論文の概要: Speech to Reality: On-Demand Production using Natural Language, 3D Generative AI, and Discrete Robotic Assembly

arxiv url: http://arxiv.org/abs/2409.18390v3
Date: Sat, 23 Nov 2024 18:59:27 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:35.112352
Title: Speech to Reality: On-Demand Production using Natural Language, 3D Generative AI, and Discrete Robotic Assembly
Title（参考訳）: 音声から現実へ:自然言語によるオンデマンド生産、3次元生成AI、離散ロボットアセンブリ
Authors: Alexander Htet Kyaw, Se Hwan Jeon, Miana Smith, Neil Gershenfeld,
Abstract要約: 本稿では,3次元生成人工知能とロボットアセンブリを組み合わせることで,音声を物体に変換するシステムを提案する。本稿では,格子型ボクセル部品を個別に組立てることで,生成AI出力を物理的生産に利用することの課題に対処することを提案する。
参考スコア（独自算出の注目度）: 45.03625198933637
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present a system that transforms speech into physical objects by combining 3D generative Artificial Intelligence with robotic assembly. The system leverages natural language input to make design and manufacturing more accessible, enabling individuals without expertise in 3D modeling or robotic programming to create physical objects. We propose utilizing discrete robotic assembly of lattice-based voxel components to address the challenges of using generative AI outputs in physical production, such as design variability, fabrication speed, structural integrity, and material waste. The system interprets speech to generate 3D objects, discretizes them into voxel components, computes an optimized assembly sequence, and generates a robotic toolpath. The results are demonstrated through the assembly of various objects, ranging from chairs to shelves, which are prompted via speech and realized within 5 minutes using a 6-axis robotic arm.
Abstract（参考訳）: 本稿では,3次元生成人工知能とロボットアセンブリを組み合わせることで,音声を物体に変換するシステムを提案する。このシステムは自然言語入力を利用して設計と製造をより容易にし、3Dモデリングやロボットプログラミングの専門知識のない個人が物理的なオブジェクトを作れるようにする。本稿では, 格子型ボクセル部品を個別に組立てることで, 設計の可変性, 製造速度, 構造整合性, 材料廃棄物など, 生産において生成AI出力を使用する際の課題に対処する。システムは音声を解釈して3Dオブジェクトを生成し、それらをボクセルコンポーネントに分解し、最適化されたアセンブリシーケンスを計算し、ロボットツールパスを生成する。結果は、椅子から棚まで、さまざまな物体の組み立てを通じて実証され、音声によって誘導され、6軸ロボットアームを使用して5分以内に実現される。

関連論文リスト

VidBot: Learning Generalizable 3D Actions from In-the-Wild 2D Human Videos for Zero-Shot Robotic Manipulation [53.63540587160549]
VidBotは、WildのモノクルなRGBのみの人間ビデオから学習した3Dアベイランスを使って、ゼロショットロボット操作を可能にするフレームワークである。 VidBotは、人間の日常的なビデオを利用してロボットの学習をよりスケーラブルにする。
論文参考訳（メタデータ） (2025-03-10T10:04:58Z)
Blox-Net: Generative Design-for-Robot-Assembly Using VLM Supervision, Physics Simulation, and a Robot with Reset [22.660709957291747]
GDfRA(Generative Design-for-Robot-Assembly)という新しい問題を紹介します。このタスクは、自然言語のプロンプト(例えば'giraffe')と3Dプリントブロックのような利用可能な物理コンポーネントの画像に基づいてアセンブリを生成する。本稿では、生成視覚言語モデルとコンピュータビジョン、摂動解析、運動計画、物理ロボット実験の確立した手法を組み合わせたGDfRAシステムであるBlox-Netを提案する。
論文参考訳（メタデータ） (2024-09-25T17:42:20Z)
SUGAR: Pre-training 3D Visual Representations for Robotics [85.55534363501131]
ロボット工学のための新しい3D事前学習フレームワークSUGARを紹介した。 SUGARは3次元の点雲を通してオブジェクトの意味的、幾何学的、および余分な特性をキャプチャする。 SuGARの3D表現は最先端の2Dおよび3D表現よりも優れていることを示す。
論文参考訳（メタデータ） (2024-04-01T21:23:03Z)
PhyGrasp: Generalizing Robotic Grasping with Physics-informed Large Multimodal Models [58.33913881592706]
人間は、自分の直感的な物理学を巧みに把握し、これまで見たことのない物体であっても、効率的に把握を変更できる。この研究は、そのような物理的常識的推論をロボット操作に注入することに注力している。自然言語と3次元点雲の2つのモードからの入力を利用するマルチモーダル大モデルであるPhyGraspを紹介する。
論文参考訳（メタデータ） (2024-02-26T18:57:52Z)
RoboScript: Code Generation for Free-Form Manipulation Tasks across Real and Simulation [77.41969287400977]
本稿では,コード生成を利用したデプロイ可能なロボット操作パイプラインのためのプラットフォームである textbfRobotScript を提案する。自由形自然言語におけるロボット操作タスクのためのコード生成ベンチマークも提案する。我々は,Franka と UR5 のロボットアームを含む,複数のロボットエボディメントにまたがるコード生成フレームワークの適応性を実証した。
論文参考訳（メタデータ） (2024-02-22T15:12:00Z)
WALL-E: Embodied Robotic WAiter Load Lifting with Large Language Model [92.90127398282209]
本稿では,最新のLarge Language Models(LLM)と既存のビジュアルグラウンドとロボットグルーピングシステムを統合する可能性について検討する。本稿では,この統合の例としてWALL-E (Embodied Robotic WAiter load lifting with Large Language model)を紹介する。我々は,このLCMを利用したシステムを物理ロボットに展開し,よりユーザフレンドリなインタフェースで指導誘導型把握タスクを実現する。
論文参考訳（メタデータ） (2023-08-30T11:35:21Z)
Learning 6-DoF Fine-grained Grasp Detection Based on Part Affordance Grounding [42.04502185508723]
本稿では,3次元部分レベルの可読性と把握能力学習を促進するために,言語誘導型SHape grAsPingデータを提案する。ロボット認知の観点から、我々は2段階のきめ細かいロボット把握フレームワーク(LangPartGPD)を設計する。我々の手法は、人間とロボットの協調と大規模言語モデル(LLM)の利点を組み合わせたものである。提案手法は,3次元形状のきめ細かな接地,オブジェクトの空き度推定,および3次元部分認識把握タスクにおいて,競争性能を達成できることを示す。
論文参考訳（メタデータ） (2023-01-27T07:00:54Z)
LaTTe: Language Trajectory TransformEr [33.7939079214046]
本研究は、汎用的な3次元ロボット軌道を修正するための柔軟な言語ベースのフレームワークを提案する。自然言語入力と文脈イメージを3次元軌跡の変化にマッピングするために,自動回帰変換器を用いる。シミュレーションや実生活実験を通じて、モデルが人間の意図に従うことができることを示す。
論文参考訳（メタデータ） (2022-08-04T22:43:21Z)
What Matters in Language Conditioned Robotic Imitation Learning [26.92329260907805]
オフラインのフリーフォーム模倣データセットから言語条件付きポリシーを学習する際の最も重要な課題について検討する。本稿では,CALVINベンチマークを用いて,言語条件の難易度を向上する手法を提案する。
論文参考訳（メタデータ） (2022-04-13T08:45:32Z)
V-MAO: Generative Modeling for Multi-Arm Manipulation of Articulated Objects [51.79035249464852]
本稿では,音声による物体のマルチアーム操作を学習するためのフレームワークを提案する。本フレームワークは,各ロボットアームの剛部上の接触点分布を学習する変動生成モデルを含む。
論文参考訳（メタデータ） (2021-11-07T02:31:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。