論文の概要: Text to Robotic Assembly of Multi Component Objects using 3D Generative AI and Vision Language Models
- arxiv url: http://arxiv.org/abs/2511.02162v2
- Date: Thu, 06 Nov 2025 20:54:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-10 12:50:39.955765
- Title: Text to Robotic Assembly of Multi Component Objects using 3D Generative AI and Vision Language Models
- Title(参考訳): 3次元生成AIと視覚言語モデルを用いた多成分物体のテキストとロボットによる組み立て
- Authors: Alexander Htet Kyaw, Richa Gupta, Dhruv Shah, Anoop Sinha, Kory Mathewson, Stefanie Pender, Sachin Chitta, Yotto Koga, Faez Ahmed, Lawrence Sass, Randall Davis,
- Abstract要約: パイプラインは3D生成AIを視覚言語モデル(VLM)と統合する
メソッドは、事前に定義された構造とパネルコンポーネントを使用して、AI生成メッシュをマルチコンポーネントの3Dモデルに分解する。
システムは会話フィードバックによってコンポーネントの割り当てを洗練できる。
- 参考スコア(独自算出の注目度): 37.666073171889266
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Advances in 3D generative AI have enabled the creation of physical objects from text prompts, but challenges remain in creating objects involving multiple component types. We present a pipeline that integrates 3D generative AI with vision-language models (VLMs) to enable the robotic assembly of multi-component objects from natural language. Our method leverages VLMs for zero-shot, multi-modal reasoning about geometry and functionality to decompose AI-generated meshes into multi-component 3D models using predefined structural and panel components. We demonstrate that a VLM is capable of determining which mesh regions need panel components in addition to structural components, based on the object's geometry and functionality. Evaluation across test objects shows that users preferred the VLM-generated assignments 90.6% of the time, compared to 59.4% for rule-based and 2.5% for random assignment. Lastly, the system allows users to refine component assignments through conversational feedback, enabling greater human control and agency in making physical objects with generative AI and robotics.
- Abstract(参考訳): 3D生成AIの進歩により、テキストプロンプトから物理オブジェクトの作成が可能になったが、複数のコンポーネントタイプを含むオブジェクトの作成には依然として課題が残っている。
本稿では,3次元生成AIと視覚言語モデル(VLM)を統合し,自然言語からの多成分オブジェクトのロボット組立を可能にするパイプラインを提案する。
提案手法は,VLMをゼロショット・マルチモーダルな幾何学的推論に利用して,AI生成メッシュを予め定義された構造成分とパネル成分を用いて多成分3Dモデルに分解する。
我々は、VLMが、オブジェクトの形状と機能に基づいて、構造コンポーネントに加えて、どのメッシュ領域がパネルコンポーネントを必要とするかを決定することができることを示した。
テストオブジェクト間の評価では、ユーザがVLMの生成した割り当てを90.6%、ルールベースが59.4%、ランダムな割り当てが2.5%、が好まれている。
最後に、このシステムは会話のフィードバックを通じてコンポーネントの割り当てを洗練し、生成するAIとロボティクスを使って物理的オブジェクトを作成する際に、より優れた人間制御とエージェンシーを可能にする。
関連論文リスト
- IAAO: Interactive Affordance Learning for Articulated Objects in 3D Environments [56.85804719947]
IAAOは知的エージェントのための明示的な3Dモデルを構築するフレームワークで,対話を通して環境内の明瞭な物体の理解を得る。
マスク特徴とビュー一貫性ラベルを多視点画像から抽出し,まず3次元ガウススティング(3DGS)を用いて各オブジェクト状態の階層的特徴とラベルフィールドを構築する。
次に、3Dガウスプリミティブ上でオブジェクトと部分レベルのクエリを実行し、静的および明瞭な要素を識別し、大域的な変換と局所的な調音パラメータをアベイランスとともに推定する。
論文 参考訳(メタデータ) (2025-04-09T12:36:48Z) - PartGen: Part-level 3D Generation and Reconstruction with Multi-View Diffusion Models [63.1432721793683]
テキスト,画像,構造化されていない3Dオブジェクトから意味のある部分からなる3Dオブジェクトを生成する新しいアプローチであるPartGenを紹介する。
提案手法は, 生成された実物および実物の3次元資産に対して評価し, セグメンテーションおよび部分抽出ベースラインを大きなマージンで上回っていることを示す。
論文 参考訳(メタデータ) (2024-12-24T18:59:43Z) - Speech to Reality: On-Demand Production using Natural Language, 3D Generative AI, and Discrete Robotic Assembly [45.100331509693724]
本稿では,3次元生成AIと離散ロボットアセンブリを用いて,音声を物理オブジェクトに変換するシステムを提案する。
自然言語を活用することで、3Dモデリングやロボットプログラミングの専門知識のない人でも、設計や製造がより容易にできるようになる。
論文 参考訳(メタデータ) (2024-09-27T02:12:56Z) - SUGAR: Pre-training 3D Visual Representations for Robotics [85.55534363501131]
ロボット工学のための新しい3D事前学習フレームワークSUGARを紹介した。
SUGARは3次元の点雲を通してオブジェクトの意味的、幾何学的、および余分な特性をキャプチャする。
SuGARの3D表現は最先端の2Dおよび3D表現よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-04-01T21:23:03Z) - L3GO: Language Agents with Chain-of-3D-Thoughts for Generating
Unconventional Objects [53.4874127399702]
本稿では,3Dメッシュ生成を推論可能な3Dメッシュ生成手法であるL3GO(チェーン・オブ・3D思想)を用いた言語エージェントを提案する。
我々は,新しいベンチマークである Unconventionally Feasible Objects (UFO) と,Blender上に構築されたSimpleBlenv を開発した。
提案手法は,ShapeNet上での3Dメッシュ生成のための標準GPT-4および他の言語エージェントを上回る。
論文 参考訳(メタデータ) (2024-02-14T09:51:05Z) - 3D-GPT: Procedural 3D Modeling with Large Language Models [47.72968643115063]
命令駆動3Dモデリングのための大規模言語モデル(LLM)を利用するフレームワークである3D-GPTを紹介する。
3D-GPTは、3Dモデリングタスクをアクセス可能なセグメントに分割し、各タスクにアプエージェントを割り当てる。
我々の実証調査では、3D-GPTが解釈し、指示を実行し、信頼性の高い結果を提供するだけでなく、人間デザイナーと効果的に協力することを確認した。
論文 参考訳(メタデータ) (2023-10-19T17:41:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。