論文の概要: Prompt-to-Parts: Generative AI for Physical Assembly and Scalable Instructions
- arxiv url: http://arxiv.org/abs/2512.15743v1
- Date: Wed, 10 Dec 2025 05:55:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:31.646267
- Title: Prompt-to-Parts: Generative AI for Physical Assembly and Scalable Instructions
- Title(参考訳): Prompt-to-Parts: 物理的なアセンブリとスケーラブルなインストラクションのための生成AI
- Authors: David Noever,
- Abstract要約: 本稿では、自然言語記述から物理的に実現可能なアセンブリ命令を生成するためのフレームワークを提案する。
LDrawをテキストリッチな中間表現として使用することにより、大きな言語モデルに有効なステップバイステップ構成シーケンスを生成するためのツールを導出できることを実証する。
プログラムモデル生成のためのPythonライブラリを導入し、複雑な衛星、航空機、建築領域で構築可能な出力を評価する。
- 参考スコア(独自算出の注目度): 3.0620527758972496
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a framework for generating physically realizable assembly instructions from natural language descriptions. Unlike unconstrained text-to-3D approaches, our method operates within a discrete parts vocabulary, enforcing geometric validity, connection constraints, and buildability ordering. Using LDraw as a text-rich intermediate representation, we demonstrate that large language models can be guided with tools to produce valid step-by-step construction sequences and assembly instructions for brick-based prototypes of more than 3000 assembly parts. We introduce a Python library for programmatic model generation and evaluate buildable outputs on complex satellites, aircraft, and architectural domains. The approach aims for demonstrable scalability, modularity, and fidelity that bridges the gap between semantic design intent and manufacturable output. Physical prototyping follows from natural language specifications. The work proposes a novel elemental lingua franca as a key missing piece from the previous pixel-based diffusion methods or computer-aided design (CAD) models that fail to support complex assembly instructions or component exchange. Across four original designs, this novel "bag of bricks" method thus functions as a physical API: a constrained vocabulary connecting precisely oriented brick locations to a "bag of words" through which arbitrary functional requirements compile into material reality. Given such a consistent and repeatable AI representation opens new design options while guiding natural language implementations in manufacturing and engineering prototyping.
- Abstract(参考訳): 本稿では、自然言語記述から物理的に実現可能なアセンブリ命令を生成するためのフレームワークを提案する。
制約のないテキストから3Dのアプローチとは異なり、この手法は、幾何学的妥当性、接続制約、構築可能性の順序付けを強制して、離散的な部分語彙内で動作させる。
LDrawをテキストリッチな中間表現として使用することにより、3000以上の組み立て部品からなるブロックベースのプロトタイプに対して、ステップバイステップ構築シーケンスとアセンブリ命令を生成するためのツールで、大きな言語モデルをガイドできることを実証する。
プログラムモデル生成のためのPythonライブラリを導入し、複雑な衛星、航空機、建築領域で構築可能な出力を評価する。
このアプローチは、セマンティックデザイン意図と製造可能なアウトプットのギャップを埋める、実証可能なスケーラビリティ、モジュラリティ、忠実性を目指している。
物理プロトタイピングは自然言語の仕様に従っている。
本研究は, 複雑な組立命令やコンポーネント交換をサポートしない, 従来の画素ベースの拡散法やCAD(コンピュータ支援設計)モデルから重要な欠落点として, 新たな要素言語フランカを提案する。
この新しい「レンガの袋」メソッドは、4つのオリジナルデザイン全体にわたって物理的なAPIとして機能し、任意の機能要件が物質的現実にコンパイルされる「単語の袋」に正確に向き付けられたレンガの場所を接続する制約付き語彙である。
このような一貫性のある繰り返し可能なAI表現が、製造とエンジニアリングのプロトタイピングにおいて自然言語の実装を導く一方で、新しい設計オプションを開放する。
関連論文リスト
- Natural Language Interface for Firewall Configuration [0.0]
本稿では,企業ファイアウォール構築のための自然言語インタフェースの設計とプロトタイプ実装について述べる。
このフレームワークは、管理者がプレーン言語でアクセス制御ポリシーを表現し、ベンダー固有のポリシーに変換することを可能にする。
論文 参考訳(メタデータ) (2025-12-11T16:33:33Z) - Part-X-MLLM: Part-aware 3D Multimodal Large Language Model [35.75184591224847]
Part-X-MLLMは、ネイティブな3Dマルチモーダルな大規模言語モデルである。
構造化された実行可能な文法でプログラムとして定式化することで、多様な3Dタスクを統一する。
論文 参考訳(メタデータ) (2025-11-17T17:59:52Z) - $I^2G$: Generating Instructional Illustrations via Text-Conditioned Diffusion [31.2362624526101]
手続き的テキストをコヒーレントな視覚的指示に分解する言語駆動型フレームワークを提案する。
提案手法は,学習内容の言語構造を目標文と逐次ステップにコヒーレンスすることでモデル化し,これらの言語要素を視覚的に生成する。
この研究は、教育、タスクガイダンス、マルチモーダル言語理解など、視覚コンテンツにおける手続き言語の基礎となる研究に寄与する。
論文 参考訳(メタデータ) (2025-05-22T09:10:09Z) - Langformers: Unified NLP Pipelines for Language Models [3.690904966341072]
LangformersはオープンソースのPythonライブラリで、NLPパイプラインを合理化するように設計されている。
会話型AI、事前学習、テキスト分類、文の埋め込み/更新、データラベリング、セマンティック検索、知識蒸留を結合型APIに統合する。
論文 参考訳(メタデータ) (2025-04-12T10:17:49Z) - Establishing tool support for a concept DSL [0.0]
この論文は、自己完結的で再利用可能な概念単位を用いて、ソフトウェアシステムの振る舞いをモデル化するためのDSLであるConceptualを記述している。
提案された戦略は単純なコンパイラで実装され、開発者はプログラムの推論に既存の分析ツールにアクセスして利用することができる。
論文 参考訳(メタデータ) (2025-03-07T09:18:31Z) - CMULAB: An Open-Source Framework for Training and Deployment of Natural Language Processing Models [59.91221728187576]
本稿では,NLPモデルのモデル展開と連続的なヒューマン・イン・ザ・ループの微調整を簡単にするオープンソースフレームワークであるCMU言語バックエンドを紹介する。
CMULABは、マルチ言語モデルのパワーを活用して、音声認識、OCR、翻訳、構文解析などの既存のツールを新しい言語に迅速に適応し、拡張することができる。
論文 参考訳(メタデータ) (2024-04-03T02:21:46Z) - Instruct2Act: Mapping Multi-modality Instructions to Robotic Actions
with Large Language Model [63.66204449776262]
Instruct2Actは、ロボット操作タスクのシーケンシャルアクションにマルチモーダル命令をマッピングするフレームワークである。
我々のアプローチは、様々な命令のモダリティや入力タイプを調節する上で、調整可能で柔軟なものである。
我々のゼロショット法は、いくつかのタスクにおいて、最先端の学習ベースのポリシーよりも優れていた。
論文 参考訳(メタデータ) (2023-05-18T17:59:49Z) - Learning to Solve Voxel Building Embodied Tasks from Pixels and Natural
Language Instructions [53.21504989297547]
本研究では,Minecraftのような環境下でのオブジェクト構築作業において,言語モデルと強化学習を組み合わせた新しい手法を提案する。
提案手法は,まず命令から一貫した達成可能なサブゴールのセットを生成し,学習済みのRLポリシーで関連するサブタスクを完了させる。
論文 参考訳(メタデータ) (2022-11-01T18:30:42Z) - Pre-Trained Language Models for Interactive Decision-Making [72.77825666035203]
目的と観測を埋め込みのシーケンスとして表現する模倣学習の枠組みを述べる。
このフレームワークは様々な環境にまたがって効果的な一般化を可能にすることを実証する。
新たなゴールや新しいシーンを含むテストタスクでは、言語モデルによる初期化ポリシーはタスク完了率を43.6%改善する。
論文 参考訳(メタデータ) (2022-02-03T18:55:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。