論文の概要: Generating Physically Stable and Buildable LEGO Designs from Text
- arxiv url: http://arxiv.org/abs/2505.05469v1
- Date: Thu, 08 May 2025 17:58:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 21:43:49.995838
- Title: Generating Physically Stable and Buildable LEGO Designs from Text
- Title(参考訳): 物理的に安定して組み立て可能なレゴデザインをテキストから生成する
- Authors: Ava Pun, Kangle Deng, Ruixuan Liu, Deva Ramanan, Changliu Liu, Jun-Yan Zhu,
- Abstract要約: LegoGPTは、テキストプロンプトから物理的に安定したLEGOブロックモデルを生成するための最初のアプローチである。
私たちは、次に追加すべきブロックを予測するために、自動回帰的な大きな言語モデルをトレーニングします。
我々の実験は、我々のデザインは人間が手動で組み立てることができることを示している。
- 参考スコア(独自算出の注目度): 63.75381708299733
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce LegoGPT, the first approach for generating physically stable LEGO brick models from text prompts. To achieve this, we construct a large-scale, physically stable dataset of LEGO designs, along with their associated captions, and train an autoregressive large language model to predict the next brick to add via next-token prediction. To improve the stability of the resulting designs, we employ an efficient validity check and physics-aware rollback during autoregressive inference, which prunes infeasible token predictions using physics laws and assembly constraints. Our experiments show that LegoGPT produces stable, diverse, and aesthetically pleasing LEGO designs that align closely with the input text prompts. We also develop a text-based LEGO texturing method to generate colored and textured designs. We show that our designs can be assembled manually by humans and automatically by robotic arms. We also release our new dataset, StableText2Lego, containing over 47,000 LEGO structures of over 28,000 unique 3D objects accompanied by detailed captions, along with our code and models at the project website: https://avalovelace1.github.io/LegoGPT/.
- Abstract(参考訳): テキストプロンプトから物理的に安定したLEGOブロックモデルを生成するための最初のアプローチであるLegoGPTを紹介します。
これを実現するために,LEGOデザインの大規模で物理的に安定なデータセットと関連するキャプションを構築し,自動回帰型大規模言語モデルを訓練して,次のブロックを予測し,次のブロックを追加する。
結果の安定性を向上させるため, 自己回帰推論において, 物理法則や組立制約を用いた非実用的トークン予測を行う, 効率のよい正当性チェックと物理対応ロールバックを用いる。
我々の実験によると、LegoGPTは、入力されたテキストプロンプトと密接に一致した、安定的で、多様で、美的なレゴデザインを生産している。
また,テキストベースのLEGOテクスチャ作成手法を開発した。
我々のデザインは人間によって手動で組み立てられ、ロボットアームによって自動的に組み立てられることを示す。
また、新しいデータセットであるStableText2Legoもリリースしました。その中には、28,000以上のユニークな3Dオブジェクトからなる47,000以上のLEGO構造と詳細なキャプション、プロジェクトのWebサイトにあるコードとモデルが含まれています。
関連論文リスト
- Cube: A Roblox View of 3D Intelligence [67.43543266278154]
膨大な量のデータに基づいてトレーニングされた基礎モデルは、驚くべき推論と生成能力を示している。
本稿では,テキスト・ツー・シェイプ生成,形状・ツー・テキスト生成,テキスト・ツー・シーン生成などに適用可能なトークン化方式について述べる。
我々は、3Dインテリジェンスのための完全に統一された基礎モデルを構築するための私たちの道筋を概説した議論で締めくくります。
論文 参考訳(メタデータ) (2025-03-19T17:52:17Z) - TreeSBA: Tree-Transformer for Self-Supervised Sequential Brick Assembly [51.29305265324916]
入力された多視点画像から連続的な組立動作を予測するために,クラスに依存しないツリー・トランスフォーマフレームワークを提案する。
逐次レンガ組立作業の大きな課題は、ステップワイドアクションラベルが実際に入手するのに費用がかかり、面倒であることである。
我々は、合成から現実への移行学習を活用することにより、この問題を緩和する。
論文 参考訳(メタデータ) (2024-07-22T14:05:27Z) - DressCode: Autoregressively Sewing and Generating Garments from Text Guidance [61.48120090970027]
DressCodeは、初心者向けのデザインを民主化し、ファッションデザイン、バーチャルトライオン、デジタルヒューマン創造において大きな可能性を秘めている。
まず,テキスト条件の埋め込みとクロスアテンションを統合して縫製パターンを生成する,GPTベースのアーキテクチャであるSewingGPTを紹介する。
次に、トレーニング済みの安定拡散を調整し、タイルベースの衣服用物理レンダリング(PBR)テクスチャを生成します。
論文 参考訳(メタデータ) (2024-01-29T16:24:21Z) - Instruct-SCTG: Guiding Sequential Controlled Text Generation through
Instructions [42.67608830386934]
Instruct-SCTGは、命令調整言語モデルを利用して構造的に一貫性のあるテキストを生成するシーケンシャルフレームワークである。
本フレームワークは,自然言語命令を用いて,所望の人体構造に整合して記事を生成する。
論文 参考訳(メタデータ) (2023-12-19T16:20:49Z) - TextDiffuser-2: Unleashing the Power of Language Models for Text
Rendering [118.30923824681642]
TextDiffuser-2は、テキストレンダリングのための言語モデルのパワーを解き放つことを目的としている。
拡散モデル内の言語モデルを用いて,行レベルでの位置とテキストを符号化する。
我々は広範な実験を行い、GPT-4Vと同様に、ヒトの参加者を含むユーザスタディを取り入れた。
論文 参考訳(メタデータ) (2023-11-28T04:02:40Z) - A Lightweight and Transferable Design for Robust LEGO Manipulation [10.982854061044339]
本稿では,安全かつ効率的なロボットレゴ操作について検討する。
エンド・オブ・アーム(End-of-arm)ツール(EOAT)が設計されており、問題の大きさを減らし、大きな産業用ロボットが小さなレゴブロックを操作することができる。
実験により、EOATはレゴブロックを確実に操作でき、学習フレームワークは操作性能を100%の成功率で効果的かつ安全に改善できることが示された。
論文 参考訳(メタデータ) (2023-09-05T16:11:37Z) - Generating Faithful Text From a Knowledge Graph with Noisy Reference
Text [26.6775578332187]
与えられたグラフから忠実な自然言語テキストを生成することができるKG-to-text生成モデルを開発した。
まず、コントラスト学習を利用して、テキスト内の忠実な情報と幻覚的な情報を区別するモデルの能力を強化する。
第2に、制御可能なテキスト生成技術を用いて、デコーダに生成したテキストの幻覚レベルを制御する権限を与える。
論文 参考訳(メタデータ) (2023-08-12T07:12:45Z) - Budget-Aware Sequential Brick Assembly with Efficient Constraint Satisfaction [63.672314717599285]
レゴブロックを用いた逐次レンガ組立体の課題に対処し、3D構造を創出する。
特に、使用されるレンガの数が増えるにつれて、組み立て可能な構造物の数は指数関数的に増加する。
本稿では,U字型スパース3次元畳み込みニューラルネットワークを用いて,次のブロック位置のスコアを予測する新しい手法を提案する。
論文 参考訳(メタデータ) (2022-10-03T15:35:08Z) - Break and Make: Interactive Structural Understanding Using LEGO Bricks [61.01136603613139]
私たちは、LEGOモデルの組み立て、分解、操作が可能な、完全にインタラクティブな3Dシミュレータを構築しました。
シーケンス・ツー・シーケンス・モデルを用いてこの問題を解決するための第一歩を踏み出す。
論文 参考訳(メタデータ) (2022-07-27T18:33:09Z) - Image2Lego: Customized LEGO Set Generation from Images [50.87935634904456]
2次元画像からLEGOブロックモデルを生成するシステムを実装した。
モデルは3Dボキセル化モデルのブロックへのアルゴリズム変換によって得られる。
我々は、オブジェクトと人間の顔のLEGOモデルのためのステップバイステップのビルド手順とアニメーションを生成します。
論文 参考訳(メタデータ) (2021-08-19T03:42:58Z) - Lattice-BERT: Leveraging Multi-Granularity Representations in Chinese
Pre-trained Language Models [62.41139712595334]
中国語のための新しい事前学習パラダイムであるLattice-BERTを提案する。
文中の文字や単語から格子グラフを構築し、これらすべてのテキスト単位をトランスフォーマーに供給します。
本モデルが12層設定で平均1.5%の増加をもたらすことを示した。
論文 参考訳(メタデータ) (2021-04-15T02:36:49Z) - Building LEGO Using Deep Generative Models of Graphs [22.926487008829668]
我々はLEGOをシーケンシャルアセンブリの生成モデルを開発するためのプラットフォームとして提唱する。
人造構造から学び、視覚的に魅力的なデザインを生み出すことができるグラフ構造ニューラルネットワークに基づく生成モデルを開発する。
論文 参考訳(メタデータ) (2020-12-21T18:24:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。