論文の概要: LLM-to-Phy3D: Physically Conform Online 3D Object Generation with LLMs
- arxiv url: http://arxiv.org/abs/2506.11148v1
- Date: Wed, 11 Jun 2025 10:06:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 17:50:49.513328
- Title: LLM-to-Phy3D: Physically Conform Online 3D Object Generation with LLMs
- Title(参考訳): LLM-to-Phy3D: LLMを用いたオンライン3Dオブジェクト生成の物理的変換
- Authors: Melvin Wong, Yueming Lyu, Thiago Rios, Stefan Menzel, Yew-Soon Ong,
- Abstract要約: LLM-to-Phy3Dは、既存のLCM-to-3Dモデルで、その場で適合した3Dオブジェクトを生成できる、物理的に適合したオンライン3Dオブジェクト生成である。
LLM-to-Phy3Dの体系的評価は、車両設計最適化におけるアブレーション研究によって支持され、様々なLCMの改善が4.5%から106.7%向上した。
奨励的な結果は、科学や工学の応用にLLM-to-Phy3Dを物理AIに応用する可能性を示唆している。
- 参考スコア(独自算出の注目度): 25.95070778191463
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The emergence of generative artificial intelligence (GenAI) and large language models (LLMs) has revolutionized the landscape of digital content creation in different modalities. However, its potential use in Physical AI for engineering design, where the production of physically viable artifacts is paramount, remains vastly underexplored. The absence of physical knowledge in existing LLM-to-3D models often results in outputs detached from real-world physical constraints. To address this gap, we introduce LLM-to-Phy3D, a physically conform online 3D object generation that enables existing LLM-to-3D models to produce physically conforming 3D objects on the fly. LLM-to-Phy3D introduces a novel online black-box refinement loop that empowers large language models (LLMs) through synergistic visual and physics-based evaluations. By delivering directional feedback in an iterative refinement process, LLM-to-Phy3D actively drives the discovery of prompts that yield 3D artifacts with enhanced physical performance and greater geometric novelty relative to reference objects, marking a substantial contribution to AI-driven generative design. Systematic evaluations of LLM-to-Phy3D, supported by ablation studies in vehicle design optimization, reveal various LLM improvements gained by 4.5% to 106.7% in producing physically conform target domain 3D designs over conventional LLM-to-3D models. The encouraging results suggest the potential general use of LLM-to-Phy3D in Physical AI for scientific and engineering applications.
- Abstract(参考訳): 生成的人工知能(GenAI)と大規模言語モデル(LLM)の出現は、デジタルコンテンツ作成の状況に様々な変化をもたらした。
しかし、物理的に実行可能なアーティファクトの生産が最重要であるエンジニアリング設計における物理AIの潜在的な使用は、いまだに過小評価されている。
既存のLLM-to-3Dモデルに物理的知識がないため、実世界の物理的制約から外れた出力が得られることが多い。
LLM-to-Phy3Dは、既存のLCM-to-3Dモデルで物理的に整合した3Dオブジェクトを高速に生成できる、物理的に整合したオンライン3Dオブジェクト生成である。
LLM-to-Phy3Dは、相乗的視覚と物理に基づく評価を通じて、大きな言語モデル(LLM)を強化する、新しいオンラインブラックボックスリファインメントループを導入している。
LLM-to-Phy3Dは、反復的洗練プロセスで指向性フィードバックを提供することで、物理性能が向上し、参照オブジェクトに対する幾何学的斬新さが向上するプロンプトの発見を積極的に推進し、AI駆動の生成設計にかなりの貢献を図っている。
LLM-to-Phy3Dの体系的評価は、車両設計最適化におけるアブレーション研究によって支持され、従来のLLM-to-3Dモデルよりも物理的に適合したドメイン3D設計を生産する際の4.5%から106.7%の改善が示された。
奨励的な結果は、科学や工学の応用にLLM-to-Phy3Dを物理AIに応用する可能性を示唆している。
関連論文リスト
- SpatialLM: Training Large Language Models for Structured Indoor Modeling [34.0957676434764]
SpaceLMは3Dポイントクラウドデータを処理し、構造化された3Dシーン理解出力を生成するために設計された大きな言語モデルである。
室内の12,328の点雲と地上の3Dアノテーションからなる大規模で高品質な合成データセットを収集する。
提案モデルでは,3次元物体検出において,レイアウト推定における最先端性能と競合性を示す。
論文 参考訳(メタデータ) (2025-06-09T07:10:58Z) - 3D-MoE: A Mixture-of-Experts Multi-modal LLM for 3D Vision and Pose Diffusion via Rectified Flow [69.94527569577295]
3次元の視覚と空間的推論は、長い間、我々の3次元の世界を正確に知覚するのに好ましいと認識されてきた。
高品質な3Dデータ収集の難しさから,近年,この領域の研究が勢いを増している。
我々は,既存の高密度活性化LDMをマルチモーダルデータ処理に有効であることが証明されたMix-of-experts(MoE)モデルに変換することを提案する。
論文 参考訳(メタデータ) (2025-01-28T04:31:19Z) - LLMI3D: MLLM-based 3D Perception from a Single 2D Image [77.13869413871028]
マルチモーダルな大言語モデル(MLLM)は、一般的な能力では優れているが、3Dタスクでは性能が劣る。
本稿では,3次元局所空間物体認識の弱さ,テキストに基づく幾何学的数値出力の低さ,カメラ焦点変動の処理能力の低下に対する解決策を提案する。
我々は,事前学習したMLLMに対してパラメータ効率の良い微調整を採用し,強力な3次元知覚MLLMであるLLMI3Dを開発した。
論文 参考訳(メタデータ) (2024-08-14T10:00:16Z) - Atlas3D: Physically Constrained Self-Supporting Text-to-3D for Simulation and Fabrication [50.541882834405946]
我々は,テキストから3Dへの自動的実装であるAtlas3Dを紹介する。
提案手法は,新しい微分可能シミュレーションに基づく損失関数と,物理的にインスパイアされた正規化を組み合わせたものである。
我々は、Atlas3Dの有効性を広範囲な生成タスクを通して検証し、シミュレーションと実環境の両方で結果の3Dモデルを検証する。
論文 参考訳(メタデータ) (2024-05-28T18:33:18Z) - Is a 3D-Tokenized LLM the Key to Reliable Autonomous Driving? [66.6886931183372]
我々は,LDMと1層線形プロジェクタを接続する3Dトークン化器として,DETR方式の3Dパーセプトロンを導入する。
その単純さにもかかわらず、Atlasは3D検出とエゴ計画の両方で優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-05-28T16:57:44Z) - 3D-PreMise: Can Large Language Models Generate 3D Shapes with Sharp
Features and Parametric Control? [8.893200442359518]
本稿では,大規模言語モデルを用いてテキスト駆動型3次元形状を生成するフレームワークを提案する。
産業形状の3次元パラメトリックモデリングに適したデータセットである3D-PreMiseを提案する。
論文 参考訳(メタデータ) (2024-01-12T08:07:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。