論文の概要: SldprtNet: A Large-Scale Multimodal Dataset for CAD Generation in Language-Driven 3D Design
- arxiv url: http://arxiv.org/abs/2603.13098v1
- Date: Fri, 13 Mar 2026 15:47:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-16 17:38:12.167867
- Title: SldprtNet: A Large-Scale Multimodal Dataset for CAD Generation in Language-Driven 3D Design
- Title(参考訳): SldprtNet:言語駆動3D設計におけるCAD生成のための大規模マルチモーダルデータセット
- Authors: Ruogu Li, Sikai Li, Yao Mu, Mingyu Ding,
- Abstract要約: 我々は242,000以上の産業部品からなる大規模データセットであるSldprtNetを紹介した。
このデータセットは、さまざまなトレーニングとテストをサポートするために、.stepと.sldprtフォーマットの両方で3Dモデルを提供する。
慎重に選択された実世界の産業部品を備え、スケーラブルなデータセット拡張のためのツールをサポートする。
- 参考スコア(独自算出の注目度): 26.634272863620975
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We introduce SldprtNet, a large-scale dataset comprising over 242,000 industrial parts, designed for semantic-driven CAD modeling, geometric deep learning, and the training and fine-tuning of multimodal models for 3D design. The dataset provides 3D models in both .step and .sldprt formats to support diverse training and testing. To enable parametric modeling and facilitate dataset scalability, we developed supporting tools, an encoder and a decoder, which support 13 types of CAD commands and enable lossless transformation between 3D models and a structured text representation. Additionally, each sample is paired with a composite image created by merging seven rendered views from different viewpoints of the 3D model, effectively reducing input token length and accelerating inference. By combining this image with the parameterized text output from the encoder, we employ the lightweight multimodal language model Qwen2.5-VL-7B to generate a natural language description of each part's appearance and functionality. To ensure accuracy, we manually verified and aligned the generated descriptions, rendered images, and 3D models. These descriptions, along with the parameterized modeling scripts, rendered images, and 3D model files, are fully aligned to construct SldprtNet. To assess its effectiveness, we fine-tuned baseline models on a dataset subset, comparing image-plus-text inputs with text-only inputs. Results confirm the necessity and value of multimodal datasets for CAD generation. It features carefully selected real-world industrial parts, supporting tools for scalable dataset expansion, diverse modalities, and ensured diversity in model complexity and geometric features, making it a comprehensive multimodal dataset built for semantic-driven CAD modeling and cross-modal learning.
- Abstract(参考訳): SldprtNetは242,000以上の産業部品からなる大規模データセットであり、意味駆動CADモデリング、幾何学的深層学習、および3次元デザインのためのマルチモーダルモデルの訓練と微調整のために設計されている。
データセットはどちらも3Dモデルを提供する。
ステップ・アンド・
多様なトレーニングとテストをサポートする。
13種類のCADコマンドをサポートし、3次元モデルと構造化テキスト表現間のロスレス変換を可能にする。
さらに、各サンプルは、3Dモデルの異なる視点から7つのレンダリングビューをマージして生成された合成画像とペアリングされ、入力トークン長を効果的に低減し、推論を加速する。
この画像をエンコーダから出力されるパラメータ化テキストと組み合わせることで、軽量なマルチモーダル言語モデルQwen2.5-VL-7Bを用いて、各部分の外観と機能に関する自然言語記述を生成する。
精度を確保するために、生成した記述、レンダリング画像、および3Dモデルを手動で検証し、アライメントした。
これらの記述は、パラメータ化されたモデリングスクリプト、レンダリングされた画像、および3Dモデルファイルとともに、SldprtNetを構築するために完全に整列されている。
その有効性を評価するため、データセットサブセット上でベースラインモデルを微調整し、画像+テキスト入力とテキストのみ入力を比較した。
結果はCAD生成のためのマルチモーダルデータセットの必要性と価値を確認する。
それは、慎重に選択された実世界の産業部品、スケーラブルなデータセット拡張のためのツールのサポート、多様なモダリティ、モデルの複雑さと幾何学的特徴の多様性を保証すること、セマンティック駆動CADモデリングとクロスモーダル学習のための包括的なマルチモーダルデータセットである。
関連論文リスト
- Lemon: A Unified and Scalable 3D Multimodal Model for Universal Spatial Understanding [80.66591664266744]
Lemonは3Dポイントクラウドパッチと言語トークンを単一のシーケンスとして処理する統合トランスフォーマーアーキテクチャである。
3次元データの複雑さに対処するため,空間的コンテキストを保存するための構造化パッチやトークン化方式を開発した。
Lemonは、総合的な3D理解と推論タスクにまたがって、最先端のパフォーマンスを確立する。
論文 参考訳(メタデータ) (2025-12-14T20:02:43Z) - M3DLayout: A Multi-Source Dataset of 3D Indoor Layouts and Structured Descriptions for 3D Generation [14.956470298543534]
テキスト駆動の3Dシーン生成では、オブジェクトレイアウトは、高レベルの言語命令を詳細な出力でブリッジする重要な中間表現として機能する。
3次元屋内レイアウト生成のための大規模マルチソースデータセットであるM3Dを紹介する。
M3Dは15,080のレイアウトと258k以上のオブジェクトインスタンスで構成され、現実世界のスキャン、プロのCADデザイン、手続き的に生成されたシーンを統合している。
論文 参考訳(メタデータ) (2025-09-28T08:16:08Z) - TriCLIP-3D: A Unified Parameter-Efficient Framework for Tri-Modal 3D Visual Grounding based on CLIP [52.79100775328595]
3Dビジュアルグラウンドティングは、人間の指示に基づいて現実世界の3D環境における視覚情報を理解するための具体的エージェントである。
既存の3Dビジュアルグラウンド法は、異なるモダリティの異なるエンコーダに依存している。
本稿では,3つのモードすべてを処理するために,統合された2次元事前学習型マルチモーダルネットワークを提案する。
論文 参考訳(メタデータ) (2025-07-20T10:28:06Z) - Structured 3D Latents for Scalable and Versatile 3D Generation [28.672494137267837]
汎用的で高品質な3Dアセット作成のための新しい3D生成手法を提案する。
基本となるのは、異なる出力フォーマットへのデコードを可能にする、構造化されたLATent表現である。
これは、疎人口の少ない3Dグリッドと、強力な視覚基盤モデルから抽出された濃密な多視点視覚特徴を統合することで実現される。
論文 参考訳(メタデータ) (2024-12-02T13:58:38Z) - 3D-PreMise: Can Large Language Models Generate 3D Shapes with Sharp
Features and Parametric Control? [8.893200442359518]
本稿では,大規模言語モデルを用いてテキスト駆動型3次元形状を生成するフレームワークを提案する。
産業形状の3次元パラメトリックモデリングに適したデータセットである3D-PreMiseを提案する。
論文 参考訳(メタデータ) (2024-01-12T08:07:52Z) - VolumeDiffusion: Flexible Text-to-3D Generation with Efficient Volumetric Encoder [56.59814904526965]
本稿では,テキストから3D生成のための先駆的な3Dエンコーダを提案する。
マルチビュー画像から特徴ボリュームを効率よく取得する軽量ネットワークを開発した。
3Dボリュームは、3D U-Netを使用してテキストから3D生成のための拡散モデルに基づいて訓練される。
論文 参考訳(メタデータ) (2023-12-18T18:59:05Z) - 3D-GPT: Procedural 3D Modeling with Large Language Models [47.72968643115063]
命令駆動3Dモデリングのための大規模言語モデル(LLM)を利用するフレームワークである3D-GPTを紹介する。
3D-GPTは、3Dモデリングタスクをアクセス可能なセグメントに分割し、各タスクにアプエージェントを割り当てる。
我々の実証調査では、3D-GPTが解釈し、指示を実行し、信頼性の高い結果を提供するだけでなく、人間デザイナーと効果的に協力することを確認した。
論文 参考訳(メタデータ) (2023-10-19T17:41:48Z) - SDFusion: Multimodal 3D Shape Completion, Reconstruction, and Generation [89.47132156950194]
本稿では,アマチュアユーザのための3Dアセット生成を簡易化する新しいフレームワークを提案する。
提案手法は,人間によって容易に提供可能な様々な入力モダリティをサポートする。
私たちのモデルは、これらのタスクをひとつのSwiss-army-knifeツールにまとめることができます。
論文 参考訳(メタデータ) (2022-12-08T18:59:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。