論文の概要: CAD-Tokenizer: Towards Text-based CAD Prototyping via Modality-Specific Tokenization
- arxiv url: http://arxiv.org/abs/2509.21150v1
- Date: Thu, 25 Sep 2025 13:38:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.939868
- Title: CAD-Tokenizer: Towards Text-based CAD Prototyping via Modality-Specific Tokenization
- Title(参考訳): CAD-Tokenizer:Modality-Specific TokenizationによるテキストベースのCADプロトタイピングを目指して
- Authors: Ruiyu Wang, Shizhao Sun, Weijian Ma, Jiang Bian,
- Abstract要約: CAD-Tokenizerは、プリミティブレベルプーリングと制約付きデコードを備えたシーケンスベースのVQ-VAEを用いて、モダリティ固有のトークンでCADデータを表現している。
この設計はCADの構造的性質に沿ったコンパクトでプリミティブな表現を生成する。
- 参考スコア(独自算出の注目度): 16.26305802216836
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Computer-Aided Design (CAD) is a foundational component of industrial prototyping, where models are defined not by raw coordinates but by construction sequences such as sketches and extrusions. This sequential structure enables both efficient prototype initialization and subsequent editing. Text-guided CAD prototyping, which unifies Text-to-CAD generation and CAD editing, has the potential to streamline the entire design pipeline. However, prior work has not explored this setting, largely because standard large language model (LLM) tokenizers decompose CAD sequences into natural-language word pieces, failing to capture primitive-level CAD semantics and hindering attention modules from modeling geometric structure. We conjecture that a multimodal tokenization strategy, aligned with CAD's primitive and structural nature, can provide more effective representations. To this end, we propose CAD-Tokenizer, a framework that represents CAD data with modality-specific tokens using a sequence-based VQ-VAE with primitive-level pooling and constrained decoding. This design produces compact, primitive-aware representations that align with CAD's structural nature. Applied to unified text-guided CAD prototyping, CAD-Tokenizer significantly improves instruction following and generation quality, achieving better quantitative and qualitative performance over both general-purpose LLMs and task-specific baselines.
- Abstract(参考訳): CAD(Computer-Aided Design)は産業用プロトタイピングの基本コンポーネントであり、モデルは生の座標ではなくスケッチや押出といった構築シーケンスによって定義される。
このシーケンシャルな構造は、効率的なプロトタイプ初期化とその後の編集を可能にする。
Text-to-CAD生成とCAD編集を統合するテキスト誘導CADプロトタイピングは、設計パイプライン全体を合理化する可能性がある。
しかし、従来の研究では、標準の大規模言語モデル(LLM)トークン化器がCAD配列を自然言語の単語片に分解し、プリミティブレベルのCADセマンティクスをキャプチャできず、幾何学的構造をモデル化できないため、この設定は検討されていない。
CADのプリミティブで構造的な性質に則ったマルチモーダルトークン化戦略は,より効果的な表現を提供することができると推測する。
そこで本研究では,プリミティブレベルプーリングと制約付きデコーディングを備えたシーケンスベースのVQ-VAEを用いて,CADデータをモダリティ固有のトークンで表現するCAD-Tokenizerを提案する。
この設計はCADの構造的性質に沿ったコンパクトでプリミティブな表現を生成する。
CAD-Tokenizerは、テキスト誘導CADプロトタイピングに応用し、命令追従と生成品質を大幅に改善し、汎用LLMとタスク固有のベースラインの両方に対して、定量的かつ定性的な性能を向上する。
関連論文リスト
- From Intent to Execution: Multimodal Chain-of-Thought Reinforcement Learning for Precise CAD Code Generation [47.67703214044401]
CADモデリングコード生成のためのマルチモーダルChain-of-Thoughtガイド強化学習フレームワークCAD-RLを提案する。
本手法は,3つのタスク固有報酬を用いた目標駆動型強化学習ポストトレーニングとコールドスタートを組み合わせた。
CAD-RLは、推論品質、出力精度、コード実行可能性を大幅に改善することを示した。
論文 参考訳(メタデータ) (2025-08-13T18:30:49Z) - CADmium: Fine-Tuning Code Language Models for Text-Driven Sequential CAD Design [10.105055422074734]
我々は,人間的な記述を付加した170k以上のCADモデルの大規模パイプラインを新たに導入する。
本研究はCADmiumがCAD設計を自動化可能であることを示すものである。
論文 参考訳(メタデータ) (2025-07-13T21:11:53Z) - CADCrafter: Generating Computer-Aided Design Models from Unconstrained Images [69.7768227804928]
CADCrafterは画像からパラメトリックCADモデル生成フレームワークで、合成テクスチャなしCADデータのみをトレーニングする。
多様な幾何学的特徴を正確に捉えるための幾何エンコーダを導入する。
提案手法は、実際の制約のないCADイメージを頑健に処理でき、また、目に見えない汎用オブジェクトにも一般化できる。
論文 参考訳(メタデータ) (2025-04-07T06:01:35Z) - CADSpotting: Robust Panoptic Symbol Spotting on Large-Scale CAD Drawings [56.05238657033198]
本稿では,大規模CAD図面におけるパノプティカルシンボルスポッティングの効果的な方法であるCADSpottingを紹介する。
また、重み付き投票とNon-Maximum Suppression(NMS)を組み合わせたSWA(Sliding Window Aggregation)手法を提案する。
FloorPlanCAD と LS-CAD の実験により,CADSpotting が既存手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-12-10T10:22:17Z) - CAD-MLLM: Unifying Multimodality-Conditioned CAD Generation With MLLM [39.113795259823476]
マルチモーダル入力に条件付きパラメトリックCADモデルを生成可能な最初のシステムであるCAD-MLLMを導入する。
先進的な大規模言語モデル (LLM) を用いて,多様なマルチモーダルデータとCADモデルのベクトル化表現に特徴空間を整合させる。
得られたデータセットはOmni-CADと呼ばれ、CADモデル毎にテキスト記述、多視点画像、ポイント、コマンドシーケンスを含む最初のマルチモーダルCADデータセットである。
論文 参考訳(メタデータ) (2024-11-07T18:31:08Z) - GenCAD: Image-Conditioned Computer-Aided Design Generation with Transformer-Based Contrastive Representation and Diffusion Priors [3.796768352477804]
CAD(Computer-Aided Design)による製造可能で編集可能な3D形状の作成は、手作業と時間を要する作業である。
本稿では、画像入力をパラメトリックCADコマンドシーケンスに変換するために、コントラスト学習フレームワークと潜時拡散モデルを備えた自己回帰変換器を用いた生成モデルであるGenCADを紹介する。
論文 参考訳(メタデータ) (2024-09-08T23:49:11Z) - AutoCAD: Automatically Generating Counterfactuals for Mitigating
Shortcut Learning [70.70393006697383]
完全自動かつタスクに依存しないCAD生成フレームワークであるAutoCADについて述べる。
本稿では,完全に自動化されたタスクに依存しないCAD生成フレームワークであるAutoCADを提案する。
論文 参考訳(メタデータ) (2022-11-29T13:39:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。