論文の概要: CMT: A Cascade MAR with Topology Predictor for Multimodal Conditional CAD Generation
- arxiv url: http://arxiv.org/abs/2504.20830v1
- Date: Tue, 29 Apr 2025 14:52:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.947551
- Title: CMT: A Cascade MAR with Topology Predictor for Multimodal Conditional CAD Generation
- Title(参考訳): CMT:マルチモーダル・コンディショナルCAD生成のための位相予測器を備えたカスケードMAR
- Authors: Jianyu Wu, Yizhou Wang, Xiangyu Yue, Xinzhu Ma, Jingyang Guo, Dongzhan Zhou, Wanli Ouyang, Shixiang Tang,
- Abstract要約: 境界表現(B-Rep)に基づくCAD生成のための最初のマルチモーダルフレームワークであるトポロジ予測器(CMT)を用いたカスケードMARを提案する。
具体的には、カスケードMARは、B-Repsに必須のエッジカウンタ面の先行情報を効果的にキャプチャすることができる。
マルチモーダルアノテーション付きB-Repモデルを含む大規模マルチモーダルCADデータセットmmABCを開発した。
- 参考スコア(独自算出の注目度): 59.76687657887415
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While accurate and user-friendly Computer-Aided Design (CAD) is crucial for industrial design and manufacturing, existing methods still struggle to achieve this due to their over-simplified representations or architectures incapable of supporting multimodal design requirements. In this paper, we attempt to tackle this problem from both methods and datasets aspects. First, we propose a cascade MAR with topology predictor (CMT), the first multimodal framework for CAD generation based on Boundary Representation (B-Rep). Specifically, the cascade MAR can effectively capture the ``edge-counters-surface'' priors that are essential in B-Reps, while the topology predictor directly estimates topology in B-Reps from the compact tokens in MAR. Second, to facilitate large-scale training, we develop a large-scale multimodal CAD dataset, mmABC, which includes over 1.3 million B-Rep models with multimodal annotations, including point clouds, text descriptions, and multi-view images. Extensive experiments show the superior of CMT in both conditional and unconditional CAD generation tasks. For example, we improve Coverage and Valid ratio by +10.68% and +10.3%, respectively, compared to state-of-the-art methods on ABC in unconditional generation. CMT also improves +4.01 Chamfer on image conditioned CAD generation on mmABC. The dataset, code and pretrained network shall be released.
- Abstract(参考訳): CAD (Computer-Aided Design) は産業設計や製造において重要であるが、既存の手法ではマルチモーダルな設計要件をサポートすることができない、過剰に単純化された表現やアーキテクチャのために実現に苦慮している。
本稿では,手法とデータセットの両面からこの問題に対処する。
まず、境界表現(B-Rep)に基づくCAD生成のための最初のマルチモーダルフレームワークであるトポロジ予測器(CMT)を用いたカスケードMARを提案する。
具体的には、カスケードMARは、B-Repsに必須である 'edge-counters-ground' の先行情報を効果的に捕捉でき、トポロジ予測器は、MARのコンパクトトークンからB-Repsのトポロジを直接推定する。
第二に、大規模学習を容易にするために、大規模マルチモーダルCADデータセット、mmABCを開発し、ポイントクラウド、テキスト記述、マルチビュー画像を含む、マルチモーダルアノテーションを備えた13万以上のB-Repモデルを含む。
広汎な実験は、条件付きCAD生成タスクと条件なしCAD生成タスクの両方において、CMTの優位性を示す。
例えば、ABCの非条件生成における最先端手法と比較して、カバーとバリデーションの比率を+10.68%、+10.3%改善する。
CMTはまた、画像条件付きCAD生成における +4.01 Chamfer を mmABC で改善した。
データセット、コード、事前訓練されたネットワークを解放する。
関連論文リスト
- HoLa: B-Rep Generation using a Holistic Latent Representation [51.07878285790399]
我々は、$textitboundary representations$ (B-Reps)という形式でコンピュータ支援設計(CAD)モデルを学習し、生成するための新しい表現を導入する。
我々の表現は、B-Repプリミティブの連続幾何学的性質を異なる順序で統一する。
提案手法は生成したB-Repプリミティブ間のあいまいさ,冗長性,不整合性を著しく低減する。
論文 参考訳(メタデータ) (2025-04-19T10:34:24Z) - Hierarchical and Step-Layer-Wise Tuning of Attention Specialty for Multi-Instance Synthesis in Diffusion Transformers [22.269573676129152]
テキスト・ツー・イメージ(T2I)生成モデルは、しばしばMIS(Multi-instance synthesis)と競合する。
UNetアーキテクチャの従来のMIS制御方法は、DiTベースのモデルに適合しない。
DiTモデルにおけるMIS向上のためのトレーニング不要アプローチを提案する。
論文 参考訳(メタデータ) (2025-04-14T11:59:58Z) - Multimodal Task Representation Memory Bank vs. Catastrophic Forgetting in Anomaly Detection [6.991692485111346]
教師なし連続異常検出(UCAD)はマルチタスク表現学習において大きな課題に直面している。
本稿では,MTRMB(Multimodal Task Representation Memory Bank)方式を提案する。
MVtec AD と VisA データセットの実験では、MTRMB の優位性が示され、平均検出精度は 0.921 である。
論文 参考訳(メタデータ) (2025-02-10T06:49:54Z) - TACO: Learning Multi-modal Action Models with Synthetic Chains-of-Thought-and-Action [103.5952731807559]
複雑・多段階・多モードタスクの性能向上を目的とした多モード大規模アクションモデルであるTACOを提案する。
推論中、TACOはチェーン・オブ・シント・アンド・アクション(CoTA)を生成し、OCR、深さ推定、電卓などの外部ツールを呼び出すことで中間ステップを実行する。
このデータセットにより、TACOは複雑な推論とアクションパスを学習し、直接回答だけでチューニングデータに基づいてトレーニングされた既存のモデルを上回ることができる。
論文 参考訳(メタデータ) (2024-12-07T00:42:04Z) - CAD-MLLM: Unifying Multimodality-Conditioned CAD Generation With MLLM [39.113795259823476]
マルチモーダル入力に条件付きパラメトリックCADモデルを生成可能な最初のシステムであるCAD-MLLMを導入する。
先進的な大規模言語モデル (LLM) を用いて,多様なマルチモーダルデータとCADモデルのベクトル化表現に特徴空間を整合させる。
得られたデータセットはOmni-CADと呼ばれ、CADモデル毎にテキスト記述、多視点画像、ポイント、コマンドシーケンスを含む最初のマルチモーダルCADデータセットである。
論文 参考訳(メタデータ) (2024-11-07T18:31:08Z) - Noise-powered Multi-modal Knowledge Graph Representation Framework [52.95468915728721]
マルチモーダル・プレトレーニングの台頭は、統合されたマルチモーダル知識グラフ表現学習フレームワークの必要性を強調している。
モードレベルのノイズマスキングを備えたトランスフォーマーアーキテクチャを用いた新しいSNAG手法を提案する。
提案手法は10個のデータセットにまたがってSOTA性能を実現し,その汎用性を実証する。
論文 参考訳(メタデータ) (2024-03-11T15:48:43Z) - Towards Cross-Table Masked Pretraining for Web Data Mining [22.952238405240188]
本稿では,CM2と呼ばれる,革新的で汎用的で効率的なクロステーブル事前学習フレームワークを提案する。
実験では,CM2の最先端性能を実証し,クロステーブルプレトレーニングが様々なダウンストリームタスクを向上させることを実証した。
論文 参考訳(メタデータ) (2023-07-10T02:27:38Z) - CoMAE: Single Model Hybrid Pre-training on Small-Scale RGB-D Datasets [50.6643933702394]
本稿では,RGBと深度変調のための単一モデル自己教師型ハイブリッド事前学習フレームワークについて述べる。
我々のCoMAEは、コントラスト学習とマスク画像モデリングという2つの一般的な自己教師付き表現学習アルゴリズムを統合するためのカリキュラム学習戦略を提示している。
論文 参考訳(メタデータ) (2023-02-13T07:09:45Z) - MMTM: Multi-Tasking Multi-Decoder Transformer for Math Word Problems [0.0]
本稿では,事前学習時にマルチタスクとマルチデコーダを利用する新しいモデルMMTMを提案する。
MMTMモデルはより優れた数学的推論能力と一般化可能性を実現する。
我々は,Seq2Seq,GTS,Graph2Treeのアートベースラインモデルの最高の状態を,対向的課題データセットSVAMPに対して19.4%の相対的な改善で証明する。
論文 参考訳(メタデータ) (2022-06-02T19:48:36Z) - Multi-Stage Progressive Image Restoration [167.6852235432918]
本稿では、これらの競合する目標を最適にバランスできる新しい相乗的設計を提案する。
本提案では, 劣化した入力の復元関数を段階的に学習する多段階アーキテクチャを提案する。
MPRNetという名前の密接な相互接続型マルチステージアーキテクチャは、10のデータセットに対して強力なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2021-02-04T18:57:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。