論文の概要: Learning Hierarchical and Geometry-Aware Graph Representations for Text-to-CAD
- arxiv url: http://arxiv.org/abs/2604.10075v1
- Date: Sat, 11 Apr 2026 07:49:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:15.826117
- Title: Learning Hierarchical and Geometry-Aware Graph Representations for Text-to-CAD
- Title(参考訳): テキスト・トゥ・CADのための階層的・幾何学的グラフ表現の学習
- Authors: Shengjie Gong, Wenjie Peng, Hongyuan Chen, Gangyu Zhang, Yunqing Hu, Huiyuan Zhang, Shuangping Huang, Tianshui Chen,
- Abstract要約: 中間表現として階層的および幾何学的認識グラフを提案する。
テキストを直接コードにマッピングする代わりに、私たちのフレームワークはまず構造と制約を予測し、次にアクションシーケンシングとコード生成を条件にします。
提案手法は, 幾何的忠実度と幾何的制約の正確な満足度の両方において, 既存の手法より一貫して優れる。
- 参考スコア(独自算出の注目度): 22.163726324892256
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-CAD code generation is a long-horizon task that translates textual instructions into long sequences of interdependent operations. Existing methods typically decode text directly into executable code (e.g., bpy) without explicitly modeling assembly hierarchy or geometric constraints, which enlarges the search space, accumulates local errors, and often causes cascading failures in complex assemblies. To address this issue, we propose a hierarchical and geometry-aware graph as an intermediate representation. The graph models multi-level parts and components as nodes and encodes explicit geometric constraints as edges. Instead of mapping text directly to code, our framework first predicts structure and constraints, then conditions action sequencing and code generation, thereby improving geometric fidelity and constraint satisfaction. We further introduce a structure-aware progressive curriculum learning strategy that constructs graded tasks through controlled structural edits, explores the model's capability boundary, and synthesizes boundary examples for iterative training. In addition, we build a 12K dataset with instructions, decomposition graphs, action sequences, and bpy code, together with graph- and constraint-oriented evaluation metrics. Extensive experiments show that our method consistently outperforms existing approaches in both geometric fidelity and accurate satisfaction of geometric constraints.
- Abstract(参考訳): Text-to-CADコード生成は、テキスト命令を相互依存操作の長いシーケンスに変換する長い水平タスクである。
既存のメソッドは通常、アセンブリ階層や幾何学的制約を明示的にモデル化することなく、テキストを直接実行可能なコード(例:bpy)にデコードする。
この問題に対処するために、中間表現として階層的および幾何学的認識グラフを提案する。
グラフはノードとしてマルチレベルの部分とコンポーネントをモデル化し、エッジとして明示的な幾何学的制約をエンコードする。
テキストを直接コードにマッピングするのではなく、まず構造と制約を予測し、次にアクションシーケンシングとコード生成の条件を設定し、幾何学的忠実度と制約満足度を改善する。
さらに、制御された構造的編集によって段階的タスクを構成する構造対応の漸進的カリキュラム学習戦略を導入し、モデルの能力境界を探索し、反復学習のための境界例を合成する。
さらに、命令、分解グラフ、アクションシーケンス、bpyコードを含む12Kデータセットと、グラフおよび制約指向評価メトリクスを構築した。
拡張実験により,我々の手法は幾何的不確かさと幾何的制約の正確な満足度の両方において,既存の手法よりも一貫して優れていることが示された。
関連論文リスト
- Pointer-CAD: Unifying B-Rep and Command Sequences via Pointer-based Edges & Faces Selection [36.418031479264585]
大規模言語モデル(LLM)は、CADをコマンドシーケンスとして表現することでLLMベースのCAD生成にインスピレーションを与えている。
本稿では,B-repモデルの幾何学的情報を逐次モデリングに組み込んだ新しいLCMベースのCAD生成フレームワークであるPointer-CADを提案する。
実験により、Pointer-CADは複雑な幾何学構造の生成を効果的に支援し、セグメント化誤差を極端に低いレベルまで低減することを示した。
論文 参考訳(メタデータ) (2026-03-04T17:55:01Z) - Synthesizing Multimodal Geometry Datasets from Scratch and Enabling Visual Alignment via Plotting Code [27.26235987246201]
マルチモーダル幾何推論は、視覚図を共同で理解し、構造化されたシンボル推論を実行するモデルを必要とする。
我々は,スクラッチから複雑なマルチモーダル幾何問題に対するパイプラインを提案し,問題生成をシンボリックシード構造に分離するtextbfGeoCode というデータセットを構築した。
さらに、コード予測を明示的なアライメント目標として導入し、視覚的理解を教師付き構造化予測タスクに変換する。
論文 参考訳(メタデータ) (2026-02-21T07:53:48Z) - TangramPuzzle: Evaluating Multimodal Large Language Models with Compositional Spatial Reasoning [104.66714520975837]
古典的タングラムゲームのレンズを通して構成空間推論を評価するために,幾何グラウンドのベンチマークを導入する。
本稿では,タングラム集合を正確に機械で検証可能な座標仕様でグルーピングする記号幾何学的枠組みであるタングラム構成式(TCE)を提案する。
MLLMは、幾何学的制約を無視しながら、ターゲットのシルエットとのマッチングを優先する傾向がある。
論文 参考訳(メタデータ) (2026-01-23T07:35:05Z) - HyperAlign: Hyperbolic Entailment Cones for Adaptive Text-to-Image Alignment Assessment [84.65251073657883]
双曲的エンターメント幾何に基づく適応型テキスト・画像アライメントアライメントアセスメントフレームワークHyperAlignを提案する。
まず、CLIPを用いてユークリッド特徴を抽出し、双曲空間にマッピングする。
第二に、離散エンターメント論理を連続的な幾何学的構造管理に変換する動的スーパービジョンエンターメントモデリング機構を設計する。
第3に,双曲幾何学的特徴を利用してサンプルレベルの変調パラメータを生成する適応変調回帰器を提案する。
論文 参考訳(メタデータ) (2026-01-08T05:41:06Z) - GraphShaper: Geometry-aware Alignment for Improving Transfer Learning in Text-Attributed Graphs [16.624063216788638]
マルチジオメトリ・スペシャライゼーションによるグラフエンコーディングを強化した幾何認識フレームワークである textbfGraphShaper を紹介する。
我々のアプローチでは、異なる幾何学的空間に合わせた専門家ネットワークを使用し、動的に融合重みを計算し、幾何学的特性を適応的に統合する。
引用ネットワークでは9.47%、ゼロショット設定では7.63%の精度向上を実現している。
論文 参考訳(メタデータ) (2025-10-14T02:48:50Z) - Point or Line? Using Line-based Representation for Panoptic Symbol Spotting in CAD Drawings [67.5600169375126]
ベクトルグラフィカルプリミティブからなるCAD図面におけるパノプティカルシンボルスポッティングの課題について検討する。
既存の手法は通常、画像化、グラフ構築、あるいは点ベースの表現に依存している。
本稿では,プリミティブの行ベースの表現を通じてこれらの課題に対処する新しい手法であるVecFormerを提案する。
論文 参考訳(メタデータ) (2025-05-29T12:33:11Z) - Fully Geometric Multi-Hop Reasoning on Knowledge Graphs with Transitive Relations [50.05281461410368]
マルチホップ推論のための幾何学的埋め込み手法GeometrEを紹介する。
論理演算を学習する必要はなく、完全に幾何学的解釈可能である。
実験の結果,GeometrEは標準ベンチマークデータセットの最先端手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2025-05-18T11:17:50Z) - GSDiff: Synthesizing Vector Floorplans via Geometry-enhanced Structural Graph Generation [3.78198085695976]
建築のフロアプラン設計は住宅やインテリアの設計に不可欠であり、建築家による手作業によるスケッチのより高速で費用対効果の高い代替手段を提供する。
ルールベースおよび学習ベースのアプローチを含む既存の手法は、広範な後処理を伴う設計と制約付き生成の課題に直面している。
本稿では,GSDiffと呼ばれる構造グラフ生成によるベクトル設計のための新しい生成フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-29T04:40:31Z) - Exploring Data Geometry for Continual Learning [64.4358878435983]
非定常データストリームのデータ幾何を探索することにより,新しい視点から連続学習を研究する。
提案手法は,新しいデータによって引き起こされる幾何構造に対応するために,基底空間の幾何学を動的に拡張する。
実験により,本手法はユークリッド空間で設計したベースライン法よりも優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2023-04-08T06:35:25Z) - DSG-Net: Learning Disentangled Structure and Geometry for 3D Shape
Generation [98.96086261213578]
DSG-Netは3次元形状の非交叉構造と幾何学的メッシュ表現を学習するディープニューラルネットワークである。
これは、幾何(構造)を不変に保ちながら構造(幾何学)のような不整合制御を持つ新しい形状生成アプリケーションの範囲をサポートする。
本手法は,制御可能な生成アプリケーションだけでなく,高品質な合成形状を生成できる。
論文 参考訳(メタデータ) (2020-08-12T17:06:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。