論文の概要: Clarify Before You Draw: Proactive Agents for Robust Text-to-CAD Generation
- arxiv url: http://arxiv.org/abs/2602.03045v1
- Date: Tue, 03 Feb 2026 03:10:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.215911
- Title: Clarify Before You Draw: Proactive Agents for Robust Text-to-CAD Generation
- Title(参考訳): 絵を描く前に明確にする:ロバストなテキストからCAD生成のためのプロアクティブエージェント
- Authors: Bo Yuan, Zelin Zhao, Petr Molodyk, Bin Hu, Yongxin Chen,
- Abstract要約: 本稿では,コード合成に先立って仕様問題を解消するテキスト・ツー・カドクエリ生成のためのプロアクティブ・エージェント・フレームワークProCADを提案する。
本フレームワークは,自己整合性仕様を作成するために必要な場合にのみ,プロンプトを監査し,対象の明確化を問うプロアクティブ・クリアリング・エージェントと組み合わせる。
ProCADはクロード・ソネット4.5を含むフロンティアのクローズソースモデルより優れており、平均チャムファー距離は79.9%、無効率は4.8%から0.9%に低下している。
- 参考スコア(独自算出の注目度): 26.19982312125279
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models have recently enabled text-to-CAD systems that synthesize parametric CAD programs (e.g., CadQuery) from natural language prompts. In practice, however, geometric descriptions can be under-specified or internally inconsistent: critical dimensions may be missing and constraints may conflict. Existing fine-tuned models tend to reactively follow user instructions and hallucinate dimensions when the text is ambiguous. To address this, we propose a proactive agentic framework for text-to-CadQuery generation, named ProCAD, that resolves specification issues before code synthesis. Our framework pairs a proactive clarifying agent, which audits the prompt and asks targeted clarification questions only when necessary to produce a self-consistent specification, with a CAD coding agent that translates the specification into an executable CadQuery program. We fine-tune the coding agent on a curated high-quality text-to-CadQuery dataset and train the clarifying agent via agentic SFT on clarification trajectories. Experiments show that proactive clarification significantly improves robustness to ambiguous prompts while keeping interaction overhead low. ProCAD outperforms frontier closed-source models, including Claude Sonnet 4.5, reducing the mean Chamfer distance by 79.9 percent and lowering the invalidity ratio from 4.8 percent to 0.9 percent. Our code and datasets will be made publicly available.
- Abstract(参考訳): 大規模言語モデルは、最近、自然言語プロンプトからパラメトリックCADプログラム(例えばCadQuery)を合成するテキストからCADシステムを有効にした。
しかし実際には、幾何学的記述は不明確あるいは内部的に矛盾し得る:臨界次元が欠落し、制約が矛盾する可能性がある。
既存の微調整モデルは、テキストが曖昧である場合、ユーザーの指示に反応し、幻覚を与える傾向がある。
そこで本研究では,ProCADというテキスト・ツー・カドクエリ生成のためのプロアクティブ・エージェント・フレームワークを提案する。
本フレームワークは,自己整合性仕様を作成するために必要な場合にのみ,プロンプトを監査し,対象の明確化を問うプロアクティブ・クリアリングエージェントと,その仕様を実行可能なCadQueryプログラムに変換するCADコーディングエージェントとをペアリングする。
高品質なテキスト・ツー・カドクエリ・データセット上の符号化エージェントを微調整し、明確化トラジェクトリ上でエージェントSFTを介して明確化エージェントを訓練する。
実験により、前向きな明確化は、相互作用のオーバーヘッドを低く保ちながら、あいまいなプロンプトに対する堅牢性を著しく改善することが示された。
ProCADはクロード・ソネット4.5を含むフロンティアのクローズソースモデルより優れており、平均チャムファー距離は79.9%、無効率は4.8%から0.9%に低下している。
コードとデータセットは公開されます。
関連論文リスト
- SWE-Pruner: Self-Adaptive Context Pruning for Coding Agents [32.69890220986935]
我々は,コーディングエージェントのための自己適応型コンテキストプルーニングフレームワークであるSWE-Prunerを提案する。
SWE-Prunerは、長いコンテキストに対してタスク対応の適応型プルーニングを実行する。
SWE-Bench Verifiedのようなエージェントタスクで23~54%のトークン削減を実現し、LongCodeQAのようなシングルターンタスクで最大14.84倍の圧縮を実現している。
論文 参考訳(メタデータ) (2026-01-23T13:51:59Z) - Programming over Thinking: Efficient and Robust Multi-Constraint Planning [54.77940831026738]
SCOPEは、クエリ固有の推論をジェネリックコード実行から切り離すフレームワークである。
SCOPEは、コストとレイテンシを下げながら最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-01-14T02:58:07Z) - One Battle After Another: Probing LLMs' Limits on Multi-Turn Instruction Following with a Benchmark Evolving Framework [51.50565654314582]
大規模言語モデルは、複数のトピックにまたがる対話を通して、ユーザの指示に従うことができる。
既存のベンチマークは、しばしば一定回数のターンに制限されるため、飽和の影響を受けにくく、ユーザのインタラクティブなエクスペリエンスを考慮できない。
マルチターン命令追従能力を評価するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-05T14:39:59Z) - Structured Cognitive Loop for Behavioral Intelligence in Large Language Model Agents [0.0]
既存のフレームワークは認知、記憶、制御をひとつのプロンプトで混ぜることが多く、一貫性と予測可能性を減らす。
構造化認知ループ (Structured Cognitive Loop, SCL) は、これらの機能を分離する代替アーキテクチャとして提案されている。
SCLの平均タスク成功率は86.3%であり、ベースラインは70.5から76.8%である。
論文 参考訳(メタデータ) (2025-09-23T17:43:17Z) - Long-Form Information Alignment Evaluation Beyond Atomic Facts [60.25969380388974]
明示的な幻覚を導入することなく、真理のステートメントを"モンテージ"することで、偽りの物語を構築するベンチマークであるMontageLieを紹介します。
本稿では,事実の正確性とイベント順序の整合性を共同で検証する新しいフレームワークであるDoveScoreを提案する。
論文 参考訳(メタデータ) (2025-05-21T17:46:38Z) - Text-to-CadQuery: A New Paradigm for CAD Generation with Scalable Large Model Capabilities [4.093726588615417]
CAD (Computer-Aided Design) は現代の工学と製造の基礎であるが、CADモデルの作成には専門家の知識と専門的なソフトウェアが必要である。
大規模言語モデル(LLM)の最近の進歩は、自然言語を直接パラメトリック3Dモデルに変換する生成CADの可能性を開く。
テキストから直接CadQueryコードを生成し、事前学習したLLMの強みを活用して中間表現なしで3Dモデルを生成する。
論文 参考訳(メタデータ) (2025-05-10T04:47:08Z) - SVTRv2: CTC Beats Encoder-Decoder Models in Scene Text Recognition [77.28814034644287]
テキストの不規則性や言語コンテキストのモデル化が可能なCTCモデルであるSVTRv2を提案する。
我々は,SVTRv2を標準ベンチマークと最近のベンチマークの両方で広範囲に評価した。
SVTRv2は精度と推論速度の点でほとんどのEDTRを超越している。
論文 参考訳(メタデータ) (2024-11-24T14:21:35Z) - Text2CAD: Generating Sequential CAD Models from Beginner-to-Expert Level Text Prompts [12.63158811936688]
テキストからパラメトリックCADモデルを生成するための最初のAIフレームワークであるText2CADを提案する。
提案するフレームワークは,AI支援設計アプリケーションにおいて大きな可能性を秘めている。
論文 参考訳(メタデータ) (2024-09-25T17:19:33Z) - CELA: Cost-Efficient Language Model Alignment for CTR Prediction [70.65910069412944]
CTR(Click-Through Rate)予測は、レコメンダシステムにおいて最重要位置を占める。
最近の取り組みは、プレトレーニング言語モデル(PLM)を統合することでこれらの課題を緩和しようとしている。
CTR予測のためのtextbfCost-textbfEfficient textbfLanguage Model textbfAlignment (textbfCELA)を提案する。
論文 参考訳(メタデータ) (2024-05-17T07:43:25Z) - Python Code Generation by Asking Clarification Questions [57.63906360576212]
本稿では,この課題に対して,より斬新で現実的なセットアップを導入する。
我々は、自然言語記述の過小評価は、明確化を問うことで解決できると仮定する。
我々は、生成した合成明確化質問と回答を含む自然言語記述とコードのペアを含む、CodeClarQAという新しいデータセットを収集し、導入する。
論文 参考訳(メタデータ) (2022-12-19T22:08:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。