論文の概要: VideoCAD: A Dataset and Model for Learning Long-Horizon 3D CAD UI Interactions from Video
- arxiv url: http://arxiv.org/abs/2505.24838v2
- Date: Sat, 08 Nov 2025 18:27:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 14:55:59.960886
- Title: VideoCAD: A Dataset and Model for Learning Long-Horizon 3D CAD UI Interactions from Video
- Title(参考訳): VideoCAD:ビデオから3次元3次元CADUIインタラクションを学習するためのデータセットとモデル
- Authors: Brandon Man, Ghadi Nehme, Md Ferdous Alam, Faez Ahmed,
- Abstract要約: VideoCADは、CAD操作の41K以上の注釈付きビデオ記録からなる大規模な合成データセットである。
VideoCADは、現実世界のエンジニアリングUIタスクの複雑さを桁違いに増加させ、他のデータセットよりも最大20倍長くする。
- 参考スコア(独自算出の注目度): 3.8998148821602956
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Computer-Aided Design (CAD) is a time-consuming and complex process, requiring precise, long-horizon user interactions with intricate 3D interfaces. While recent advances in AI-driven user interface (UI) agents show promise, most existing datasets and methods focus on short, low-complexity tasks in mobile or web applications, failing to capture the demands of professional engineering tools. In this work, we introduce VideoCAD, the first attempt to model UI interactions for precision engineering tasks. Specifically, VideoCAD is a large-scale synthetic dataset consisting of over 41K annotated video recordings of CAD operations, generated using an automated framework for collecting high-fidelity UI action data from human-made CAD designs. Compared to existing datasets, VideoCAD offers an order-of-magnitude increase in complexity for real-world engineering UI tasks, with time horizons up to 20x longer than those in other datasets. We show two important downstream applications of VideoCAD: (1) learning UI interactions from professional 3D CAD tools for precision tasks and (2) a visual question-answering (VQA) benchmark designed to evaluate multimodal large language models (LLMs) on spatial reasoning and video understanding. To learn the UI interactions, we propose VideoCADFormer, a state-of-the-art model for learning CAD interactions directly from video, which outperforms existing behavior cloning baselines. Both VideoCADFormer and the VQA benchmark derived from VideoCAD reveal key challenges in the current state of video-based UI understanding, including the need for precise action grounding, multi-modal and spatial reasoning, and long-horizon dependencies.
- Abstract(参考訳): CAD(Computer-Aided Design)は、複雑で時間を要する複雑なプロセスであり、複雑な3Dインターフェースと正確な長い水平なユーザーインタラクションを必要とする。
AI駆動型ユーザインターフェース(UI)エージェントの最近の進歩は有望さを示しているが、既存のデータセットやメソッドのほとんどは、モバイルやWebアプリケーションの短時間で低複雑さなタスクに重点を置いており、プロフェッショナルなエンジニアリングツールの要求を捉えていない。
本稿では,精密エンジニアリングタスクのためのUIインタラクションをモデル化する最初の試みであるVideoCADを紹介する。
具体的には、人造CAD設計から高忠実度UIアクションデータを収集する自動フレームワークを用いて、CAD操作の41K以上の注釈付きビデオ記録からなる大規模な合成データセットである。
既存のデータセットと比較すると、VideoCADは現実世界のエンジニアリングUIタスクの複雑さを桁違いに増加させ、他のデータセットよりも最大20倍長くする。
ビデオCADの2つの重要なダウンストリーム応用について述べる。(1)精度向上のためのプロの3DCADツールからのUIインタラクションの学習、(2)空間推論と映像理解における多モーダル大言語モデル(LLM)の評価を目的とした視覚的質問応答(VQA)ベンチマークである。
UIインタラクションを学習するために,ビデオからCADインタラクションを直接学習する最先端モデルであるVideoCADFormerを提案する。
VideoCADFormerとVQAベンチマークの両方が、ビデオベースのUI理解の現状における重要な課題を明らかにしている。
関連論文リスト
- RAG-6DPose: Retrieval-Augmented 6D Pose Estimation via Leveraging CAD as Knowledge Base [112.72361202480154]
本稿では,3次元CADモデルを知識ベースとして活用する検索拡張手法であるRAG-6DPoseを提案する。
標準的なベンチマークと実世界のロボットタスクによる実験結果は、我々のアプローチの有効性と堅牢性を示している。
論文 参考訳(メタデータ) (2025-06-23T17:19:41Z) - CAD-Coder: An Open-Source Vision-Language Model for Computer-Aided Design Code Generation [4.092348452904736]
本稿では、ビジュアル入力から直接編集可能なCADコード(CadQuery Python)を生成するために、明示的に微調整されたオープンソースのVision-Language Model(VLM)であるCAD-Coderを紹介する。
163k以上のCADモデルイメージとコードペアで構成されるGenCAD-Codeは、私たちが作成した新しいデータセットを活用します。
論文 参考訳(メタデータ) (2025-05-20T17:34:44Z) - UniCAD: Efficient and Extendable Architecture for Multi-Task Computer-Aided Diagnosis System [48.83716673786449]
2次元画像と3次元画像の両方をシームレスに扱う統一アーキテクチャUniCADを提案する。
低ランク適応戦略を用いて、トレーニング済みの視覚モデルを医用画像領域に適応させ、完全に調整された視覚モデルと同等の性能を達成する。
この統合CADアーキテクチャに基づいて、研究者が軽量CAD専門家を共有・アクセスできるオープンソースのプラットフォームを構築します。
論文 参考訳(メタデータ) (2025-05-14T06:21:27Z) - CADCrafter: Generating Computer-Aided Design Models from Unconstrained Images [69.7768227804928]
CADCrafterは画像からパラメトリックCADモデル生成フレームワークで、合成テクスチャなしCADデータのみをトレーニングする。
多様な幾何学的特徴を正確に捉えるための幾何エンコーダを導入する。
提案手法は、実際の制約のないCADイメージを頑健に処理でき、また、目に見えない汎用オブジェクトにも一般化できる。
論文 参考訳(メタデータ) (2025-04-07T06:01:35Z) - Img2CAD: Reverse Engineering 3D CAD Models from Images through VLM-Assisted Conditional Factorization [12.12975824816803]
画像からのリバースエンジニアリング3Dコンピュータ支援設計(CAD)モデルは、多くのダウンストリームアプリケーションにとって重要な課題である。
本研究では,タスクを2つのサブプロブレムに条件付き分解する手法を提案する。
本稿では,連続的な属性値を予測する意味を持つ離散構造を条件としたTrAssemblerを提案する。
論文 参考訳(メタデータ) (2024-07-19T06:53:30Z) - OpenECAD: An Efficient Visual Language Model for Editable 3D-CAD Design [1.481550828146527]
OpenECADモデル(0.55B, 0.89B, 2.4B, 3.1B)を作成するための事前学習モデルの微調整を行った。
OpenECADモデルは、入力として3Dデザインの画像を処理することができ、高度に構造化された2Dスケッチと3D構築コマンドを生成する。
これらの出力は、プロジェクトファイルを生成するために既存のCADツールのAPIで直接使用することができる。
論文 参考訳(メタデータ) (2024-06-14T10:47:52Z) - Model2Scene: Learning 3D Scene Representation via Contrastive
Language-CAD Models Pre-training [105.3421541518582]
現在成功している3次元シーン認識法は、大規模アノテートされた点雲に依存している。
CAD(Computer-Aided Design)モデルと言語から自由な3Dシーン表現を学習する新しいパラダイムであるModel2Sceneを提案する。
Model2Sceneは、平均mAPが46.08%、ScanNetとS3DISのデータセットが55.49%という、ラベルなしの優れた3Dオブジェクトのサリエント検出をもたらす。
論文 参考訳(メタデータ) (2023-09-29T03:51:26Z) - CAD-Estate: Large-scale CAD Model Annotation in RGB Videos [34.63782303927944]
本稿では,オブジェクトのグローバルな3D表現を用いて,複雑なマルチオブジェクトシーンのビデオに注釈を付ける手法を提案する。
データベースから各オブジェクトにCADモデルをアノテートし,9-DoFのポーズ変換でシーンの3次元座標フレームに配置する。
本手法は半オートマチックであり,奥行きセンサを必要とせず,一般に利用可能なRGBビデオで動作する。
論文 参考訳(メタデータ) (2023-06-15T10:12:02Z) - Multiview Compressive Coding for 3D Reconstruction [77.95706553743626]
単一オブジェクトの3Dポイントやシーン全体で動作するシンプルなフレームワークを紹介します。
我々のモデルであるMultiview Compressive Codingは、入力の外観と形状を圧縮して3次元構造を予測する。
論文 参考訳(メタデータ) (2023-01-19T18:59:52Z) - AutoCAD: Automatically Generating Counterfactuals for Mitigating
Shortcut Learning [70.70393006697383]
完全自動かつタスクに依存しないCAD生成フレームワークであるAutoCADについて述べる。
本稿では,完全に自動化されたタスクに依存しないCAD生成フレームワークであるAutoCADを提案する。
論文 参考訳(メタデータ) (2022-11-29T13:39:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。