論文の概要: VideoCAD: A Large-Scale Video Dataset for Learning UI Interactions and 3D Reasoning from CAD Software
- arxiv url: http://arxiv.org/abs/2505.24838v1
- Date: Fri, 30 May 2025 17:39:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:53.104008
- Title: VideoCAD: A Large-Scale Video Dataset for Learning UI Interactions and 3D Reasoning from CAD Software
- Title(参考訳): VideoCAD:CADソフトウェアからUIインタラクションと3D推論を学習するための大規模ビデオデータセット
- Authors: Brandon Man, Ghadi Nehme, Md Ferdous Alam, Faez Ahmed,
- Abstract要約: VideoCADは、CAD操作の41K以上の注釈付きビデオ記録からなる大規模な合成データセットである。
VideoCADは、現実世界のエンジニアリングタスクのためのUIインタラクション学習において、桁違いに複雑なものを提供する。
プロの3D CADツールからのUIインタラクションの学習と,視覚的質問応答ベンチマークの2つの重要なダウンストリームアプリケーションについて述べる。
- 参考スコア(独自算出の注目度): 3.668843811005568
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Computer-Aided Design (CAD) is a time-consuming and complex process, requiring precise, long-horizon user interactions with intricate 3D interfaces. While recent advances in AI-driven user interface (UI) agents show promise, most existing datasets and methods focus on short, low-complexity tasks in mobile or web applications, failing to capture the demands of professional engineering tools. In this work, we introduce VideoCAD, the first attempt at engineering UI interaction learning for precision tasks. Specifically, VideoCAD is a large-scale synthetic dataset consisting of over 41K annotated video recordings of CAD operations, generated using an automated framework for collecting high-fidelity UI action data from human-made CAD designs. Compared to existing datasets, VideoCAD offers an order of magnitude higher complexity in UI interaction learning for real-world engineering tasks, having up to a 20x longer time horizon than other datasets. We show two important downstream applications of VideoCAD: learning UI interactions from professional precision 3D CAD tools and a visual question-answering (VQA) benchmark designed to evaluate multimodal large language models' (LLM) spatial reasoning and video understanding abilities. To learn the UI interactions, we propose VideoCADFormer - a state-of-the-art model in learning CAD interactions directly from video, which outperforms multiple behavior cloning baselines. Both VideoCADFormer and the VQA benchmark derived from VideoCAD reveal key challenges in the current state of video-based UI understanding, including the need for precise action grounding, multi-modal and spatial reasoning, and long-horizon dependencies.
- Abstract(参考訳): CAD(Computer-Aided Design)は、複雑で時間を要する複雑なプロセスであり、複雑な3Dインターフェースと正確な長い水平なユーザーインタラクションを必要とする。
AI駆動型ユーザインターフェース(UI)エージェントの最近の進歩は有望さを示しているが、既存のデータセットやメソッドのほとんどは、モバイルやWebアプリケーションの短時間で低複雑さなタスクに重点を置いており、プロフェッショナルなエンジニアリングツールの要求を捉えていない。
そこで本研究では,精密タスクのためのUIインタラクション学習の工学的試みであるVideoCADを紹介する。
具体的には、人造CAD設計から高忠実度UIアクションデータを収集する自動フレームワークを用いて、CAD操作の41K以上の注釈付きビデオ記録からなる大規模な合成データセットである。
既存のデータセットと比較して、VideoCADは、実際のエンジニアリングタスクにおけるUIインタラクション学習の桁違いの複雑さを提供し、他のデータセットよりも最大20倍の時間的地平線を持つ。
プロの3D CADツールからのUIインタラクションの学習と,マルチモーダルな大規模言語モデル(LLM)の空間的推論と映像理解能力を評価するために設計された視覚的質問応答(VQA)ベンチマークである。
UIインタラクションを学習するために,ビデオからCADインタラクションを直接学習する最先端モデルであるVideoCADFormerを提案する。
VideoCADFormerとVQAベンチマークの両方が、ビデオベースのUI理解の現状における重要な課題を明らかにしている。
関連論文リスト
- UniCAD: Efficient and Extendable Architecture for Multi-Task Computer-Aided Diagnosis System [48.83716673786449]
2次元画像と3次元画像の両方をシームレスに扱う統一アーキテクチャUniCADを提案する。
低ランク適応戦略を用いて、トレーニング済みの視覚モデルを医用画像領域に適応させ、完全に調整された視覚モデルと同等の性能を達成する。
この統合CADアーキテクチャに基づいて、研究者が軽量CAD専門家を共有・アクセスできるオープンソースのプラットフォームを構築します。
論文 参考訳(メタデータ) (2025-05-14T06:21:27Z) - CADCrafter: Generating Computer-Aided Design Models from Unconstrained Images [69.7768227804928]
CADCrafterは画像からパラメトリックCADモデル生成フレームワークで、合成テクスチャなしCADデータのみをトレーニングする。
多様な幾何学的特徴を正確に捉えるための幾何エンコーダを導入する。
提案手法は、実際の制約のないCADイメージを頑健に処理でき、また、目に見えない汎用オブジェクトにも一般化できる。
論文 参考訳(メタデータ) (2025-04-07T06:01:35Z) - Img2CAD: Reverse Engineering 3D CAD Models from Images through VLM-Assisted Conditional Factorization [12.12975824816803]
画像からのリバースエンジニアリング3Dコンピュータ支援設計(CAD)モデルは、多くのダウンストリームアプリケーションにとって重要な課題である。
本研究では,タスクを2つのサブプロブレムに条件付き分解する手法を提案する。
本稿では,連続的な属性値を予測する意味を持つ離散構造を条件としたTrAssemblerを提案する。
論文 参考訳(メタデータ) (2024-07-19T06:53:30Z) - OpenECAD: An Efficient Visual Language Model for Editable 3D-CAD Design [1.481550828146527]
OpenECADモデル(0.55B, 0.89B, 2.4B, 3.1B)を作成するための事前学習モデルの微調整を行った。
OpenECADモデルは、入力として3Dデザインの画像を処理することができ、高度に構造化された2Dスケッチと3D構築コマンドを生成する。
これらの出力は、プロジェクトファイルを生成するために既存のCADツールのAPIで直接使用することができる。
論文 参考訳(メタデータ) (2024-06-14T10:47:52Z) - CAD-Estate: Large-scale CAD Model Annotation in RGB Videos [34.63782303927944]
本稿では,オブジェクトのグローバルな3D表現を用いて,複雑なマルチオブジェクトシーンのビデオに注釈を付ける手法を提案する。
データベースから各オブジェクトにCADモデルをアノテートし,9-DoFのポーズ変換でシーンの3次元座標フレームに配置する。
本手法は半オートマチックであり,奥行きセンサを必要とせず,一般に利用可能なRGBビデオで動作する。
論文 参考訳(メタデータ) (2023-06-15T10:12:02Z) - Multiview Compressive Coding for 3D Reconstruction [77.95706553743626]
単一オブジェクトの3Dポイントやシーン全体で動作するシンプルなフレームワークを紹介します。
我々のモデルであるMultiview Compressive Codingは、入力の外観と形状を圧縮して3次元構造を予測する。
論文 参考訳(メタデータ) (2023-01-19T18:59:52Z) - AutoCAD: Automatically Generating Counterfactuals for Mitigating
Shortcut Learning [70.70393006697383]
完全自動かつタスクに依存しないCAD生成フレームワークであるAutoCADについて述べる。
本稿では,完全に自動化されたタスクに依存しないCAD生成フレームワークであるAutoCADを提案する。
論文 参考訳(メタデータ) (2022-11-29T13:39:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。