論文の概要: CAD2DMD-SET: Synthetic Generation Tool of Digital Measurement Device CAD Model Datasets for fine-tuning Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2508.21732v1
- Date: Fri, 29 Aug 2025 15:57:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-01 19:45:11.105483
- Title: CAD2DMD-SET: Synthetic Generation Tool of Digital Measurement Device CAD Model Datasets for fine-tuning Large Vision-Language Models
- Title(参考訳): CAD2DMD-SET:細調整大視野モデルのためのCADモデルデータセットのデジタル計測装置の合成生成ツール
- Authors: João Valente, Atabak Dehban, Rodrigo Ventura,
- Abstract要約: CAD2DMD-SETは、デジタル計測デバイス(DMD)を含む視覚的質問応答(VQA)タスクを支援するために設計された合成データ生成ツールである。
本稿では,3次元CADモデル,高度なレンダリング,高忠実度画像合成を活用することで,細調整大型視覚言語モデル(LVLM)に適したVQA標識合成DMDデータセットを作成する。
平均正規化Levenshtein類似度(ANLS)を用いた3つの最先端LVLMのベンチマークとCAD2DMDによるこれらのモデルの微調整-
- 参考スコア(独自算出の注目度): 2.4788097726838667
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in Large Vision-Language Models (LVLMs) have demonstrated impressive capabilities across various multimodal tasks. They continue, however, to struggle with trivial scenarios such as reading values from Digital Measurement Devices (DMDs), particularly in real-world conditions involving clutter, occlusions, extreme viewpoints, and motion blur; common in head-mounted cameras and Augmented Reality (AR) applications. Motivated by these limitations, this work introduces CAD2DMD-SET, a synthetic data generation tool designed to support visual question answering (VQA) tasks involving DMDs. By leveraging 3D CAD models, advanced rendering, and high-fidelity image composition, our tool produces diverse, VQA-labelled synthetic DMD datasets suitable for fine-tuning LVLMs. Additionally, we present DMDBench, a curated validation set of 1,000 annotated real-world images designed to evaluate model performance under practical constraints. Benchmarking three state-of-the-art LVLMs using Average Normalised Levenshtein Similarity (ANLS) and further fine-tuning LoRA's of these models with CAD2DMD-SET's generated dataset yielded substantial improvements, with InternVL showcasing a score increase of 200% without degrading on other tasks. This demonstrates that the CAD2DMD-SET training dataset substantially improves the robustness and performance of LVLMs when operating under the previously stated challenging conditions. The CAD2DMD-SET tool is expected to be released as open-source once the final version of this manuscript is prepared, allowing the community to add different measurement devices and generate their own datasets.
- Abstract(参考訳): LVLM(Large Vision-Language Models)の最近の進歩は、様々なマルチモーダルタスクにまたがる印象的な機能を示している。
しかし、デジタル計測装置(DMD)から値を読み取るなど、特に乱雑な状況、オクルージョン、極端な視点、動きのぼやけといった現実の状況では、ヘッドマウントカメラや拡張現実(AR)アプリケーションでよく見られるような、簡単なシナリオに苦戦し続けている。
CAD2DMD-SET(CAD2DMD-SET)は、DMDを含む視覚的質問応答(VQA)タスクをサポートするために設計された合成データ生成ツールである。
3次元CADモデル、高度なレンダリング、高忠実度画像合成を活用することで、細調整LVLMに適したVQAラベル付き合成DMDデータセットを作成できる。
さらに,実際の制約下でのモデル性能を評価するために,1000個のアノテートされた実世界の画像のキュレートされた検証セットであるMDDBenchを提案する。
Average Normalized Levenshtein similarity (ANLS) を用いた最先端の3つのLVLMのベンチマークとCAD2DMD-SETの生成したデータセットによるこれらのモデルの微調整により大幅に改善され、InternVLは他のタスクを分解することなく200%のスコアアップを示した。
これにより、CAD2DMD-SETトレーニングデータセットは、前述した課題条件下での動作において、LVLMの堅牢性と性能を大幅に向上することを示す。
CAD2DMD-SETツールは、この原稿の最終バージョンが準備されたらオープンソースとしてリリースされ、コミュニティは異なる測定装置を追加し、独自のデータセットを生成することができる。
関連論文リスト
- Follow-Your-Instruction: A Comprehensive MLLM Agent for World Data Synthesis [44.66179436245703]
Follow-Your-Instructionは、高品質な2D、3D、4Dデータを自動合成するフレームワークである。
3Dレイアウトを構築し、セマンティックリファインメントのためにビジョン・ランゲージ・モデル(VLM)を利用する。
本研究では,2D,3D,4D生成タスクに関する総合的な実験を通じて,生成データの品質を評価する。
論文 参考訳(メタデータ) (2025-08-07T17:12:54Z) - EmbodiedMAE: A Unified 3D Multi-Modal Representation for Robot Manipulation [44.08442553098017]
EmbodiedMAEはロボット操作のための統一された3D表現である。
EmbodiedMAEは、最先端のビジョン基盤モデルより一貫して優れている。
論文 参考訳(メタデータ) (2025-05-15T09:12:17Z) - HiRes-FusedMIM: A High-Resolution RGB-DSM Pre-trained Model for Building-Level Remote Sensing Applications [2.048226951354646]
HiRes-FusedMIMは、高解像度のRGBおよびDSMデータに含まれる豊富な情報を活用するために特別に設計された、新しい事前訓練モデルである。
分類,セマンティックセグメンテーション,インスタンスセグメンテーションなど,さまざまな下流タスクに対して,HiRes-FusedMIMの総合評価を行った。
論文 参考訳(メタデータ) (2025-03-24T10:49:55Z) - 3D-MoE: A Mixture-of-Experts Multi-modal LLM for 3D Vision and Pose Diffusion via Rectified Flow [69.94527569577295]
3次元の視覚と空間的推論は、長い間、我々の3次元の世界を正確に知覚するのに好ましいと認識されてきた。
高品質な3Dデータ収集の難しさから,近年,この領域の研究が勢いを増している。
我々は,既存の高密度活性化LDMをマルチモーダルデータ処理に有効であることが証明されたMix-of-experts(MoE)モデルに変換することを提案する。
論文 参考訳(メタデータ) (2025-01-28T04:31:19Z) - LargeAD: Large-Scale Cross-Sensor Data Pretraining for Autonomous Driving [52.83707400688378]
LargeADは多用途でスケーラブルなフレームワークで、さまざまな現実世界の運転データセットにわたる大規模3D事前トレーニング用に設計されている。
我々のフレームワークは、VFMを利用して2次元画像から意味的にリッチなスーパーピクセルを抽出し、LiDAR点雲に整列して高品質なコントラストサンプルを生成する。
提案手法は,LDARに基づくセグメント化とオブジェクト検出の両面において,線形探索と微調整の両作業において,最先端の手法よりも大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2025-01-07T18:59:59Z) - Zero-shot detection of buildings in mobile LiDAR using Language Vision Model [0.8192907805418583]
言語ビジョンモデル(LVM)は、2次元(2次元)コンピュータビジョンタスクにおいて、既存のステート・オブ・ザ・アート(SOTA)を上回っている。
3Dデータを表す代表的なフォーマットであるポイントクラウドに関して、LVMは重大な課題に直面している。
本研究の目的は,1)球面投影による接地SAMを3次元から2次元への移動に適用し,2)合成データを用いてその有効性を評価することである。
論文 参考訳(メタデータ) (2024-04-15T16:56:58Z) - An Embodied Generalist Agent in 3D World [67.16935110789528]
本稿では,3次元世界における知覚,接地,推論,計画,行動に優れた多モードジェネリストエージェントLEOを紹介する。
我々は,多種多様なオブジェクトレベルおよびシーンレベルのタスクからなる大規模データセットを収集する。
3Dキャプション,質問応答,具体的推論,ナビゲーション,操作など,多岐にわたるLEOの卓越した習熟度を実証した。
論文 参考訳(メタデータ) (2023-11-18T01:21:38Z) - LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset,
Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。
我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。
本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文 参考訳(メタデータ) (2023-06-11T14:01:17Z) - DMD: A Large-Scale Multi-Modal Driver Monitoring Dataset for Attention
and Alertness Analysis [54.198237164152786]
視覚は運転監視システム(DMS)の最も豊かで費用対効果の高い技術である
十分に大規模で包括的なデータセットの欠如は、DMS開発の進展のボトルネックとなっている。
本稿では,実運転シナリオとシミュレーション運転シナリオを含む広範囲なデータセットであるドライバモニタリングデータセット(DMD)を紹介する。
論文 参考訳(メタデータ) (2020-08-27T12:33:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。