論文の概要: Leveraging Vision-Language Models for Manufacturing Feature Recognition in CAD Designs
- arxiv url: http://arxiv.org/abs/2411.02810v1
- Date: Tue, 05 Nov 2024 04:57:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-09 19:50:52.644726
- Title: Leveraging Vision-Language Models for Manufacturing Feature Recognition in CAD Designs
- Title(参考訳): CAD設計における特徴認識のための視覚言語モデルの活用
- Authors: Muhammad Tayyab Khan, Lequn Chen, Ye Han Ng, Wenhe Feng, Nicholas Yew Jin Tan, Seung Ki Moon,
- Abstract要約: 本研究では、CAD設計における幅広い製造特徴の認識を自動化する視覚言語モデル(VLM)について検討する。
認識を可能にするために、マルチビュークエリイメージ、少数ショット学習、シーケンシャル推論、チェーン・オブ・プリートといったプロンプトエンジニアリング技術が適用される。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Automatic feature recognition (AFR) is essential for transforming design knowledge into actionable manufacturing information. Traditional AFR methods, which rely on predefined geometric rules and large datasets, are often time-consuming and lack generalizability across various manufacturing features. To address these challenges, this study investigates vision-language models (VLMs) for automating the recognition of a wide range of manufacturing features in CAD designs without the need for extensive training datasets or predefined rules. Instead, prompt engineering techniques, such as multi-view query images, few-shot learning, sequential reasoning, and chain-of-thought, are applied to enable recognition. The approach is evaluated on a newly developed CAD dataset containing designs of varying complexity relevant to machining, additive manufacturing, sheet metal forming, molding, and casting. Five VLMs, including three closed-source models (GPT-4o, Claude-3.5-Sonnet, and Claude-3.0-Opus) and two open-source models (LLava and MiniCPM), are evaluated on this dataset with ground truth features labelled by experts. Key metrics include feature quantity accuracy, feature name matching accuracy, hallucination rate, and mean absolute error (MAE). Results show that Claude-3.5-Sonnet achieves the highest feature quantity accuracy (74%) and name-matching accuracy (75%) with the lowest MAE (3.2), while GPT-4o records the lowest hallucination rate (8%). In contrast, open-source models have higher hallucination rates (>30%) and lower accuracies (<40%). This study demonstrates the potential of VLMs to automate feature recognition in CAD designs within diverse manufacturing scenarios.
- Abstract(参考訳): 自動特徴認識(AFR)は、設計知識を実用的な製造情報に変換するために不可欠である。
従来のAFR法は、事前に定義された幾何学的規則や大きなデータセットに依存しており、しばしば時間を要するため、様々な製造機能にまたがる一般化性に欠ける。
これらの課題に対処するために,CAD設計における幅広い製造特徴の認識を自動化する視覚言語モデル(VLM)について,広範囲なトレーニングデータセットや事前定義されたルールを必要とせずに検討した。
代わりに、マルチビュークエリ画像、少数ショット学習、シーケンシャル推論、チェーン・オブ・プリートなどのプロンプトエンジニアリング技術が適用され、認識が可能となる。
本手法は, 加工, 添加物製造, 板金成形, 成形, 鋳造に関わる様々な複雑さの設計を含むCADデータセットを用いて評価した。
3つのクローズドソースモデル(GPT-4o、Claude-3.5-Sonnet、Claude-3.0-Opus)と2つのオープンソースモデル(LLavaとMiniCPM)を含む5つのVLMを、専門家によってラベル付けされた地上真実の特徴で評価した。
主な指標は、特徴量精度、特徴名マッチング精度、幻覚率、平均絶対誤差(MAE)である。
その結果、Claude-3.5-Sonnet は最も高い特徴量精度 (74%) と名前マッチング精度 (75%) を最も低いMAE (3.2) で達成し、GPT-4o は最も低い幻覚率 (8%) を記録した。
対照的に、オープンソースモデルは高い幻覚率 (>30%) と低い精度 ((<40%) を持つ。
本研究は,多種多様な製造シナリオにおけるCAD設計における特徴認識の自動化の可能性を示す。
関連論文リスト
- How Certain are Uncertainty Estimates? Three Novel Earth Observation Datasets for Benchmarking Uncertainty Quantification in Machine Learning [15.306338199978269]
不確実性定量化(UQ)は、地球観測(EO)製品の信頼性を評価するために不可欠である。
機械学習モデルには様々なUQ方法が存在するが、EOデータセットのパフォーマンスはほとんど評価されていない。
この記事では、EO機械学習モデルでUQ用に特別に設計された3つのベンチマークデータセットを紹介する。
論文 参考訳(メタデータ) (2024-12-09T12:50:27Z) - MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale [66.73529246309033]
MLLM(Multimodal large language model)は、多モーダルタスクにおいて大きな可能性を秘めている。
既存の命令チューニングデータセットは、中間的合理性のないフレーズレベルの答えのみを提供する。
そこで本研究では,大規模マルチモーダル・インストラクション・チューニング・データセットを構築するためのスケーラブルで費用対効果の高い手法を提案する。
論文 参考訳(メタデータ) (2024-12-06T18:14:24Z) - Automatic Evaluation for Text-to-image Generation: Task-decomposed Framework, Distilled Training, and Meta-evaluation Benchmark [62.58869921806019]
GPT-4oに基づくタスク分解評価フレームワークを提案し、新しいトレーニングデータセットを自動構築する。
我々は、GPT-4oの評価能力を7BオープンソースMLLM、MiniCPM-V-2.6に効果的に蒸留するための革新的なトレーニング戦略を設計する。
実験結果から,我々の蒸留したオープンソースMLLMは,現在のGPT-4oベースラインよりも有意に優れていた。
論文 参考訳(メタデータ) (2024-11-23T08:06:06Z) - Fine-Tuning Vision-Language Model for Automated Engineering Drawing Information Extraction [0.0]
Florence-2はオープンソースの視覚自動モデル(VLM)である
ドメインの専門家が提供した、根拠となる真実のアノテーションを備えた400の図面のデータセットでトレーニングされている。
29.95%の精度向上、37.75%のリコール、52.40%のF1スコアの改善、43.15%の幻覚率の低下を実現している。
論文 参考訳(メタデータ) (2024-11-06T07:11:15Z) - Enhanced Infield Agriculture with Interpretable Machine Learning Approaches for Crop Classification [0.49110747024865004]
本研究では、SIFT、ORB、Color Histogramなどの手作り特徴抽出手法を用いた従来のML、カスタムデザインCNN、AlexNetのようなDLアーキテクチャの確立、ImageNetを用いて事前訓練された5つのモデルの移行学習の4つの異なる分類手法を評価する。
Xceptionはこれら全てを一般化し、80.03MBのモデルサイズと0.0633秒の予測時間で98%の精度を達成した。
論文 参考訳(メタデータ) (2024-08-22T14:20:34Z) - RLAIF-V: Open-Source AI Feedback Leads to Super GPT-4V Trustworthiness [102.06442250444618]
RLAIF-Vは,MLLMを完全なオープンソースパラダイムで整列させる新しいフレームワークである。
RLAIF-Vは、高品質なフィードバックデータ生成を含む2つの観点から、オープンソースのMLLMを最大限に探求する。
RLAIF-Vは、自動評価と人的評価の両方で6つのベンチマーク実験を行い、モデルの信頼性を大幅に向上させることを示した。
論文 参考訳(メタデータ) (2024-05-27T14:37:01Z) - Calib3D: Calibrating Model Preferences for Reliable 3D Scene Understanding [55.32861154245772]
Calib3Dは3Dシーン理解モデルの信頼性をベンチマークし精査する先駆的な試みである。
10の異なる3Dデータセットにまたがる28の最先端モデルを総合的に評価する。
本稿では,3次元モデルのキャリブレーション向上を目的とした,深度対応のスケーリング手法であるDeptSを紹介する。
論文 参考訳(メタデータ) (2024-03-25T17:59:59Z) - Large Language Models as Automated Aligners for benchmarking
Vision-Language Models [48.4367174400306]
VLM(Vision-Language Models)は新しいレベルの高度化に達し、複雑な認知と推論タスクの実行において顕著な能力を示している。
既存の評価ベンチマークは、厳密で手作りのデータセットを主に頼りにしており、人為的なモデルと人間の知性との整合性を評価する上で、重大な制限に直面している。
本研究では,LLMを有能なキュレーションとして探求し,自動データキュレーションとアセスメントによってVLMと人間の知性と価値のアライメントを測定するAuto-Benchを用いて,その限界に対処する。
論文 参考訳(メタデータ) (2023-11-24T16:12:05Z) - From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。
我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z) - Generative Multi-Stream Architecture For American Sign Language
Recognition [15.717424753251674]
複雑なアプリケーションのための機能豊かさの低いデータセットのトレーニングは、人間のパフォーマンスよりも最適な収束を制限します。
本稿では,非現実性を危険にさらすことなく機能収束を改善することを目的とした,新たなハードウェアの必要性を排除した生成型マルチストリームアーキテクチャを提案する。
提案手法は,従来のモデルよりも0.45%,5.53%の精度で,トレーニングから1.42%の精度で95.62%の精度を達成している。
論文 参考訳(メタデータ) (2020-03-09T21:04:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。