論文の概要: Leveraging Vision-Language Models for Manufacturing Feature Recognition in CAD Designs
- arxiv url: http://arxiv.org/abs/2411.02810v1
- Date: Tue, 05 Nov 2024 04:57:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-09 19:50:52.644726
- Title: Leveraging Vision-Language Models for Manufacturing Feature Recognition in CAD Designs
- Title(参考訳): CAD設計における特徴認識のための視覚言語モデルの活用
- Authors: Muhammad Tayyab Khan, Lequn Chen, Ye Han Ng, Wenhe Feng, Nicholas Yew Jin Tan, Seung Ki Moon,
- Abstract要約: 本研究では、CAD設計における幅広い製造特徴の認識を自動化する視覚言語モデル(VLM)について検討する。
認識を可能にするために、マルチビュークエリイメージ、少数ショット学習、シーケンシャル推論、チェーン・オブ・プリートといったプロンプトエンジニアリング技術が適用される。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Automatic feature recognition (AFR) is essential for transforming design knowledge into actionable manufacturing information. Traditional AFR methods, which rely on predefined geometric rules and large datasets, are often time-consuming and lack generalizability across various manufacturing features. To address these challenges, this study investigates vision-language models (VLMs) for automating the recognition of a wide range of manufacturing features in CAD designs without the need for extensive training datasets or predefined rules. Instead, prompt engineering techniques, such as multi-view query images, few-shot learning, sequential reasoning, and chain-of-thought, are applied to enable recognition. The approach is evaluated on a newly developed CAD dataset containing designs of varying complexity relevant to machining, additive manufacturing, sheet metal forming, molding, and casting. Five VLMs, including three closed-source models (GPT-4o, Claude-3.5-Sonnet, and Claude-3.0-Opus) and two open-source models (LLava and MiniCPM), are evaluated on this dataset with ground truth features labelled by experts. Key metrics include feature quantity accuracy, feature name matching accuracy, hallucination rate, and mean absolute error (MAE). Results show that Claude-3.5-Sonnet achieves the highest feature quantity accuracy (74%) and name-matching accuracy (75%) with the lowest MAE (3.2), while GPT-4o records the lowest hallucination rate (8%). In contrast, open-source models have higher hallucination rates (>30%) and lower accuracies (<40%). This study demonstrates the potential of VLMs to automate feature recognition in CAD designs within diverse manufacturing scenarios.
- Abstract(参考訳): 自動特徴認識(AFR)は、設計知識を実用的な製造情報に変換するために不可欠である。
従来のAFR法は、事前に定義された幾何学的規則や大きなデータセットに依存しており、しばしば時間を要するため、様々な製造機能にまたがる一般化性に欠ける。
これらの課題に対処するために,CAD設計における幅広い製造特徴の認識を自動化する視覚言語モデル(VLM)について,広範囲なトレーニングデータセットや事前定義されたルールを必要とせずに検討した。
代わりに、マルチビュークエリ画像、少数ショット学習、シーケンシャル推論、チェーン・オブ・プリートなどのプロンプトエンジニアリング技術が適用され、認識が可能となる。
本手法は, 加工, 添加物製造, 板金成形, 成形, 鋳造に関わる様々な複雑さの設計を含むCADデータセットを用いて評価した。
3つのクローズドソースモデル(GPT-4o、Claude-3.5-Sonnet、Claude-3.0-Opus)と2つのオープンソースモデル(LLavaとMiniCPM)を含む5つのVLMを、専門家によってラベル付けされた地上真実の特徴で評価した。
主な指標は、特徴量精度、特徴名マッチング精度、幻覚率、平均絶対誤差(MAE)である。
その結果、Claude-3.5-Sonnet は最も高い特徴量精度 (74%) と名前マッチング精度 (75%) を最も低いMAE (3.2) で達成し、GPT-4o は最も低い幻覚率 (8%) を記録した。
対照的に、オープンソースモデルは高い幻覚率 (>30%) と低い精度 ((<40%) を持つ。
本研究は,多種多様な製造シナリオにおけるCAD設計における特徴認識の自動化の可能性を示す。
関連論文リスト
- Fine-Tuning Vision-Language Model for Automated Engineering Drawing Information Extraction [0.0]
Florence-2はオープンソースの視覚自動モデル(VLM)である
ドメインの専門家が提供した、根拠となる真実のアノテーションを備えた400の図面のデータセットでトレーニングされている。
29.95%の精度向上、37.75%のリコール、52.40%のF1スコアの改善、43.15%の幻覚率の低下を実現している。
論文 参考訳(メタデータ) (2024-11-06T07:11:15Z) - On the Effectiveness of LLMs for Manual Test Verifications [1.920300814128832]
本研究の目的は,手動テストの検証にLarge Language Models (LLMs) を用いることである。
オープンソースモデル Mistral-7B と Phi-3-mini-4k は、クローズドソースモデルと同等の有効性と一貫性を示した。
AI幻覚にも懸念があり、検証は期待から著しく逸脱した。
論文 参考訳(メタデータ) (2024-09-19T02:03:04Z) - Enhanced Infield Agriculture with Interpretable Machine Learning Approaches for Crop Classification [0.49110747024865004]
本研究では、SIFT、ORB、Color Histogramなどの手作り特徴抽出手法を用いた従来のML、カスタムデザインCNN、AlexNetのようなDLアーキテクチャの確立、ImageNetを用いて事前訓練された5つのモデルの移行学習の4つの異なる分類手法を評価する。
Xceptionはこれら全てを一般化し、80.03MBのモデルサイズと0.0633秒の予測時間で98%の精度を達成した。
論文 参考訳(メタデータ) (2024-08-22T14:20:34Z) - Networks of Networks: Complexity Class Principles Applied to Compound AI Systems Design [63.24275274981911]
多くの言語モデル推論コールからなる複合AIシステムは、ますます採用されている。
本研究では,提案した回答の生成と正当性検証の区別を中心に,ネットワークネットワーク(NoN)と呼ばれるシステムを構築した。
我々は,Kジェネレータを備えた検証器ベースの判定器NoNを導入し,"Best-of-K"あるいは"judge-based"複合AIシステムのインスタンス化を行う。
論文 参考訳(メタデータ) (2024-07-23T20:40:37Z) - RLAIF-V: Aligning MLLMs through Open-Source AI Feedback for Super GPT-4V Trustworthiness [94.03511733306296]
我々は,MLLMを超GPT-4V信頼性のための完全なオープンソースパラダイムに整合させるフレームワークであるRLAIF-Vを紹介する。
RLAIF-Vは、高品質なフィードバックデータとオンラインフィードバック学習アルゴリズムを含む、2つの観点から、オープンソースフィードバックを最大限活用する。
実験により、RLAIF-Vは、他のタスクのパフォーマンスを犠牲にすることなく、モデルの信頼性を大幅に向上することが示された。
論文 参考訳(メタデータ) (2024-05-27T14:37:01Z) - Calib3D: Calibrating Model Preferences for Reliable 3D Scene Understanding [55.32861154245772]
Calib3Dは3Dシーン理解モデルの信頼性をベンチマークし精査する先駆的な試みである。
10種類の3Dデータセットにわたる28の最先端モデルを評価した。
本稿では,3次元モデルのキャリブレーション向上を目的とした,深度対応のスケーリング手法であるDeptSを紹介する。
論文 参考訳(メタデータ) (2024-03-25T17:59:59Z) - Large Language Models as Automated Aligners for benchmarking
Vision-Language Models [48.4367174400306]
VLM(Vision-Language Models)は新しいレベルの高度化に達し、複雑な認知と推論タスクの実行において顕著な能力を示している。
既存の評価ベンチマークは、厳密で手作りのデータセットを主に頼りにしており、人為的なモデルと人間の知性との整合性を評価する上で、重大な制限に直面している。
本研究では,LLMを有能なキュレーションとして探求し,自動データキュレーションとアセスメントによってVLMと人間の知性と価値のアライメントを測定するAuto-Benchを用いて,その限界に対処する。
論文 参考訳(メタデータ) (2023-11-24T16:12:05Z) - From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。
我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z) - Large Language Models in the Workplace: A Case Study on Prompt
Engineering for Job Type Classification [58.720142291102135]
本研究では,実環境における職種分類の課題について検討する。
目標は、英語の求職が卒業生やエントリーレベルの地位に適切かどうかを判断することである。
論文 参考訳(メタデータ) (2023-03-13T14:09:53Z) - Generative Multi-Stream Architecture For American Sign Language
Recognition [15.717424753251674]
複雑なアプリケーションのための機能豊かさの低いデータセットのトレーニングは、人間のパフォーマンスよりも最適な収束を制限します。
本稿では,非現実性を危険にさらすことなく機能収束を改善することを目的とした,新たなハードウェアの必要性を排除した生成型マルチストリームアーキテクチャを提案する。
提案手法は,従来のモデルよりも0.45%,5.53%の精度で,トレーニングから1.42%の精度で95.62%の精度を達成している。
論文 参考訳(メタデータ) (2020-03-09T21:04:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。