論文の概要: Fine-Tuning Vision-Language Model for Automated Engineering Drawing Information Extraction
- arxiv url: http://arxiv.org/abs/2411.03707v1
- Date: Wed, 06 Nov 2024 07:11:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-07 19:24:28.071021
- Title: Fine-Tuning Vision-Language Model for Automated Engineering Drawing Information Extraction
- Title(参考訳): 自動描画情報抽出のための微調整ビジョンランゲージモデル
- Authors: Muhammad Tayyab Khan, Lequn Chen, Ye Han Ng, Wenhe Feng, Nicholas Yew Jin Tan, Seung Ki Moon,
- Abstract要約: Florence-2はオープンソースの視覚自動モデル(VLM)である
ドメインの専門家が提供した、根拠となる真実のアノテーションを備えた400の図面のデータセットでトレーニングされている。
29.95%の精度向上、37.75%のリコール、52.40%のF1スコアの改善、43.15%の幻覚率の低下を実現している。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Geometric Dimensioning and Tolerancing (GD&T) plays a critical role in manufacturing by defining acceptable variations in part features to ensure component quality and functionality. However, extracting GD&T information from 2D engineering drawings is a time-consuming and labor-intensive task, often relying on manual efforts or semi-automated tools. To address these challenges, this study proposes an automated and computationally efficient GD&T extraction method by fine-tuning Florence-2, an open-source vision-language model (VLM). The model is trained on a dataset of 400 drawings with ground truth annotations provided by domain experts. For comparison, two state-of-the-art closed-source VLMs, GPT-4o and Claude-3.5-Sonnet, are evaluated on the same dataset. All models are assessed using precision, recall, F1-score, and hallucination metrics. Due to the computational cost and impracticality of fine-tuning large closed-source VLMs for domain-specific tasks, GPT-4o and Claude-3.5-Sonnet are evaluated in a zero-shot setting. In contrast, Florence-2, a smaller model with 0.23 billion parameters, is optimized through full-parameter fine-tuning across three distinct experiments, each utilizing datasets augmented to different levels. The results show that Florence-2 achieves a 29.95% increase in precision, a 37.75% increase in recall, a 52.40% improvement in F1-score, and a 43.15% reduction in hallucination rate compared to the best-performing closed-source model. These findings highlight the effectiveness of fine-tuning smaller, open-source VLMs like Florence-2, offering a practical and efficient solution for automated GD&T extraction to support downstream manufacturing tasks.
- Abstract(参考訳): Geometric Dimensioning and Tolerancing (GD&T) は、部品の品質と機能性を確保するために、部品の特徴の許容可能なバリエーションを定義することで製造において重要な役割を担っている。
しかしながら、2Dエンジニアリング図面からGD&T情報を抽出することは、しばしば手作業や半自動化ツールに依存する、時間と労力のかかる作業である。
これらの課題に対処するために,オープンソースの視覚言語モデル(VLM)であるFlorence-2を微調整することで,GD&Tの自動抽出手法を提案する。
このモデルは、ドメインの専門家が提供した根拠となる真実のアノテーションによる400の描画のデータセットに基づいて訓練されている。
比較のために,2つの最先端クローズドソースVLM,GPT-4oとClaude-3.5-Sonnetを同じデータセットで評価した。
すべてのモデルは精度、リコール、F1スコア、幻覚測定値を用いて評価される。
GPT-4o と Claude-3.5-Sonnet をゼロショット環境で評価した。
対照的に、0.23億のパラメータを持つ小さなモデルであるFlorence-2は、3つの異なる実験にまたがってフルパラメータの微調整によって最適化されている。
その結果,フローレンス2は精度29.95%,リコール37.75%,F1スコア52.40%,幻覚率43.15%の低下を達成した。
これらの知見は、下流製造タスクをサポートするためのGD&T自動抽出のための実用的で効率的なソリューションを提供する、Florence-2のような小型のオープンソースVLMの有効性を浮き彫りにしたものである。
関連論文リスト
- DELIFT: Data Efficient Language model Instruction Fine Tuning [6.425903493706273]
本稿では,3段階の微調整におけるデータ選択を体系的に最適化する新しいアルゴリズムであるDELIFTを紹介する。
さまざまなタスクやモデルスケールにわたる実験により、DELIFTはパフォーマンスを損なうことなく、微調整データサイズを最大70%削減できることが示された。
論文 参考訳(メタデータ) (2024-11-07T04:38:29Z) - Leveraging Vision-Language Models for Manufacturing Feature Recognition in CAD Designs [0.0]
本研究では、CAD設計における幅広い製造特徴の認識を自動化する視覚言語モデル(VLM)について検討する。
認識を可能にするために、マルチビュークエリイメージ、少数ショット学習、シーケンシャル推論、チェーン・オブ・プリートといったプロンプトエンジニアリング技術が適用される。
論文 参考訳(メタデータ) (2024-11-05T04:57:55Z) - Crafting Efficient Fine-Tuning Strategies for Large Language Models [2.633490094119608]
200サンプル未満の細調整された大型言語モデル(LLM)は、製品属性抽出タスクにおいて、モデル精度を70%から88%に向上させることができる。
トレーニング時間全体の20%のモデルを評価するベイズハイパーパラメータ最適化法は,最終的なモデル性能と強く相関する。
このアプローチにより、独立したテストセットで評価すると、ベースラインモデルよりも精度が2%向上した。
論文 参考訳(メタデータ) (2024-07-18T21:36:00Z) - AutoFT: Learning an Objective for Robust Fine-Tuning [60.641186718253735]
ファンデーションモデルは、微調整によって下流タスクに適応できるリッチな表現をエンコードする。
手作り正則化技術を用いた頑健な微調整への最近のアプローチ
我々は、堅牢な微調整のためのデータ駆動型アプローチであるAutoFTを提案する。
論文 参考訳(メタデータ) (2024-01-18T18:58:49Z) - VeCAF: Vision-language Collaborative Active Finetuning with Training Objective Awareness [56.87603097348203]
VeCAFはラベルと自然言語アノテーションを使用して、PVMの微調整のためのパラメトリックデータ選択を行う。
VeCAFは微調整の目的を取り入れて重要なデータポイントを選択し、PVMをより高速な収束に向けて効果的に導く。
ImageNetでは、VeCAFは最大3.3倍のトレーニングバッチを使用して、完全な微調整に比べて目標のパフォーマンスに到達する。
論文 参考訳(メタデータ) (2024-01-15T17:28:37Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - Defect Analysis of 3D Printed Cylinder Object Using Transfer Learning
Approaches [0.51795041186793]
本研究では3次元プリントシリンダの欠陥検出における機械学習アプローチ,特にトランスファーラーニング(TL)モデルの有効性について検討する。
VGG16, VGG19, ResNet50, ResNet101, InceptionResNetV2, MobileNetV2 などのモデルを用いてシリンダー画像の解析を行った。
結果から,アルゴリズムによって性能は異なるものの,特定のTLモデルによってAM欠陥分類の精度が高いことが示唆された。
論文 参考訳(メタデータ) (2023-10-12T18:10:36Z) - Scaling & Shifting Your Features: A New Baseline for Efficient Model
Tuning [126.84770886628833]
既存の微調整法は、事前訓練されたモデルの全てのパラメータ(フル微調整)をチューニングするか、最後の線形層(線形プローブ)のみをチューニングする。
そこで本研究では,SSFと呼ばれるパラメータ効率の高いファインタニング手法を提案する。
論文 参考訳(メタデータ) (2022-10-17T08:14:49Z) - FedDM: Iterative Distribution Matching for Communication-Efficient
Federated Learning [87.08902493524556]
フェデレートラーニング(FL)は近年、学術や産業から注目を集めている。
我々は,複数の局所的代理関数からグローバルなトレーニング目標を構築するためのFedDMを提案する。
そこで本研究では,各クライアントにデータ集合を構築し,元のデータから得られた損失景観を局所的にマッチングする。
論文 参考訳(メタデータ) (2022-07-20T04:55:18Z) - Complementary Ensemble Learning [1.90365714903665]
我々は最先端のディープラーニングモデルの性能向上手法を考案した。
具体的には、最先端モデルの不確実性を補完できる補助モデルを訓練する。
論文 参考訳(メタデータ) (2021-11-09T03:23:05Z) - DSEE: Dually Sparsity-embedded Efficient Tuning of Pre-trained Language
Models [152.29364079385635]
事前訓練されたモデルが大きくなればなるほど、微調整のプロセスは時間がかかり、計算コストがかかる可能性がある。
本稿では,重み更新と最終モデルの重み付けに先立って,疎度を活用することで,資源・パラメータ効率の微調整を行うフレームワークを提案する。
提案するフレームワークは,Dually Sparsity-Embeded Efficient Tuning (DSEE)と呼ばれ,パラメータ効率のよい微調整とリソース効率の推論という2つの重要な目標を達成することを目的としている。
論文 参考訳(メタデータ) (2021-10-30T03:29:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。