論文の概要: Visual Language Model as a Judge for Object Detection in Industrial Diagrams
- arxiv url: http://arxiv.org/abs/2510.03376v1
- Date: Fri, 03 Oct 2025 13:52:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:58.94628
- Title: Visual Language Model as a Judge for Object Detection in Industrial Diagrams
- Title(参考訳): 産業図形における物体検出判断のための視覚言語モデル
- Authors: Sanjukta Ghosh,
- Abstract要約: 本稿では,視覚言語モデル(VLM)を用いてオブジェクト検出結果を評価し,その改善を導くフレームワークを提案する。
このアプローチは、VLMのマルチモーダル機能を利用して、欠落や一貫性のない検出を識別し、自動品質評価を可能にし、複雑な産業図上での全体的な検出性能を向上させる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Industrial diagrams such as piping and instrumentation diagrams (P&IDs) are essential for the design, operation, and maintenance of industrial plants. Converting these diagrams into digital form is an important step toward building digital twins and enabling intelligent industrial automation. A central challenge in this digitalization process is accurate object detection. Although recent advances have significantly improved object detection algorithms, there remains a lack of methods to automatically evaluate the quality of their outputs. This paper addresses this gap by introducing a framework that employs Visual Language Models (VLMs) to assess object detection results and guide their refinement. The approach exploits the multimodal capabilities of VLMs to identify missing or inconsistent detections, thereby enabling automated quality assessment and improving overall detection performance on complex industrial diagrams.
- Abstract(参考訳): 配管やインスツルメンテーションダイアグラム(P&ID)のような産業図は、工業プラントの設計、運用、保守に不可欠である。
これらの図をデジタル形式に変換することは、ディジタルツインの構築とインテリジェントな産業自動化を実現するための重要なステップである。
このデジタル化プロセスにおける中心的な課題は、正確な物体検出である。
近年の進歩はオブジェクト検出アルゴリズムを大幅に改善したものの、出力の質を自動評価する方法が不足している。
本稿では、視覚言語モデル(VLM)を用いてオブジェクト検出結果を評価し、その改善を導くフレームワークを導入することで、このギャップに対処する。
このアプローチは、VLMのマルチモーダル機能を利用して、欠落や一貫性のない検出を識別し、自動品質評価を可能にし、複雑な産業図上での全体的な検出性能を向上させる。
関連論文リスト
- NeRF-Based defect detection [6.72800891299482]
本稿では,Neural Radiance Fields(NeRF)に基づく自動欠陥検出フレームワークとディジタルツインの概念を紹介する。
このシステムは、UAVを使って画像を取得し、機械の3Dモデルを再構成し、標準的な基準モデルと現在のモデルの両方を生成して比較する。
論文 参考訳(メタデータ) (2025-03-31T22:27:51Z) - A Data-Centric Revisit of Pre-Trained Vision Models for Robot Learning [67.72413262980272]
事前訓練された視覚モデル(PVM)は現代のロボティクスの基本であるが、その最適構成は定かではない。
セマンティック・ボトルネックを導入してオブジェクト中心の表現を誘導する手法であるSlotMIMを開発した。
提案手法は,画像認識,シーン理解,ロボット学習評価において,従来の作業よりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-03-10T06:18:31Z) - Anomaly Detection for Industrial Applications, Its Challenges, Solutions, and Future Directions: A Review [4.139740414165092]
カメラセンサを用いた画像からの異常検出は、産業レベルでの主流の応用の1つである。
従来の異常検出ワークフローは、人間の操作者による手動検査に基づいている。
最近のビジョンベースのアプローチは、コンピュータビジョンを使用して機能を自動的に抽出し、処理し、解釈することができる。
論文 参考訳(メタデータ) (2025-01-20T07:24:39Z) - Accelerating Manufacturing Scale-Up from Material Discovery Using Agentic Web Navigation and Retrieval-Augmented AI for Process Engineering Schematics Design [2.368662284133926]
プロセス・フロー・ダイアグラム(PFD)とプロセス・アンド・インスツルメンテーション・ダイアグラム(PID)は産業プロセスの設計、制御、安全性にとって重要なツールである。
精密かつ規則に準拠した図の作成は、特に自動化とデジタル化の時代において、材料発見から工業生産へのブレークスルーを拡大する上で、依然として重要な課題である。
本稿では,知識獲得と生成を伴う2段階のアプローチを通じて,これらの課題に対処する自律型エージェントフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-08T13:36:42Z) - Uncertainty Estimation for 3D Object Detection via Evidential Learning [63.61283174146648]
本稿では,3次元検出器における鳥の視線表示における明らかな学習損失を利用して,3次元物体検出の不確かさを定量化するためのフレームワークを提案する。
本研究では,これらの不確実性評価の有効性と重要性を,分布外シーンの特定,局所化の不十分な物体の発見,および(偽陰性)検出の欠如について示す。
論文 参考訳(メタデータ) (2024-10-31T13:13:32Z) - AIDE: An Automatic Data Engine for Object Detection in Autonomous Driving [68.73885845181242]
本稿では,問題を自動的に識別し,データを効率よくキュレートし,自動ラベル付けによりモデルを改善する自動データエンジン(AIDE)を提案する。
さらに,AVデータセットのオープンワールド検出のためのベンチマークを構築し,様々な学習パラダイムを包括的に評価し,提案手法の優れた性能を低コストで実証する。
論文 参考訳(メタデータ) (2024-03-26T04:27:56Z) - Anomaly Detection Based on Selection and Weighting in Latent Space [73.01328671569759]
SWADと呼ばれる新しい選択および重み付けに基づく異常検出フレームワークを提案する。
ベンチマークと実世界のデータセットによる実験は、SWADの有効性と優位性を示している。
論文 参考訳(メタデータ) (2021-03-08T10:56:38Z) - Cognitive Visual Inspection Service for LCD Manufacturing Industry [80.63336968475889]
本論文では,現在FPD業界で主流となっている液晶ディスプレイ(LCD)の視覚検査システムについて述べる。
システムは、堅牢/高性能欠陥認識モデルと認知視覚検査サービスアーキテクチャの2つの基礎に基づいています。
論文 参考訳(メタデータ) (2021-01-11T08:14:35Z) - Industrial object, machine part and defect recognition towards fully
automated industrial monitoring employing deep learning. The case of
multilevel VGG19 [0.0]
現代の産業は、商品の自動生産を監視するための近代的なソリューションを必要としている。
我々は,Multipath VGG19と呼ばれるVirtual Geometry Group (VGG) ネットワークの改良版を提案する。
具体的には、6つの画像データセットのうち5つで上位分類性能が達成され、平均分類改善は6.95%であった。
論文 参考訳(メタデータ) (2020-11-23T10:05:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。