論文の概要: UniPCB: A Unified Vision-Language Benchmark for Open-Ended PCB Quality Inspection
- arxiv url: http://arxiv.org/abs/2601.19222v1
- Date: Tue, 27 Jan 2026 05:42:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-28 15:26:51.194079
- Title: UniPCB: A Unified Vision-Language Benchmark for Open-Ended PCB Quality Inspection
- Title(参考訳): UniPCB:オープンエンディングPCB品質検査のための統一ビジョンランゲージベンチマーク
- Authors: Fuxiang Sun, Xi Jiang, Jiansheng Wu, Haigang Zhang, Feng Zheng, Jinfeng Yang,
- Abstract要約: MLLM(Multimodal Large Language Models)は、一般的な産業品質検査を約束するが、PCB(Printed Circuit Board)検査のような複雑なシナリオでは不十分である。
オープンエンドPCB品質検査のための視覚ベンチマークUniPCBを提案する。
- 参考スコア(独自算出の注目度): 39.750737408945376
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) show promise for general industrial quality inspection, but fall short in complex scenarios, such as Printed Circuit Board (PCB) inspection. PCB inspection poses unique challenges due to densely packed components, complex wiring structures, and subtle defect patterns that require specialized domain expertise. However, a high-quality, unified vision-language benchmark for quantitatively evaluating MLLMs across PCB inspection tasks remains absent, stemming not only from limited data availability but also from fragmented datasets and inconsistent standardization. To fill this gap, we propose UniPCB, the first unified vision-language benchmark for open-ended PCB quality inspection. UniPCB is built via a systematic pipeline that curates and standardizes data from disparate sources across three annotated scenarios. Furthermore, we introduce PCB-GPT, an MLLM trained on a new instruction dataset generated by this pipeline, utilizing a novel progressive curriculum that mimics the learning process of human experts. Evaluations on the UniPCB benchmark show that while existing MLLMs falter on domain-specific tasks, PCB-GPT establishes a new baseline. Notably, it more than doubles the performance on fine-grained defect localization compared to the strongest competitors, with significant advantages in localization and analysis. We will release the instruction data, benchmark, and model to facilitate future research.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、一般的な産業品質検査を約束するが、PCB(Printed Circuit Board)検査のような複雑なシナリオでは不十分である。
PCB検査は、密集したコンポーネント、複雑な配線構造、専門分野の専門知識を必要とする微妙な欠陥パターンなど、ユニークな課題を生んでいる。
しかし、PCB検査タスク全体でMLLMを定量的に評価するための高品質で統一されたビジョン言語ベンチマークは、限られたデータ可用性だけでなく、断片化されたデータセットや一貫性のない標準化からも生まれている。
このギャップを埋めるために、オープンエンドPCB品質検査のための最初の統合ビジョンベンチマークであるUniPCBを提案する。
UniPCBは3つのアノテーション付きシナリオで異なるソースからのデータをキュレートし、標準化するシステマティックパイプラインを通じて構築される。
さらに,このパイプラインが生成する新たな命令データセットに基づいて学習したMLLMであるPCB-GPTを紹介し,人間の学習過程を模倣する新しいプログレッシブカリキュラムを利用する。
UniPCBベンチマークの評価によると、既存のMLLMはドメイン固有のタスクに干渉するが、PCB-GPTは新たなベースラインを確立する。
特に、最強のライバルと比べて、きめ細かい欠陥の局所化のパフォーマンスは2倍以上に上り、ローカライゼーションと分析において大きな利点がある。
今後の研究を促進するために、インストラクションデータ、ベンチマーク、モデルをリリースする。
関連論文リスト
- Calibratable Disambiguation Loss for Multi-Instance Partial-Label Learning [53.9713678229744]
MIPL(Multi-instance partial-label Learning)は、インスタンス空間とラベル空間の両方において、不正確な監督の課題に対処する弱い教師付きフレームワークである。
既存のMIPLアプローチは、しばしばキャリブレーションが悪く、信頼性を損なう。
分類精度と校正性能を同時に向上するプラグアンドプレイ校正型曖昧さ損失(CDL)を提案する。
論文 参考訳(メタデータ) (2025-12-19T16:58:31Z) - SO-Bench: A Structural Output Evaluation of Multimodal LLMs [43.74273224757814]
マルチモーダルな大規模言語モデル (MLLM) は、現実のエージェント的な設定でますます多くデプロイされている。
テキスト領域における構造化生成の最近の進歩にもかかわらず、スキーマ基底情報抽出と視覚的入力に対する推論を体系的に評価するベンチマークはいまだ存在しない。
我々は、慎重に設計されたSO-Benchベンチマークを用いて、MLLMの視覚構造出力能力を総合的に研究する。
論文 参考訳(メタデータ) (2025-11-23T16:53:16Z) - InspectVLM: Unified in Theory, Unreliable in Practice [0.0]
統一視覚言語モデル(VLM)は、単一の言語駆動インタフェース内で複数の視覚タスクをフレキシブルにすることで、コンピュータビジョンパイプラインの合理化を約束する。
InspectMMをトレーニングしたFlorence-2ベースのVLMであるInspectVLMを用いて,この統一パラダイムの有効性を批判的に評価する。
論文 参考訳(メタデータ) (2025-08-03T21:09:35Z) - MRC-DETR: An Adaptive Multi-Residual Coupled Transformer for Bare Board PCB Defect Detection [11.16242420187823]
そこで本研究では,PCB 欠陥検査のための新規かつ効率的な検出フレームワーク MRC-DETR を提案する。
特徴表現能力を高めるため,MRDCB(Multi-Residual Directional Coupled Block)を設計する。
非効率な層間情報融合による計算冗長性を低減するため、適応スクリーニングピラミッドネットワーク(ASPN)を導入する。
論文 参考訳(メタデータ) (2025-07-04T08:42:38Z) - Test-Time Alignment for Large Language Models via Textual Model Predictive Control [63.508812485566374]
Textual Model Predictive Control (TMPC) は、推論時に大規模言語モデルを調整するために適応された新しい予測計画フレームワークである。
TMPCは、談話レベル翻訳、長文応答生成、プログラム合成の3つの異なるセグメンテーション特性を持つタスクで評価される。
その結果、TMPCはパフォーマンスを継続的に改善し、一般性を強調している。
論文 参考訳(メタデータ) (2025-02-28T07:24:33Z) - Contrastive Pre-Training with Multi-View Fusion for No-Reference Point Cloud Quality Assessment [49.36799270585947]
No-Reference Point Cloud Quality Assessment (NR-PCQA) は、歪んだ点雲の知覚的品質を、参照なしで自動的に評価することを目的としている。
我々は,PCQA(CoPA)に適した新しいコントラスト付き事前学習フレームワークを提案する。
提案手法は,最新のPCQA手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2024-03-15T07:16:07Z) - Composite Score for Anomaly Detection in Imbalanced Real-World
Industrial Dataset [0.0]
本稿では,PCBA(Printed Circuit Board Assembly)イメージを,通常の製品で訓練されたベクトル量子生成適応ネットワーク(VQGAN)を用いて再構成する産業パートナーのユースケースについて述べる。
いくつかの正常な画像と異常な画像から複数のマルチレベルメトリクスが抽出され、再構成の違いによって異常が強調される。
クラスアイファーは、抽出されたメトリクスのおかげで複合異常スコアを構築するように訓練される。
論文 参考訳(メタデータ) (2022-11-25T09:41:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。