論文の概要: Progressive Alignment with VLM-LLM Feature to Augment Defect Classification for the ASE Dataset
- arxiv url: http://arxiv.org/abs/2404.05183v1
- Date: Mon, 8 Apr 2024 04:17:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-09 15:33:28.644640
- Title: Progressive Alignment with VLM-LLM Feature to Augment Defect Classification for the ASE Dataset
- Title(参考訳): ASEデータセットの欠陥分類のためのVLM-LLM特徴付きプログレッシブアライメント
- Authors: Chih-Chung Hsu, Chia-Ming Lee, Chun-Hung Sun, Kuang-Ming Wu,
- Abstract要約: 従来の欠陥分類アプローチは2つの障壁に直面している。
不十分なトレーニングデータと不安定なデータ品質。
画像上に記録されたリッチなデータ記述を含む,欠陥分類のための特別なデータセットを提案するが,欠陥特徴を直接学習するのは困難である。
- 参考スコア(独自算出の注目度): 7.1083241462091165
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Traditional defect classification approaches are facing with two barriers. (1) Insufficient training data and unstable data quality. Collecting sufficient defective sample is expensive and time-costing, consequently leading to dataset variance. It introduces the difficulty on recognition and learning. (2) Over-dependence on visual modality. When the image pattern and texture is monotonic for all defect classes in a given dataset, the performance of conventional AOI system cannot be guaranteed. In scenarios where image quality is compromised due to mechanical failures or when defect information is inherently difficult to discern, the performance of deep models cannot be guaranteed. A main question is, "how to solve those two problems when they occur at the same time?" The feasible strategy is to explore another feature within dataset and combine an eminent vision-language model (VLM) and Large-Language model (LLM) with their astonishing zero-shot capability. In this work, we propose the special ASE dataset, including rich data description recorded on image, for defect classification, but the defect feature is uneasy to learn directly. Secondly, We present the prompting for VLM-LLM against defect classification with the proposed ASE dataset to activate extra-modality feature from images to enhance performance. Then, We design the novel progressive feature alignment (PFA) block to refine image-text feature to alleviate the difficulty of alignment under few-shot scenario. Finally, the proposed Cross-modality attention fusion (CMAF) module can effectively fuse different modality feature. Experiment results have demonstrated our method's effectiveness over several defect classification methods for the ASE dataset.
- Abstract(参考訳): 従来の欠陥分類アプローチは2つの障壁に直面している。
1)不十分なトレーニングデータと不安定なデータ品質。
十分な欠陥サンプルの収集は高価で時間費用がかかるため、データセットの分散につながる。
認識と学習の困難が伴う。
2)視覚的モダリティの過度依存性
画像パターンとテクスチャが与えられたデータセットのすべての欠陥クラスに対して単調である場合、従来のAOIシステムの性能は保証できない。
機械的故障により画質が損なわれる場合や、欠陥情報が本質的に識別し難い場合は、ディープモデルの性能が保証できない。
主な疑問は、“これら2つの問題を同時に解決するにはどうすればよいか?
実現可能な戦略は、データセット内の別の機能を探求し、卓越したビジョン言語モデル(VLM)とLarge-Languageモデル(LLM)を驚くべきゼロショット機能と組み合わせることである。
本研究では,欠陥分類のために画像上に記録されたリッチなデータ記述を含む特殊なASEデータセットを提案するが,欠陥特徴を直接学習するのは困難である。
次に,提案するASEデータセットを用いた欠陥分類に対するVLM-LLMのプロンプトを提案する。
そこで本研究では,プログレッシブな特徴アライメント(PFA)ブロックを設計し,画像テキストの特徴を洗練し,少数のシナリオ下でのアライメントの困難さを軽減する。
最後に、提案したCMAFモジュールは、異なるモダリティ特徴を効果的に融合することができる。
ASEデータセットのいくつかの欠陥分類法に対して,本手法の有効性を実証した。
関連論文リスト
- Fine-grained Abnormality Prompt Learning for Zero-shot Anomaly Detection [88.34095233600719]
FAPromptは、より正確なZSADのためにきめ細かい異常プロンプトを学習するために設計された新しいフレームワークである。
画像レベルおよび画素レベルのZSADタスクにおいて、最先端の手法を少なくとも3%-5%のAUC/APで大幅に上回っている。
論文 参考訳(メタデータ) (2024-10-14T08:41:31Z) - DECIDER: Leveraging Foundation Model Priors for Improved Model Failure Detection and Explanation [18.77296551727931]
本稿では,大規模言語モデル (LLM) と視覚言語モデル (VLM) の先行情報を利用した画像モデルの故障検出手法であるDECIDERを提案する。
DECIDERは一貫して最先端の故障検出性能を達成し、マシューズ相関係数全体のベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2024-08-01T07:08:11Z) - Embracing Events and Frames with Hierarchical Feature Refinement Network for Object Detection [17.406051477690134]
イベントカメラはスパースと非同期のイベントを出力し、これらの問題を解決する潜在的な解決策を提供する。
イベントフレーム融合のための新しい階層的特徴改善ネットワークを提案する。
本手法は, フレーム画像に15種類の汚損タイプを導入する際に, 極めて優れたロバスト性を示す。
論文 参考訳(メタデータ) (2024-07-17T14:09:46Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - Self-supervised Feature Adaptation for 3D Industrial Anomaly Detection [59.41026558455904]
具体的には,大規模ビジュアルデータセット上で事前学習されたモデルを利用した初期のマルチモーダルアプローチについて検討する。
本研究では,アダプタを微調整し,異常検出に向けたタスク指向の表現を学習するためのLSFA法を提案する。
論文 参考訳(メタデータ) (2024-01-06T07:30:41Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - Learning Prompt-Enhanced Context Features for Weakly-Supervised Video
Anomaly Detection [37.99031842449251]
弱い監督下での映像異常検出は重大な課題を呈する。
本稿では,効率的なコンテキストモデリングとセマンティック識別性の向上に焦点をあてた,弱教師付き異常検出フレームワークを提案する。
提案手法は,特定の異常なサブクラスの検出精度を大幅に向上させ,その実用的価値と有効性を裏付けるものである。
論文 参考訳(メタデータ) (2023-06-26T06:45:16Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - Deep Learning-Based Defect Classification and Detection in SEM Images [1.9206693386750882]
特に、異なるResNet、VGGNetアーキテクチャをバックボーンとして使用するRetinaNetモデルをトレーニングする。
そこで本研究では,異なるモデルからの出力予測を組み合わせることで,欠陥の分類と検出に優れた性能を実現するための選好に基づくアンサンブル戦略を提案する。
論文 参考訳(メタデータ) (2022-06-20T16:34:11Z) - Generative Partial Visual-Tactile Fused Object Clustering [81.17645983141773]
オブジェクトクラスタリングのためのGenerative Partial Visual-Tactile Fused(GPVTF)フレームワークを提案する。
条件付きクロスモーダルクラスタリング生成逆ネットワークを開発し、一方のモダリティ条件を他方のモダリティ上で合成する。
最後に、擬似ラベルに基づく2つのKL分割損失を用いて、対応するモダリティ固有エンコーダを更新する。
論文 参考訳(メタデータ) (2020-12-28T02:37:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。