論文の概要: Are Foundation Models Ready for Industrial Defect Recognition? A Reality Check on Real-World Data
- arxiv url: http://arxiv.org/abs/2509.20479v1
- Date: Wed, 24 Sep 2025 18:46:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.543843
- Title: Are Foundation Models Ready for Industrial Defect Recognition? A Reality Check on Real-World Data
- Title(参考訳): ファウンデーションモデルは産業的欠陥認識の準備が整っているか? : 実世界データによる現実的検証
- Authors: Simon Baeuerle, Pratik Khanna, Nils Friederich, Angelo Jovin Yamachui Sitcheu, Damir Shakirov, Andreas Steimer, Ralf Mikut,
- Abstract要約: ファンデーションモデル(FM)は、様々なテキストおよび画像処理タスクにおいて印象的なパフォーマンスを示している。
ゼロショット設定でドメインやデータセットをまたいで一般化することができる。
退屈なラベリングタスクを単純なテキストプロンプトに置き換えて、異常を記述することで、モデルの設定と実装においてかなりの労力を節約できる。
- 参考スコア(独自算出の注目度): 1.2197883665266451
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Foundation Models (FMs) have shown impressive performance on various text and image processing tasks. They can generalize across domains and datasets in a zero-shot setting. This could make them suitable for automated quality inspection during series manufacturing, where various types of images are being evaluated for many different products. Replacing tedious labeling tasks with a simple text prompt to describe anomalies and utilizing the same models across many products would save significant efforts during model setup and implementation. This is a strong advantage over supervised Artificial Intelligence (AI) models, which are trained for individual applications and require labeled training data. We test multiple recent FMs on both custom real-world industrial image data and public image data. We show that all of those models fail on our real-world data, while the very same models perform well on public benchmark datasets.
- Abstract(参考訳): ファンデーションモデル(FM)は、様々なテキストおよび画像処理タスクにおいて印象的なパフォーマンスを示している。
ゼロショット設定でドメインやデータセットをまたいで一般化することができる。
これにより、さまざまな種類の画像がさまざまな製品に対して評価されているシリーズ製造において、自動品質検査に適合する可能性がある。
面倒なラベリングタスクを単純なテキストプロンプトで置き換えて、異常を記述し、多くの製品で同じモデルを利用すれば、モデルのセットアップや実装においてかなりの労力を節約できる。
これは、個々のアプリケーションのためにトレーニングされ、ラベル付きトレーニングデータを必要とする、教師付き人工知能(AI)モデルよりも強力なアドバンテージである。
実世界の産業画像データと公共画像データの両方で、最近のFMを複数テストする。
これらのモデルがすべて実世界のデータでフェールするのに対して、同じモデルが公開ベンチマークデータセットでうまく機能していることが示されています。
関連論文リスト
- Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - Learning Defect Prediction from Unrealistic Data [57.53586547895278]
事前訓練されたコードのモデルは、コード理解と生成タスクに人気がある。
このようなモデルは大きい傾向があり、訓練データの総量を必要とする。
人工的に注入されたバグのある関数など、はるかに大きくてもより現実的なデータセットを持つモデルをトレーニングすることが一般的になった。
このようなデータで訓練されたモデルは、実際のプログラムでは性能が劣りながら、同様のデータでのみうまく機能する傾向にある。
論文 参考訳(メタデータ) (2023-11-02T01:51:43Z) - DINOv2: Learning Robust Visual Features without Supervision [75.42921276202522]
この研究は、既存の事前学習手法、特に自己教師付き手法が、多様なソースから十分なキュレートされたデータで訓練すれば、そのような特徴を生み出すことができることを示している。
技術的な貢献の多くは、大規模なトレーニングを加速し、安定化することを目的としています。
データの観点からは、自己組織化されていないデータではなく、専用で多様でキュレートされた画像データセットを構築するための自動パイプラインを提案する。
論文 参考訳(メタデータ) (2023-04-14T15:12:19Z) - Geometric Perception based Efficient Text Recognition [0.0]
固定されたカメラ位置を持つ現実世界のアプリケーションでは、基礎となるデータは通常のシーンテキストであることが多い。
本稿では, 基礎となる概念, 理論, 実装, 実験結果を紹介する。
本稿では,現在ある幾何学的特徴のみを用いて,通常のシーン画像中の数字を識別するように訓練された新しいディープラーニングアーキテクチャ(GeoTRNet)を提案する。
論文 参考訳(メタデータ) (2023-02-08T04:19:24Z) - Synthetic Model Combination: An Instance-wise Approach to Unsupervised
Ensemble Learning [92.89846887298852]
ラベル付きデータのトレーニングセットから学ぶ機会のない、新しいテストデータに対する予測を検討する。
専門家モデルのセットと予測へのアクセスと、トレーニングに使用するデータセットに関する制限された情報を提供すること。
論文 参考訳(メタデータ) (2022-10-11T10:20:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。