論文の概要: Are Foundation Models Ready for Industrial Defect Recognition? A Reality Check on Real-World Data
- arxiv url: http://arxiv.org/abs/2509.20479v1
- Date: Wed, 24 Sep 2025 18:46:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.543843
- Title: Are Foundation Models Ready for Industrial Defect Recognition? A Reality Check on Real-World Data
- Title(参考訳): ファウンデーションモデルは産業的欠陥認識の準備が整っているか? : 実世界データによる現実的検証
- Authors: Simon Baeuerle, Pratik Khanna, Nils Friederich, Angelo Jovin Yamachui Sitcheu, Damir Shakirov, Andreas Steimer, Ralf Mikut,
- Abstract要約: ファンデーションモデル(FM)は、様々なテキストおよび画像処理タスクにおいて印象的なパフォーマンスを示している。
ゼロショット設定でドメインやデータセットをまたいで一般化することができる。
退屈なラベリングタスクを単純なテキストプロンプトに置き換えて、異常を記述することで、モデルの設定と実装においてかなりの労力を節約できる。
- 参考スコア(独自算出の注目度): 1.2197883665266451
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Foundation Models (FMs) have shown impressive performance on various text and image processing tasks. They can generalize across domains and datasets in a zero-shot setting. This could make them suitable for automated quality inspection during series manufacturing, where various types of images are being evaluated for many different products. Replacing tedious labeling tasks with a simple text prompt to describe anomalies and utilizing the same models across many products would save significant efforts during model setup and implementation. This is a strong advantage over supervised Artificial Intelligence (AI) models, which are trained for individual applications and require labeled training data. We test multiple recent FMs on both custom real-world industrial image data and public image data. We show that all of those models fail on our real-world data, while the very same models perform well on public benchmark datasets.
- Abstract(参考訳): ファンデーションモデル(FM)は、様々なテキストおよび画像処理タスクにおいて印象的なパフォーマンスを示している。
ゼロショット設定でドメインやデータセットをまたいで一般化することができる。
これにより、さまざまな種類の画像がさまざまな製品に対して評価されているシリーズ製造において、自動品質検査に適合する可能性がある。
面倒なラベリングタスクを単純なテキストプロンプトで置き換えて、異常を記述し、多くの製品で同じモデルを利用すれば、モデルのセットアップや実装においてかなりの労力を節約できる。
これは、個々のアプリケーションのためにトレーニングされ、ラベル付きトレーニングデータを必要とする、教師付き人工知能(AI)モデルよりも強力なアドバンテージである。
実世界の産業画像データと公共画像データの両方で、最近のFMを複数テストする。
これらのモデルがすべて実世界のデータでフェールするのに対して、同じモデルが公開ベンチマークデータセットでうまく機能していることが示されています。
関連論文リスト
- Learning an Image Editing Model without Image Editing Pairs [83.03646586929638]
最近の画像編集モデルは、自然言語編集の指示に従いながら印象的な成果を上げている。
それらは、インプットとターゲットのペアの大きなデータセットによる教師付き微調整に依存している。
現在の回避策は、既存のモデルのゼロショット機能を利用する合成トレーニングペアを使用する。
ペア化されたデータを完全に不要にする新たなトレーニングパラダイムを提案する。
論文 参考訳(メタデータ) (2025-10-16T17:59:57Z) - Regularized Training with Generated Datasets for Name-Only Transfer of Vision-Language Models [36.59260354292177]
近年のテキスト・画像生成の進歩により、研究者は生成モデルを用いて知覚モデルに適したデータセットを生成するようになった。
我々は、実際の画像にアクセスせずに、視覚言語モデルを特定の分類モデルに微調整することを目指している。
生成した画像の忠実度が高いにもかかわらず、生成したデータセットを用いてモデルを微調整すると、顕著な性能劣化が観測された。
論文 参考訳(メタデータ) (2024-06-08T10:43:49Z) - Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - Learning Defect Prediction from Unrealistic Data [57.53586547895278]
事前訓練されたコードのモデルは、コード理解と生成タスクに人気がある。
このようなモデルは大きい傾向があり、訓練データの総量を必要とする。
人工的に注入されたバグのある関数など、はるかに大きくてもより現実的なデータセットを持つモデルをトレーニングすることが一般的になった。
このようなデータで訓練されたモデルは、実際のプログラムでは性能が劣りながら、同様のデータでのみうまく機能する傾向にある。
論文 参考訳(メタデータ) (2023-11-02T01:51:43Z) - DINOv2: Learning Robust Visual Features without Supervision [75.42921276202522]
この研究は、既存の事前学習手法、特に自己教師付き手法が、多様なソースから十分なキュレートされたデータで訓練すれば、そのような特徴を生み出すことができることを示している。
技術的な貢献の多くは、大規模なトレーニングを加速し、安定化することを目的としています。
データの観点からは、自己組織化されていないデータではなく、専用で多様でキュレートされた画像データセットを構築するための自動パイプラインを提案する。
論文 参考訳(メタデータ) (2023-04-14T15:12:19Z) - Geometric Perception based Efficient Text Recognition [0.0]
固定されたカメラ位置を持つ現実世界のアプリケーションでは、基礎となるデータは通常のシーンテキストであることが多い。
本稿では, 基礎となる概念, 理論, 実装, 実験結果を紹介する。
本稿では,現在ある幾何学的特徴のみを用いて,通常のシーン画像中の数字を識別するように訓練された新しいディープラーニングアーキテクチャ(GeoTRNet)を提案する。
論文 参考訳(メタデータ) (2023-02-08T04:19:24Z) - Is synthetic data from generative models ready for image recognition? [69.42645602062024]
本研究では,最新のテキスト・画像生成モデルから生成した合成画像が,画像認識タスクにどのように利用できるかを検討した。
本稿では,既存の生成モデルからの合成データの強大さと欠点を示し,認識タスクに合成データを適用するための戦略を提案する。
論文 参考訳(メタデータ) (2022-10-14T06:54:24Z) - Synthetic Model Combination: An Instance-wise Approach to Unsupervised
Ensemble Learning [92.89846887298852]
ラベル付きデータのトレーニングセットから学ぶ機会のない、新しいテストデータに対する予測を検討する。
専門家モデルのセットと予測へのアクセスと、トレーニングに使用するデータセットに関する制限された情報を提供すること。
論文 参考訳(メタデータ) (2022-10-11T10:20:31Z) - Full-Glow: Fully conditional Glow for more realistic image generation [9.30816997952245]
Full-Glowは、新しいストリートシーンの可視的で現実的なイメージを生成するための条件付きGlowアーキテクチャである。
ベンチマーク比較では,事前学習したpspnetのセグメンテーション性能の観点から,最近の研究よりも優れるモデルを示す。
論文 参考訳(メタデータ) (2020-12-10T17:37:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。