論文の概要: Anomaly Detection by Effectively Leveraging Synthetic Images
- arxiv url: http://arxiv.org/abs/2512.23227v1
- Date: Mon, 29 Dec 2025 06:06:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.417789
- Title: Anomaly Detection by Effectively Leveraging Synthetic Images
- Title(参考訳): 合成画像の有効活用による異常検出
- Authors: Sungho Kang, Hyunkyu Park, Yeonho Lee, Hanbyul Lee, Mijoo Jeong, YeongHyeon Park, Injae Lee, Juneho Yi,
- Abstract要約: 異常検出は工業生産において重要な役割を担っている。
実際の欠陥画像が不足しているため、通常の画像のみに依存する教師なしのアプローチが広く研究されている。
本研究では,合成画像を効果的に活用し,異常検出性能を最大化するための戦略に焦点を当てる。
- 参考スコア(独自算出の注目度): 3.9887243611436873
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Anomaly detection plays a vital role in industrial manufacturing. Due to the scarcity of real defect images, unsupervised approaches that rely solely on normal images have been extensively studied. Recently, diffusion-based generative models brought attention to training data synthesis as an alternative solution. In this work, we focus on a strategy to effectively leverage synthetic images to maximize the anomaly detection performance. Previous synthesis strategies are broadly categorized into two groups, presenting a clear trade-off. Rule-based synthesis, such as injecting noise or pasting patches, is cost-effective but often fails to produce realistic defect images. On the other hand, generative model-based synthesis can create high-quality defect images but requires substantial cost. To address this problem, we propose a novel framework that leverages a pre-trained text-guided image-to-image translation model and image retrieval model to efficiently generate synthetic defect images. Specifically, the image retrieval model assesses the similarity of the generated images to real normal images and filters out irrelevant outputs, thereby enhancing the quality and relevance of the generated defect images. To effectively leverage synthetic images, we also introduce a two stage training strategy. In this strategy, the model is first pre-trained on a large volume of images from rule-based synthesis and then fine-tuned on a smaller set of high-quality images. This method significantly reduces the cost for data collection while improving the anomaly detection performance. Experiments on the MVTec AD dataset demonstrate the effectiveness of our approach.
- Abstract(参考訳): 異常検出は工業生産において重要な役割を担っている。
実際の欠陥画像が不足しているため、通常の画像のみに依存する教師なしのアプローチが広く研究されている。
近年、拡散型生成モデルが代替ソリューションとして訓練データ合成に注目されるようになった。
本研究では,合成画像を効果的に活用し,異常検出性能を最大化するための戦略に焦点を当てる。
従来の合成戦略は2つのグループに大別され、明確なトレードオフが示される。
ノイズ注入やペーストパッチなどのルールベースの合成はコスト効率が良いが、現実的な欠陥画像の生成に失敗することが多い。
一方、生成モデルに基づく合成は高品質な欠陥画像を生成することができるが、かなりのコストがかかる。
この問題に対処するために,事前学習したテキスト誘導画像変換モデルと画像検索モデルを利用して,合成欠陥画像の効率よく生成する新しいフレームワークを提案する。
具体的には、画像検索モデルは、生成した画像と実際の通常の画像との類似性を評価し、無関係な出力をフィルタリングし、生成した欠陥画像の品質と関連性を高める。
また,合成画像を効果的に活用するために,2段階のトレーニング戦略を導入する。
この戦略では、まずルールベースの合成から大量の画像に対して事前訓練を行い、その後、より小さな高品質な画像に対して微調整を行う。
この方法は異常検出性能を改善しつつデータ収集のコストを大幅に削減する。
MVTec ADデータセットの実験は、我々のアプローチの有効性を実証している。
関連論文リスト
- DiffDoctor: Diagnosing Image Diffusion Models Before Treating [57.82359018425674]
DiffDoctorは2段階のパイプラインで、画像拡散モデルがより少ないアーティファクトを生成するのを支援する。
我々は100万以上の欠陥のある合成画像のデータセットを収集し、効率的なHuman-in-the-loopアノテーションプロセスを構築した。
次に、学習したアーティファクト検出器が第2段階に関与し、ピクセルレベルのフィードバックを提供することで拡散モデルを最適化する。
論文 参考訳(メタデータ) (2025-01-21T18:56:41Z) - Time Step Generating: A Universal Synthesized Deepfake Image Detector [0.4488895231267077]
汎用合成画像検出器 Time Step Generating (TSG) を提案する。
TSGは、事前訓練されたモデルの再構築能力、特定のデータセット、サンプリングアルゴリズムに依存していない。
我々は,提案したTSGを大規模GenImageベンチマークで検証し,精度と一般化性の両方において大幅な改善を実現した。
論文 参考訳(メタデータ) (2024-11-17T09:39:50Z) - Towards Unsupervised Blind Face Restoration using Diffusion Prior [12.69610609088771]
ブラインド顔復元法は、教師付き学習による大規模合成データセットの訓練において、顕著な性能を示した。
これらのデータセットは、手作りの画像分解パイプラインで、低品質の顔イメージをシミュレートすることによって生成されることが多い。
本稿では, 入力画像の集合のみを用いて, 劣化が不明で, 真理の目標がない場合にのみ, 復元モデルの微調整を行うことにより, この問題に対処する。
我々の最良のモデルは、合成と実世界の両方のデータセットの最先端の結果も達成します。
論文 参考訳(メタデータ) (2024-10-06T20:38:14Z) - FairDiff: Fair Segmentation with Point-Image Diffusion [15.490776421216689]
本研究は,合成画像を統合することで,データ駆動型戦略強化データバランスを採用する。
3つのネットワークを経験的リスクと公平性の目標に向けて最適化する,共同最適化方式で問題を定式化する。
本モデルは,最先端のフェアネス学習モデルと比較して,優れたフェアネスセグメンテーション性能を実現する。
論文 参考訳(メタデータ) (2024-07-08T17:59:58Z) - Data Attribution for Text-to-Image Models by Unlearning Synthesized Images [71.23012718682634]
テキスト・ツー・イメージ・モデルにおけるデータ帰属の目標は、新しい画像の生成に最も影響を与えるトレーニング画像を特定することである。
合成画像の非学習をシミュレートして効率的なデータ帰属法を提案する。
次に,学習過程の終了後に有意な損失偏差を伴う訓練画像を特定し,これらを影響力のあるものとしてラベル付けする。
論文 参考訳(メタデータ) (2024-06-13T17:59:44Z) - Is Synthetic Image Useful for Transfer Learning? An Investigation into Data Generation, Volume, and Utilization [62.157627519792946]
ブリッジドトランスファー(ブリッジドトランスファー)と呼ばれる新しいフレームワークを導入する。このフレームワークは、当初、トレーニング済みモデルの微調整に合成画像を使用し、転送性を向上させる。
合成画像と実画像のスタイルアライメントを改善するために,データセットスタイルの逆変換方式を提案する。
提案手法は10の異なるデータセットと5つの異なるモデルで評価され、一貫した改善が示されている。
論文 参考訳(メタデータ) (2024-03-28T22:25:05Z) - Active Generation for Image Classification [45.93535669217115]
本稿では,モデルのニーズと特徴に着目し,画像生成の効率性に対処することを提案する。
能動学習の中心的傾向として,ActGenという手法が,画像生成のトレーニング・アウェア・アプローチを取り入れている。
論文 参考訳(メタデータ) (2024-03-11T08:45:31Z) - Robustness-Guided Image Synthesis for Data-Free Quantization [15.91924736452861]
合成画像のセマンティクスを強化し,画像の多様性を向上させるために,ロバストネス誘導画像合成(RIS)を提案する。
RISは、合成画像のセマンティクスを強化し、画像の多様性を改善するための、シンプルだが効果的な方法である。
我々は、データフリーな量子化の様々な設定に対して最先端の性能を実現し、他のデータフリーな圧縮タスクにも拡張できる。
論文 参考訳(メタデータ) (2023-10-05T16:39:14Z) - Steered Diffusion: A Generalized Framework for Plug-and-Play Conditional
Image Synthesis [62.07413805483241]
Steered Diffusionは、無条件生成のために訓練された拡散モデルを用いたゼロショット条件画像生成のためのフレームワークである。
塗装,着色,テキスト誘導セマンティック編集,画像超解像などのタスクに対して,ステアリング拡散を用いた実験を行った。
論文 参考訳(メタデータ) (2023-09-30T02:03:22Z) - ExposureDiffusion: Learning to Expose for Low-light Image Enhancement [87.08496758469835]
この研究は、拡散モデルと物理ベースの露光モデルとをシームレスに統合することで、この問題に対処する。
提案手法は,バニラ拡散モデルと比較して性能が大幅に向上し,推論時間を短縮する。
提案するフレームワークは、実際のペア付きデータセット、SOTAノイズモデル、および異なるバックボーンネットワークの両方で動作する。
論文 参考訳(メタデータ) (2023-07-15T04:48:35Z) - Generalizable Synthetic Image Detection via Language-guided Contrastive Learning [22.533225521726116]
偽ニュースの拡散や偽のプロフィールの作成などの合成画像の真偽の使用は、画像の真正性に関する重要な懸念を提起する。
本稿では,言語誘導型コントラスト学習を用いた簡易かつ効果的な合成画像検出手法を提案する。
提案したLanguAge-guided SynThEsis Detection (LASTED) モデルでは,画像生成モデルに対する一般化性が大幅に向上していることが示されている。
論文 参考訳(メタデータ) (2023-05-23T08:13:27Z) - Is synthetic data from generative models ready for image recognition? [69.42645602062024]
本研究では,最新のテキスト・画像生成モデルから生成した合成画像が,画像認識タスクにどのように利用できるかを検討した。
本稿では,既存の生成モデルからの合成データの強大さと欠点を示し,認識タスクに合成データを適用するための戦略を提案する。
論文 参考訳(メタデータ) (2022-10-14T06:54:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。