論文の概要: Training-Free Anomaly Generation via Dual-Attention Enhancement in Diffusion Model
- arxiv url: http://arxiv.org/abs/2508.11550v1
- Date: Fri, 15 Aug 2025 15:52:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-18 14:51:24.1349
- Title: Training-Free Anomaly Generation via Dual-Attention Enhancement in Diffusion Model
- Title(参考訳): 拡散モデルにおけるデュアルアテンション強化による訓練不要な異常生成
- Authors: Zuo Zuo, Jiahao Dong, Yanyun Qu, Zongze Wu,
- Abstract要約: 異常発生による不十分な異常データに対処する研究が増えている。
本稿では,AAGと呼ばれるトレーニング不要な異常生成フレームワークを提案する。
AAGは、有効な異常画像生成のための安定拡散の強い生成能力に基づいている。
- 参考スコア(独自算出の注目度): 21.461351819711936
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Industrial anomaly detection (AD) plays a significant role in manufacturing where a long-standing challenge is data scarcity. A growing body of works have emerged to address insufficient anomaly data via anomaly generation. However, these anomaly generation methods suffer from lack of fidelity or need to be trained with extra data. To this end, we propose a training-free anomaly generation framework dubbed AAG, which is based on Stable Diffusion (SD)'s strong generation ability for effective anomaly image generation. Given a normal image, mask and a simple text prompt, AAG can generate realistic and natural anomalies in the specific regions and simultaneously keep contents in other regions unchanged. In particular, we propose Cross-Attention Enhancement (CAE) to re-engineer the cross-attention mechanism within Stable Diffusion based on the given mask. CAE increases the similarity between visual tokens in specific regions and text embeddings, which guides these generated visual tokens in accordance with the text description. Besides, generated anomalies need to be more natural and plausible with object in given image. We propose Self-Attention Enhancement (SAE) which improves similarity between each normal visual token and anomaly visual tokens. SAE ensures that generated anomalies are coherent with original pattern. Extensive experiments on MVTec AD and VisA datasets demonstrate effectiveness of AAG in anomaly generation and its utility. Furthermore, anomaly images generated by AAG can bolster performance of various downstream anomaly inspection tasks.
- Abstract(参考訳): 産業異常検出(AD)は、長年の課題がデータ不足である製造において重要な役割を担っている。
異常発生による不十分な異常データに対処する研究が増えている。
しかし、これらの異常発生法は忠実さの欠如に悩まされるか、余分なデータで訓練する必要がある。
そこで本研究では,SD(Stable Diffusion)の強力な画像生成能力に基づく,AAGと呼ばれるトレーニング不要な画像生成フレームワークを提案する。
通常の画像、マスク、簡単なテキストプロンプトが与えられた場合、AAGは特定の領域における現実的で自然な異常を発生させ、同時に他の領域のコンテンツを保持することができる。
特に,安定拡散におけるクロスアテンション機構をマスクに基づいて再設計するためのクロスアテンションエンハンスメント(CAE)を提案する。
CAEは、特定の領域における視覚トークンとテキスト埋め込みの類似性を高め、テキスト記述に従って生成された視覚トークンをガイドする。
さらに、生成された異常は、より自然で、与えられた画像のオブジェクトに対して可視である必要がある。
本稿では,通常の視覚トークンと異常な視覚トークンとの類似性を改善する自己注意強調(SAE)を提案する。
SAEは生成された異常が元のパターンと一致していることを保証する。
MVTec ADとVisAデータセットの大規模な実験は、異常発生におけるAAGの有効性とその有用性を示している。
さらに、AAGによって生成された異常画像は、様々な下流異常検査タスクのパフォーマンスを高めることができる。
関連論文リスト
- Generate Aligned Anomaly: Region-Guided Few-Shot Anomaly Image-Mask Pair Synthesis for Industrial Inspection [53.137651284042434]
異常検査は製造業において重要な役割を担っているが、異常サンプルの不足は既存の方法の有効性を制限している。
本稿では,GAA (Generate grained Anomaly) を提案する。
GAAは少数のサンプルのみを用いて現実的で多様で意味的に整合した異常を発生させる。
論文 参考訳(メタデータ) (2025-07-13T12:56:59Z) - Unseen Visual Anomaly Generation [13.456240733175767]
Anomaly Anything (AnomalyAny) は、多様で現実的な異常を発生させる新しいフレームワークである。
テスト期間中に1つの通常のサンプルを条件付けすることで、AnomalyAnyはテキスト記述を伴う任意のオブジェクトタイプに対して、目に見えない異常を生成することができる。
論文 参考訳(メタデータ) (2024-06-03T07:58:09Z) - AnomalyDiffusion: Few-Shot Anomaly Image Generation with Diffusion Model [59.08735812631131]
製造業において異常検査が重要な役割を担っている。
既存の異常検査手法は、異常データが不足しているため、その性能に制限がある。
本稿では,新しい拡散型マイクロショット異常生成モデルであるAnomalyDiffusionを提案する。
論文 参考訳(メタデータ) (2023-12-10T05:13:40Z) - Prototypical Residual Networks for Anomaly Detection and Localization [80.5730594002466]
本稿では,PRN(Prototypeal Residual Network)というフレームワークを提案する。
PRNは、異常領域の分割マップを正確に再構築するために、異常領域と正常パターンの間の様々なスケールとサイズの特徴的残差を学習する。
異常を拡大・多様化するために,見かけの相違と外観の相違を考慮に入れた様々な異常発生戦略を提示する。
論文 参考訳(メタデータ) (2022-12-05T05:03:46Z) - DVG-Face: Dual Variational Generation for Heterogeneous Face Recognition [85.94331736287765]
我々は、HFRを二重生成問題として定式化し、新しいDual Variational Generation(DVG-Face)フレームワークを用いてそれに取り組む。
大規模可視データの豊富なアイデンティティ情報を結合分布に統合する。
同一の同一性を持つ多種多様な多種多様な画像は、ノイズから生成することができる。
論文 参考訳(メタデータ) (2020-09-20T09:48:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。