論文の概要: Quality-Aware Language-Conditioned Local Auto-Regressive Anomaly Synthesis and Detection
- arxiv url: http://arxiv.org/abs/2508.03539v1
- Date: Tue, 05 Aug 2025 15:07:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 18:18:56.035661
- Title: Quality-Aware Language-Conditioned Local Auto-Regressive Anomaly Synthesis and Detection
- Title(参考訳): 品質に配慮した言語による局所的自己回帰的異常合成と検出
- Authors: Long Qian, Bingke Zhu, Yingying Chen, Ming Tang, Jinqiao Wang,
- Abstract要約: ARAS(ARAS)は、言語条件付き自動回帰異常合成手法である。
トークンアンコールによる遅延編集によって、ローカルでテキスト指定の欠陥を通常の画像に注入する。
欠陥リアリズムを著しく強化し、きめ細かい材料テクスチャを保存し、合成された異常に対して連続的な意味制御を提供する。
- 参考スコア(独自算出の注目度): 30.77558600436759
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite substantial progress in anomaly synthesis methods, existing diffusion-based and coarse inpainting pipelines commonly suffer from structural deficiencies such as micro-structural discontinuities, limited semantic controllability, and inefficient generation. To overcome these limitations, we introduce ARAS, a language-conditioned, auto-regressive anomaly synthesis approach that precisely injects local, text-specified defects into normal images via token-anchored latent editing. Leveraging a hard-gated auto-regressive operator and a training-free, context-preserving masked sampling kernel, ARAS significantly enhances defect realism, preserves fine-grained material textures, and provides continuous semantic control over synthesized anomalies. Integrated within our Quality-Aware Re-weighted Anomaly Detection (QARAD) framework, we further propose a dynamic weighting strategy that emphasizes high-quality synthetic samples by computing an image-text similarity score with a dual-encoder model. Extensive experiments across three benchmark datasets-MVTec AD, VisA, and BTAD, demonstrate that our QARAD outperforms SOTA methods in both image- and pixel-level anomaly detection tasks, achieving improved accuracy, robustness, and a 5 times synthesis speedup compared to diffusion-based alternatives. Our complete code and synthesized dataset will be publicly available.
- Abstract(参考訳): 異常合成法の大幅な進歩にもかかわらず、既存の拡散ベースおよび粗い塗装パイプラインは、ミクロ構造の不連続性、限定的な意味制御性、非効率な生成などの構造的欠陥に悩まされる。
これらの制限を克服するために、ARAS(言語条件付き自己回帰型異常合成手法)を導入し、トークンアンコール遅延編集により局所的なテキスト特定された欠陥を正常な画像に正確に注入する。
ハードゲートの自己回帰演算子とトレーニング不要でコンテキスト保存のマスク付きサンプリングカーネルを活用し、ARASは欠陥リアリズムを著しく強化し、きめ細かい材料テクスチャを保存し、合成された異常に対して連続的な意味制御を提供する。
QARAD(Quality-Aware Re-weighted Anomaly Detection)フレームワークに組み込まれ,画像テキスト類似度スコアをデュアルエンコーダモデルで計算することにより,高品質な合成サンプルを強調する動的重み付け戦略を提案する。
3つのベンチマークデータセット(MVTec AD, VisA, BTAD)にわたる大規模な実験により、当社のQARADは、画像レベルの異常検出タスクと画素レベルの異常検出タスクの両方においてSOTAメソッドよりも優れており、精度の向上、堅牢性、拡散ベースの代替よりも5倍の合成スピードアップを実現している。
完全なコードと合成データセットが公開されます。
関連論文リスト
- Generate Aligned Anomaly: Region-Guided Few-Shot Anomaly Image-Mask Pair Synthesis for Industrial Inspection [53.137651284042434]
異常検査は製造業において重要な役割を担っているが、異常サンプルの不足は既存の方法の有効性を制限している。
本稿では,GAA (Generate grained Anomaly) を提案する。
GAAは少数のサンプルのみを用いて現実的で多様で意味的に整合した異常を発生させる。
論文 参考訳(メタデータ) (2025-07-13T12:56:59Z) - MathPhys-Guided Coarse-to-Fine Anomaly Synthesis with SQE-Driven Bi-Level Optimization for Anomaly Detection [30.77558600436759]
本研究では,Math-Physモデル誘導による合成異常を生成する,新しい軽量パイプラインを提案する。
本手法は現実的な欠陥マスクを生成し,その後2段階に拡張した。
本手法を検証するために,MVTec AD, VisA, BTADの3つの異常検出ベンチマーク実験を行った。
論文 参考訳(メタデータ) (2025-04-17T14:22:27Z) - Component-aware Unsupervised Logical Anomaly Generation for Industrial Anomaly Detection [31.27483219228598]
異常検出は、製品の品質を確保し、自動化プロセスの効率を向上させるために、工業生産において重要である。
最近の生成モデルは、しばしば偽陽性を増大させる非現実的な異常を発生させるか、訓練のために現実世界の異常サンプルを必要とする。
本稿では,論理的異常生成のギャップに対処するコンポーネント・アウェアで教師なしのフレームワークであるComGENを提案する。
論文 参考訳(メタデータ) (2025-02-17T11:54:43Z) - Progressive Boundary Guided Anomaly Synthesis for Industrial Anomaly Detection [1.5680795779726031]
教師なし異常検出法は, 通常の試料のみを応用して, 産業画像の表面欠陥を識別することができる。
本稿では, 補助的なテクスチャを伴わずに, 重要な特徴レベルの異常を指向的に合成できる新しいプログレッシブ・バウンダリ誘導型異常合成(PBAS)戦略を提案する。
本手法は,3つの産業用データセットの最先端性能と高速検出速度を実現する。
論文 参考訳(メタデータ) (2024-12-23T10:26:26Z) - Autoregressive Speech Synthesis without Vector Quantization [135.4776759536272]
We present MELLE, a novel continuous-valued token based language modeling approach for text-to-speech synthesis (TTS)。
MELLEはテキスト条件から直接連続メル-スペクトログラムフレームを自動回帰生成する。
MELLEは、サンプリングベクトル量子化符号の固有の欠陥を回避し、ロバスト性問題を緩和する。
論文 参考訳(メタデータ) (2024-07-11T14:36:53Z) - Feature Attenuation of Defective Representation Can Resolve Incomplete Masking on Anomaly Detection [1.0358639819750703]
教師なし異常検出(UAD)研究では、計算効率が高くスケーラブルなソリューションを開発する必要がある。
再建・塗り替えのアプローチを再考し、強みと弱みを分析して改善する。
異常再構成の特徴情報を減衰させる2つの層のみを用いるFADeR(Feature Attenuation of Defective Representation)を提案する。
論文 参考訳(メタデータ) (2024-07-05T15:44:53Z) - RealNet: A Feature Selection Network with Realistic Synthetic Anomaly
for Anomaly Detection [7.626097310990373]
本稿では,リアルな合成異常と適応的な特徴選択を備えた特徴再構成ネットワークであるRealNetを紹介する。
我々は、異常認識特徴選択(AFS)と再構成残像選択(RRS)を開発する。
その結果,現在の最先端手法と比較して,イメージAUROCとPixelAUROCの両面で有意な改善が見られた。
論文 参考訳(メタデータ) (2024-03-09T12:25:01Z) - Video Anomaly Detection via Spatio-Temporal Pseudo-Anomaly Generation : A Unified Approach [49.995833831087175]
本研究は,画像のマスキング領域にペンキを塗布することにより,汎用的な映像時間PAを生成する手法を提案する。
さらに,OCC設定下での現実世界の異常を検出するための単純な統合フレームワークを提案する。
提案手法は,OCC設定下での既存のPAs生成および再構築手法と同等に動作する。
論文 参考訳(メタデータ) (2023-11-27T13:14:06Z) - You Only Train Once: A Unified Framework for Both Full-Reference and No-Reference Image Quality Assessment [45.62136459502005]
本稿では,完全な参照 (FR) と非参照 (NR) IQA を行うネットワークを提案する。
まず、入力画像から多レベル特徴を抽出するためにエンコーダを用いる。
FRおよびNR入力のユニバーサルアダプタとして階層的注意(HA)モジュールを提案する。
エンコーダの浅い層と深い層との間の特徴相関を調べるために, セマンティック・ディストーション・アウェア (SDA) モジュールを提案する。
論文 参考訳(メタデータ) (2023-10-14T11:03:04Z) - A Discrepancy Aware Framework for Robust Anomaly Detection [51.710249807397695]
本稿では,DAF(Disdisrepancy Aware Framework)を提案する。
本手法は,デコーダの欠陥同定に外見に依存しないキューを利用して,その合成外観への依存を緩和する。
単純な合成戦略の下では,既存の手法を大きなマージンで上回り,また,最先端のローカライゼーション性能も達成している。
論文 参考訳(メタデータ) (2023-10-11T15:21:40Z) - Self-Supervised Training with Autoencoders for Visual Anomaly Detection [61.62861063776813]
我々は, 正規サンプルの分布を低次元多様体で支持する異常検出において, 特定のユースケースに焦点を当てた。
我々は、訓練中に識別情報を活用する自己指導型学習体制に適応するが、通常の例のサブ多様体に焦点をあてる。
製造領域における視覚異常検出のための挑戦的なベンチマークであるMVTec ADデータセットで、最先端の新たな結果を達成する。
論文 参考訳(メタデータ) (2022-06-23T14:16:30Z) - Unsupervised Domain Adaptive Salient Object Detection Through
Uncertainty-Aware Pseudo-Label Learning [104.00026716576546]
そこで本研究では,手動のアノテーションを使わずに,自然に高いピクセルラベル品質を有する合成・クリーンなラベルから,サリエンスを学習することを提案する。
提案手法は,複数のベンチマークデータセット上で,既存の最先端の深層教師なしSOD法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-02-26T16:03:55Z) - The KFIoU Loss for Rotated Object Detection [115.334070064346]
本稿では,SkewIoU損失とトレンドレベルアライメントを両立できる近似的損失を考案する上で,有効な方法の1つとして論じる。
具体的には、対象をガウス分布としてモデル化し、SkewIoUのメカニズムを本質的に模倣するためにカルマンフィルタを採用する。
KFIoUと呼ばれる新たな損失は実装が容易で、正確なSkewIoUよりもうまく動作する。
論文 参考訳(メタデータ) (2022-01-29T10:54:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。