Fugu-MT 論文翻訳(概要): Patch-aware Vector Quantized Codebook Learning for Unsupervised Visual Defect Detection

論文の概要: Patch-aware Vector Quantized Codebook Learning for Unsupervised Visual Defect Detection

arxiv url: http://arxiv.org/abs/2501.09187v1
Date: Wed, 15 Jan 2025 22:26:26 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-17 16:36:32.100206
Title: Patch-aware Vector Quantized Codebook Learning for Unsupervised Visual Defect Detection
Title（参考訳）: 教師なし視覚欠陥検出のためのパッチ対応ベクトル量子コードブック学習
Authors: Qisen Cheng, Shuhui Qu, Janghwan Lee,
Abstract要約: 産業応用においては、教師なしの視覚欠陥検出が重要である。教師なし欠陥検出に最適化された拡張VQ-VAEフレームワークを用いた新しい手法を提案する。
参考スコア（独自算出の注目度）: 4.081433571732692
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Unsupervised visual defect detection is critical in industrial applications, requiring a representation space that captures normal data features while detecting deviations. Achieving a balance between expressiveness and compactness is challenging; an overly expressive space risks inefficiency and mode collapse, impairing detection accuracy. We propose a novel approach using an enhanced VQ-VAE framework optimized for unsupervised defect detection. Our model introduces a patch-aware dynamic code assignment scheme, enabling context-sensitive code allocation to optimize spatial representation. This strategy enhances normal-defect distinction and improves detection accuracy during inference. Experiments on MVTecAD, BTAD, and MTSD datasets show our method achieves state-of-the-art performance.
Abstract（参考訳）: 産業アプリケーションでは、教師なしの視覚欠陥検出が重要であり、偏差を検出しながら正常なデータ特徴をキャプチャする表現空間が必要である。表現力とコンパクトさのバランスをとることは困難であり、過度に表現力のある空間は非効率性とモード崩壊を生じさせ、検出精度を損なう。教師なし欠陥検出に最適化された拡張VQ-VAEフレームワークを用いた新しい手法を提案する。本モデルでは,空間表現を最適化するコンテキスト依存型コードアロケーションを実現するパッチ対応動的コードアロケーション方式を提案する。この戦略は、正常な欠陥の区別を高め、推論中の検出精度を向上させる。 MVTecAD, BTAD, MTSDデータセットを用いた実験により, 本手法が最先端性能を実現することを示す。

関連論文リスト

PromptMAD: Cross-Modal Prompting for Multi-Class Visual Anomaly Localization [9.018570847586878]
本稿では,教師なし視覚異常検出と局所化のためのクロスモーダルプロンプトフレームワークPromptMADを提案する。本手法は,意味的コンテキストによる視覚的再構成を強化し,微妙・テクスチュラルな異常の検出を改善する。我々のアーキテクチャには、マルチスケールの畳み込み機能とトランスフォーマーに基づく空間的注意を融合させる教師付きセグメンタも含まれている。
論文参考訳（メタデータ） (2026-01-30T03:04:06Z)
Defect-aware Hybrid Prompt Optimization via Progressive Tuning for Zero-Shot Multi-type Anomaly Detection and Segmentation [12.030059666003972]
分散シフト下でのゼロショット多重型およびバイナリ異常検出とセグメンテーションのプログレッシブチューニングに基づく,Defect-aware Prompt Optimizationのための新しいアプローチであるDAPOを紹介する。本手法は,固定されたテキストアンカーと学習可能なトークン埋め込みの両方で,ハイブリッドな欠陥認識プロンプトを学習することにより,異常関連画像特徴と対応するテキストセマンティクスを一致させる。
論文参考訳（メタデータ） (2025-12-10T09:19:17Z)
Rethinking Contrastive Learning in Graph Anomaly Detection: A Clean-View Perspective [54.605073936695575]
グラフ異常検出は、Webセキュリティやファイナンシャル不正検出などの分野で広く応用されているグラフベースのデータにおいて、異常なパターンを特定することを目的としている。既存の手法は対照的な学習に依存しており、ノードとその局所部分グラフの間のより低い類似性は異常を示すと仮定する。干渉エッジの存在は、対照的な学習過程を損なう破壊的なノイズをもたらすため、この仮定を無効にする。コントラスト学習プロセスにおいて重要な干渉源を特定するために,複数スケールの異常認識モジュールを含むクリーンビュー拡張グラフ異常検出フレームワーク(CVGAD)を提案する。
論文参考訳（メタデータ） (2025-05-23T15:05:56Z)
Crane: Context-Guided Prompt Learning and Attention Refinement for Zero-Shot Anomaly Detections [50.343419243749054]
異常検出(AD)は、通常のデータ分布から逸脱を識別する。本稿では,視覚エンコーダから抽出した画像コンテキストに基づいて,テキストエンコーダのプロンプトを条件付ける手法を提案する。提案手法は,14のデータセットにおいて,各メトリクスに対して2%から29%の性能向上を実現している。
論文参考訳（メタデータ） (2025-04-15T10:42:25Z)
Understanding and Improving Training-Free AI-Generated Image Detections with Vision Foundation Models [68.90917438865078]
顔合成と編集のためのディープフェイク技術は、生成モデルに重大なリスクをもたらす。本稿では,モデルバックボーン,タイプ,データセット間で検出性能がどう変化するかを検討する。本稿では、顔画像のパフォーマンスを向上させるContrastive Blurと、ノイズタイプのバイアスに対処し、ドメイン間のパフォーマンスのバランスをとるMINDERを紹介する。
論文参考訳（メタデータ） (2024-11-28T13:04:45Z)
Feature Attenuation of Defective Representation Can Resolve Incomplete Masking on Anomaly Detection [1.0358639819750703]
教師なし異常検出(UAD)研究では、計算効率が高くスケーラブルなソリューションを開発する必要がある。再建・塗り替えのアプローチを再考し、強みと弱みを分析して改善する。異常再構成の特徴情報を減衰させる2つの層のみを用いるFADeR(Feature Attenuation of Defective Representation)を提案する。
論文参考訳（メタデータ） (2024-07-05T15:44:53Z)
SCL-VI: Self-supervised Context Learning for Visual Inspection of Industrial Defects [4.487908181569429]
本稿では,有名なジグソーパズルに取り組むことで,最適なエンコーダを導出する自己教師型学習アルゴリズムを提案する。提案手法では, 対象画像を9つのパッチに分割し, エンコーダに2つのパッチ間の相対的な位置関係を予測して, リッチなセマンティクスを抽出する。
論文参考訳（メタデータ） (2023-11-11T08:01:40Z)
Global Context Aggregation Network for Lightweight Saliency Detection of Surface Defects [70.48554424894728]
我々は,エンコーダ・デコーダ構造上の表面欠陥を簡易に検出するためのGCANet(Global Context Aggregation Network)を開発した。まず、軽量バックボーンの上部層に新しいトランスフォーマーエンコーダを導入し、DSA(Depth-wise Self-Attention)モジュールを通じてグローバルなコンテキスト情報をキャプチャする。 3つの公開欠陥データセットの実験結果から,提案したネットワークは,他の17の最先端手法と比較して,精度と実行効率のトレードオフを良好に達成できることが示された。
論文参考訳（メタデータ） (2023-09-22T06:19:11Z)
Small Object Detection via Coarse-to-fine Proposal Generation and Imitation Learning [52.06176253457522]
本稿では,粗粒度パイプラインと特徴模倣学習に基づく小型物体検出に適した2段階フレームワークを提案する。 CFINetは、大規模な小さなオブジェクト検出ベンチマークであるSODA-DとSODA-Aで最先端の性能を達成する。
論文参考訳（メタデータ） (2023-08-18T13:13:09Z)
Learning Prompt-Enhanced Context Features for Weakly-Supervised Video Anomaly Detection [37.99031842449251]
弱い監督下での映像異常検出は重大な課題を呈する。本稿では,効率的なコンテキストモデリングとセマンティック識別性の向上に焦点をあてた,弱教師付き異常検出フレームワークを提案する。提案手法は,特定の異常なサブクラスの検出精度を大幅に向上させ,その実用的価値と有効性を裏付けるものである。
論文参考訳（メタデータ） (2023-06-26T06:45:16Z)
Adapting the Hypersphere Loss Function from Anomaly Detection to Anomaly Segmentation [1.9458156037869137]
完全畳み込みデータ記述(FCDD)の漸進的改善を提案する。 FCDDは、異常検出から画像異常セグメンテーション(すなわち異常局在)への一級分類アプローチの適応である我々は、元の損失関数を解析し、前任のハイパースフィア(HSC)によく似た代替関数を提案する。
論文参考訳（メタデータ） (2023-01-23T18:06:35Z)
Self-Supervised Training with Autoencoders for Visual Anomaly Detection [61.62861063776813]
我々は, 正規サンプルの分布を低次元多様体で支持する異常検出において, 特定のユースケースに焦点を当てた。我々は、訓練中に識別情報を活用する自己指導型学習体制に適応するが、通常の例のサブ多様体に焦点をあてる。製造領域における視覚異常検出のための挑戦的なベンチマークであるMVTec ADデータセットで、最先端の新たな結果を達成する。
論文参考訳（メタデータ） (2022-06-23T14:16:30Z)
Dense Label Encoding for Boundary Discontinuity Free Rotation Detection [69.75559390700887]
本稿では,分類に基づく比較的研究の少ない方法論について検討する。我々は2つの側面でフロンティアを推し進めるための新しい手法を提案する。航空画像のための大規模公開データセットの実験と視覚解析は,我々のアプローチの有効性を示している。
論文参考訳（メタデータ） (2020-11-19T05:42:02Z)
Robust Unsupervised Video Anomaly Detection by Multi-Path Frame Prediction [61.17654438176999]
本稿では,フレーム予測と適切な設計による新規で頑健な非教師付きビデオ異常検出手法を提案する。提案手法は,CUHK Avenueデータセット上で88.3%のフレームレベルAUROCスコアを得る。
論文参考訳（メタデータ） (2020-11-05T11:34:12Z)
CRAUM-Net: Contextual Recursive Attention with Uncertainty Modeling for Salient Object Detection [0.0]
マルチスケールのコンテキストアグリゲーション、高度な注意機構、SOD性能向上のための不確実性認識モジュールを統合した新しいフレームワークを提案する。我々の適応的クロススケールコンテキストモジュールは、再帰的チャネル空間的注意と畳み込みブロック注意を利用して、機能を複数のレベルから効果的に融合する。ネットワークを堅牢にトレーニングするために,境界感応性とトポロジカル保存損失関数(Boundary IoU,Focal Tversky,Topological Saliency Los)を組み合わせて,ネットワークの信頼性を高める。
論文参考訳（メタデータ） (2020-06-04T18:33:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。