論文の概要: HarmoniAD: Harmonizing Local Structures and Global Semantics for Anomaly Detection
- arxiv url: http://arxiv.org/abs/2601.00327v1
- Date: Thu, 01 Jan 2026 12:45:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-05 15:04:33.378614
- Title: HarmoniAD: Harmonizing Local Structures and Global Semantics for Anomaly Detection
- Title(参考訳): HarmoniAD:異常検出のための局所構造とグローバルセマンティクスの調和
- Authors: Naiqi Zhang, Chuancheng Shi, Jingtong Dou, Wenhua Wu, Fei Shen, Jianhua Cao,
- Abstract要約: 工業製品品質検査に欠かせない異常検出
既存の手法は、構造意味論的なトレードオフに直面している。
HarmoniADは周波数誘導型デュアルブランチフレームワークである。
- 参考スコア(独自算出の注目度): 4.679561335065019
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Anomaly detection is crucial in industrial product quality inspection. Failing to detect tiny defects often leads to serious consequences. Existing methods face a structure-semantics trade-off: structure-oriented models (such as frequency-based filters) are noise-sensitive, while semantics-oriented models (such as CLIP-based encoders) often miss fine details. To address this, we propose HarmoniAD, a frequency-guided dual-branch framework. Features are first extracted by the CLIP image encoder, then transformed into the frequency domain, and finally decoupled into high- and low-frequency paths for complementary modeling of structure and semantics. The high-frequency branch is equipped with a fine-grained structural attention module (FSAM) to enhance textures and edges for detecting small anomalies, while the low-frequency branch uses a global structural context module (GSCM) to capture long-range dependencies and preserve semantic consistency. Together, these branches balance fine detail and global semantics. HarmoniAD further adopts a multi-class joint training strategy, and experiments on MVTec-AD, VisA, and BTAD show state-of-the-art performance with both sensitivity and robustness.
- Abstract(参考訳): 工業製品の品質検査には異常検出が不可欠である。
小さな欠陥を検知できないことは、しばしば深刻な結果をもたらす。
構造指向モデル(周波数ベースのフィルタなど)はノイズに敏感であり、セマンティックス指向モデル(CLIPベースのエンコーダなど)は詳細を見逃すことが多い。
これを解決するために、周波数誘導型デュアルブランチフレームワークであるHarmoniADを提案する。
特徴はまずCLIPイメージエンコーダによって抽出され、その後周波数領域に変換され、最後に構造と意味論の相補的モデリングのために、高周波と低周波の経路に分離される。
高周波ブランチは、小さな異常を検出するためのテクスチャとエッジを強化するためのきめ細かい構造的注意モジュール(FSAM)を備え、低周波ブランチは、大域的構造的コンテキストモジュール(GSCM)を使用して、長距離依存関係をキャプチャし、セマンティック一貫性を維持する。
これらのブランチは、詳細とグローバルなセマンティクスのバランスをとる。
HarmoniADはさらに、マルチクラスの共同トレーニング戦略を採用し、MVTec-AD、VisA、BTADの実験では、感度と堅牢性の両方で最先端のパフォーマンスを示している。
関連論文リスト
- Explainable Transformer-CNN Fusion for Noise-Robust Speech Emotion Recognition [2.0391237204597363]
音声感情認識システムは、予測不能な音響干渉にさらされると、しばしば性能が低下する。
本稿では,Wav2Vec 2.0のコンテキストモデリングと1次元畳み込みニューラルネットワークのスペクトル安定性を融合したHybrid Transformer-CNNフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-20T10:05:58Z) - 3-Tracer: A Tri-level Temporal-Aware Framework for Audio Forgery Detection and Localization [15.253944377996477]
T3-Tracerは、フレーム、セグメント、オーディオレベルのオーディオを共同で分析して、フォージェリトレースを包括的に検出するフレームワークである。
FA-FAMは,フレームレベルの時間的情報と音声レベルの時間的情報を組み合わせて,フレーム内のフォージェリーキューとグローバルな意味的不整合を検出する。
フレームの特徴とフレーム間の差異を多スケールの時間的ウィンドウ間で共同でモデル化するデュアルブランチアーキテクチャを採用し、鍛造されたバウンダリに現れる突然の異常を効果的に識別する。
論文 参考訳(メタデータ) (2025-11-26T10:07:03Z) - WaveSeg: Enhancing Segmentation Precision via High-Frequency Prior and Mamba-Driven Spectrum Decomposition [61.3530659856013]
本稿では,空間およびウェーブレット領域の機能改善を共同で最適化する新しいデコーダアーキテクチャであるWaveSegを提案する。
高周波成分は、まず入力画像から、境界の詳細を強化するために明示的な先行として学習される。
標準ベンチマークの実験では、Mambaベースの注目に先立ってウェーブレット-ドメイン周波数を利用するWaveSegが、常に最先端のアプローチより優れていることが示されている。
論文 参考訳(メタデータ) (2025-10-24T01:41:31Z) - Frequency-Domain Decomposition and Recomposition for Robust Audio-Visual Segmentation [60.9960601057956]
本稿では2つの主要なモジュールからなる周波数対応オーディオ・ビジュアルコンポスタ(FAVS)フレームワークを紹介する。
FAVSフレームワークは、3つのベンチマークデータセットで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-09-23T12:33:48Z) - Wavelet-Guided Dual-Frequency Encoding for Remote Sensing Change Detection [67.84730634802204]
リモートセンシング画像の変化検出は,自然災害監視,都市拡張追跡,インフラ管理など,さまざまな工学的応用において重要な役割を担っている。
既存のほとんどの手法は空間領域モデリングに依存しており、特徴表現の限られた多様性は微妙な変化領域の検出を妨げる。
本研究では、特にウェーブレット領域における周波数領域の特徴モデリングが周波数成分の微細な違いを増幅し、空間領域において捉えにくいエッジ変化の知覚を高めることを観察する。
論文 参考訳(メタデータ) (2025-08-07T11:14:16Z) - Dual Semantic-Aware Network for Noise Suppressed Ultrasound Video Segmentation [21.117226880898418]
超音波ビデオセグメンテーションにおける雑音の頑健性を高めるための新しいフレームワークを提案する。
Dual Semantic-Aware Network (DSANet)は、局所的特徴とグローバル的特徴の相互意味認識を促進する。
我々のモデルは画素レベルの特徴依存を回避し、ビデオベース手法よりもはるかに高い推論FPSを実現し、画像ベースモデルを超えている。
論文 参考訳(メタデータ) (2025-07-10T05:41:17Z) - A Noise-Resilient Semi-Supervised Graph Autoencoder for Overlapping Semantic Community Detection [0.0]
重なり合う構造を持つネットワークにおけるコミュニティ検出は依然として重要な課題である。
重なり合うコミュニティを頑健に検出するために,グラフの多面的注意とモジュール性を組み合わせた半教師付きグラフオートエンコーダを提案する。
主なイノベーションは、耐雑音性アーキテクチャと、コミュニティの品質に最適化されたセマンティックな半教師付き設計である。
論文 参考訳(メタデータ) (2025-05-09T11:34:07Z) - FreSca: Scaling in Frequency Space Enhances Diffusion Models [55.75504192166779]
本稿では,潜時拡散モデルにおける周波数制御について検討する。
本稿では,低周波成分と高周波成分にノイズ差を分解する新しいフレームワークFreScaを紹介する。
FreScaはモデルの再トレーニングやアーキテクチャの変更なしに動作し、モデルとタスクに依存しない制御を提供する。
論文 参考訳(メタデータ) (2025-04-02T22:03:11Z) - DA-Flow: Dual Attention Normalizing Flow for Skeleton-based Video Anomaly Detection [52.74152717667157]
本稿では,DAM(Dual Attention Module)と呼ばれる軽量モジュールを提案する。
フレームアテンション機構を使用して、最も重要なフレームを識別し、スケルトンアテンション機構を使用して、最小パラメータとフロップで固定されたパーティション間の広範な関係をキャプチャする。
論文 参考訳(メタデータ) (2024-06-05T06:18:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。