論文の概要: ACD-CLIP: Decoupling Representation and Dynamic Fusion for Zero-Shot Anomaly Detection
- arxiv url: http://arxiv.org/abs/2508.07819v4
- Date: Mon, 01 Sep 2025 10:06:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-03 14:24:52.601131
- Title: ACD-CLIP: Decoupling Representation and Dynamic Fusion for Zero-Shot Anomaly Detection
- Title(参考訳): ACD-CLIP:ゼロショット異常検出のためのデカップリング表現と動的融合
- Authors: Ke Ma, Jun Long, Hongxiao Fei, Liujie Hua, Yiran Qian, Zhen Dai, Yueyi Luo,
- Abstract要約: ゼロショット異常検出(ZSAD)によるVLMの事前訓練
それらは密度予測に必要な局所帰納バイアスを欠き、非フレキシブルな特徴融合パラダイムを採用している。
これらの制限には、特徴表現とクロスモーダルな融合を共同で洗練するアーキテクチャ共同設計フレームワークを通じて対処する。
- 参考スコア(独自算出の注目度): 20.252679758126586
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained Vision-Language Models (VLMs) struggle with Zero-Shot Anomaly Detection (ZSAD) due to a critical adaptation gap: they lack the local inductive biases required for dense prediction and employ inflexible feature fusion paradigms. We address these limitations through an Architectural Co-Design framework that jointly refines feature representation and cross-modal fusion. Our method proposes a parameter-efficient Convolutional Low-Rank Adaptation (Conv-LoRA) adapter to inject local inductive biases for fine-grained representation, and introduces a Dynamic Fusion Gateway (DFG) that leverages visual context to adaptively modulate text prompts, enabling a powerful bidirectional fusion. Extensive experiments on diverse industrial and medical benchmarks demonstrate superior accuracy and robustness, validating that this synergistic co-design is critical for robustly adapting foundation models to dense perception tasks.
- Abstract(参考訳): 事前訓練されたビジョン・ランゲージモデル(VLM)は、ゼロショット異常検出(ZSAD)に致命的な適応ギャップがあるため、密集予測に必要な局所的な帰納バイアスを欠き、非フレキシブルな特徴融合パラダイムを採用する。
これらの制限には、特徴表現とクロスモーダルな融合を共同で洗練するアーキテクチャ共同設計フレームワークを通じて対処する。
パラメータ効率のよい畳み込み型低ランク適応(Conv-LoRA)アダプタを提案するとともに,テキストプロンプトを適応的に調整する動的融合ゲートウェイ(DFG)を導入し,強力な双方向融合を実現する。
多様な産業と医療のベンチマークに関する大規模な実験は、精度と堅牢性に優れており、この相乗的共設計が基礎モデルを密接な知覚タスクに頑健に適応するために重要であることを証明している。
関連論文リスト
- Unleashing Vision Foundation Models for Coronary Artery Segmentation: Parallel ViT-CNN Encoding and Variational Fusion [12.839049648094893]
冠動脈セグメンテーションは冠動脈疾患(CAD)のコンピュータ診断に重要である
並列符号化アーキテクチャを用いて,視覚基盤モデル(VFM)のパワーを利用する新しいフレームワークを提案する。
提案手法は, 精度の高い冠動脈セグメンテーションにおいて, 最先端の手法よりも優れ, 優れた性能を発揮する。
論文 参考訳(メタデータ) (2025-07-17T09:25:00Z) - Learning Robust Stereo Matching in the Wild with Selective Mixture-of-Experts [29.52183168979229]
SMoEStereoは,Low-Rank Adaptation (LoRA) とMixture-of-Experts (MoE) モジュールの融合により,VFMをステレオマッチングに適用する新しいフレームワークである。
提案手法は,データセット固有の適応を伴わない複数のベンチマークに対して,最先端のクロスドメインと共同一般化を示す。
論文 参考訳(メタデータ) (2025-07-07T03:19:04Z) - Escaping Plato's Cave: JAM for Aligning Independently Trained Vision and Language Models [29.59537209390697]
単一モードモデルの潜在表現に対して、モダリティ固有のオートエンコーダを訓練するフレームワークを導入する。
類推により、このフレームワークはプラトンの洞窟から逃れる方法として機能し、結合しない入力から共有構造の出現を可能にする。
論文 参考訳(メタデータ) (2025-07-01T21:43:50Z) - High-Fidelity Scientific Simulation Surrogates via Adaptive Implicit Neural Representations [35.71656738800783]
入射神経表現(INR)は空間的に構造化されたデータをモデリングするためのコンパクトで連続的なフレームワークを提供する。
近年のアプローチでは、剛性幾何学的構造に沿った付加的な特徴を導入することでこの問題に対処している。
機能適応型INR(FA-INR)を提案する。
論文 参考訳(メタデータ) (2025-06-07T16:45:17Z) - AuxDet: Auxiliary Metadata Matters for Omni-Domain Infrared Small Target Detection [58.67129770371016]
シーン認識最適化のためのテキストメタデータを組み込むことにより、IRSTDパラダイムを再定義する新しいIRSTDフレームワークを提案する。
AuxDetは最先端の手法を一貫して上回り、堅牢性と正確性を改善する上で補助情報の重要な役割を検証している。
論文 参考訳(メタデータ) (2025-05-21T07:02:05Z) - Modality Prompts for Arbitrary Modality Salient Object Detection [57.610000247519196]
本論文は、任意のモーダリティ・サリエント物体検出(AM SOD)の課題について述べる。
任意のモダリティ、例えばRGBイメージ、RGB-Dイメージ、RGB-D-Tイメージから有能なオブジェクトを検出することを目的としている。
AM SODの2つの基本的な課題を解明するために,新しいモード適応トランス (MAT) を提案する。
論文 参考訳(メタデータ) (2024-05-06T11:02:02Z) - S^2Former-OR: Single-Stage Bi-Modal Transformer for Scene Graph Generation in OR [50.435592120607815]
外科手術のシーングラフ生成(SGG)は、手術室(OR)におけるホモロジー認知知能の増強に不可欠である
これまでの研究は主に多段階学習に依存しており、生成したセマンティックシーングラフはポーズ推定とオブジェクト検出を伴う中間プロセスに依存している。
本研究では,S2Former-OR(S2Former-OR)と呼ばれるORにおけるSGGのための新しいシングルステージバイモーダルトランスフォーマフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-22T11:40:49Z) - Forgery-aware Adaptive Transformer for Generalizable Synthetic Image
Detection [106.39544368711427]
本研究では,様々な生成手法から偽画像を検出することを目的とした,一般化可能な合成画像検出の課題について検討する。
本稿では,FatFormerという新しいフォージェリー適応トランスフォーマー手法を提案する。
提案手法は, 平均98%の精度でGANを観測し, 95%の精度で拡散モデルを解析した。
論文 参考訳(メタデータ) (2023-12-27T17:36:32Z) - DepthFormer: Exploiting Long-Range Correlation and Local Information for
Accurate Monocular Depth Estimation [50.08080424613603]
高精度な単分子深度推定には長距離相関が不可欠である。
我々は,このグローバルコンテキストを効果的な注意機構でモデル化するためにTransformerを活用することを提案する。
提案したモデルであるDepthFormerは、最先端のモノクル深度推定手法をはるかに超えている。
論文 参考訳(メタデータ) (2022-03-27T05:03:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。