論文の概要: Architectural Co-Design for Zero-Shot Anomaly Detection: Decoupling Representation and Dynamically Fusing Features in CLIP
- arxiv url: http://arxiv.org/abs/2508.07819v1
- Date: Mon, 11 Aug 2025 10:03:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:29.040861
- Title: Architectural Co-Design for Zero-Shot Anomaly Detection: Decoupling Representation and Dynamically Fusing Features in CLIP
- Title(参考訳): ゼロショット異常検出のためのアーキテクチャ共設計:CLIPにおける表現の分離と動的融合
- Authors: Ke Ma, Jun Long, Hongxiao Fei, Liujie Hua, Yueyi Luo,
- Abstract要約: Zero-Shot Anomaly Detection (ZSAD) に適用した場合、VLM(Pre-trained Vision-Language Models) は重要な適応ギャップに直面している。
これらの制限には、特徴表現とクロスモーダルな融合を共同で洗練するアーキテクチャ共同設計フレームワークを通じて対処する。
提案手法はパラメータ効率のよいConv-LoRAアダプタを統合し,局所帰納バイアスを微細な表現に注入し,動的フュージョンゲートウェイ(DFG)を導入する。
多様な産業・医療ベンチマークの実験では、精度と堅牢性が向上し、この相乗的共設計が基礎モデルを密接な知覚タスクに頑健に適応させる上で重要であることを証明している。
- 参考スコア(独自算出の注目度): 10.311892788311733
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained Vision-Language Models (VLMs) face a significant adaptation gap when applied to Zero-Shot Anomaly Detection (ZSAD), stemming from their lack of local inductive biases for dense prediction and their reliance on inflexible feature fusion paradigms. We address these limitations through an Architectural Co-Design framework that jointly refines feature representation and cross-modal fusion. Our method integrates a parameter-efficient Convolutional Low-Rank Adaptation (Conv-LoRA) adapter to inject local inductive biases for fine-grained representation, and introduces a Dynamic Fusion Gateway (DFG) that leverages visual context to adaptively modulate text prompts, enabling a powerful bidirectional fusion. Extensive experiments on diverse industrial and medical benchmarks demonstrate superior accuracy and robustness, validating that this synergistic co-design is critical for robustly adapting foundation models to dense perception tasks.
- Abstract(参考訳): ゼロショット異常検出(ZSAD)に適用した場合、事前学習された視覚言語モデル(VLM)は、密集予測のための局所誘導バイアスの欠如と、非フレキシブルな特徴融合パラダイムへの依存から、大きな適応ギャップに直面している。
これらの制限には、特徴表現とクロスモーダルな融合を共同で洗練するアーキテクチャ共同設計フレームワークを通じて対処する。
提案手法は,パラメータ効率のよい畳み込み低ランク適応(Conv-LoRA)アダプタを統合し,局所帰納バイアスを微粒化表現に注入し,動的融合ゲートウェイ(DFG)を導入し,テキストプロンプトを適応的に調整し,強力な双方向融合を実現する。
多様な産業と医療のベンチマークに関する大規模な実験は、精度と堅牢性に優れており、この相乗的共設計が基礎モデルを密接な知覚タスクに頑健に適応するために重要であることを証明している。
関連論文リスト
- Unleashing Vision Foundation Models for Coronary Artery Segmentation: Parallel ViT-CNN Encoding and Variational Fusion [12.839049648094893]
冠動脈セグメンテーションは冠動脈疾患(CAD)のコンピュータ診断に重要である
並列符号化アーキテクチャを用いて,視覚基盤モデル(VFM)のパワーを利用する新しいフレームワークを提案する。
提案手法は, 精度の高い冠動脈セグメンテーションにおいて, 最先端の手法よりも優れ, 優れた性能を発揮する。
論文 参考訳(メタデータ) (2025-07-17T09:25:00Z) - Learning Robust Stereo Matching in the Wild with Selective Mixture-of-Experts [29.52183168979229]
SMoEStereoは,Low-Rank Adaptation (LoRA) とMixture-of-Experts (MoE) モジュールの融合により,VFMをステレオマッチングに適用する新しいフレームワークである。
提案手法は,データセット固有の適応を伴わない複数のベンチマークに対して,最先端のクロスドメインと共同一般化を示す。
論文 参考訳(メタデータ) (2025-07-07T03:19:04Z) - Escaping Plato's Cave: JAM for Aligning Independently Trained Vision and Language Models [29.59537209390697]
単一モードモデルの潜在表現に対して、モダリティ固有のオートエンコーダを訓練するフレームワークを導入する。
類推により、このフレームワークはプラトンの洞窟から逃れる方法として機能し、結合しない入力から共有構造の出現を可能にする。
論文 参考訳(メタデータ) (2025-07-01T21:43:50Z) - High-Fidelity Scientific Simulation Surrogates via Adaptive Implicit Neural Representations [35.71656738800783]
入射神経表現(INR)は空間的に構造化されたデータをモデリングするためのコンパクトで連続的なフレームワークを提供する。
近年のアプローチでは、剛性幾何学的構造に沿った付加的な特徴を導入することでこの問題に対処している。
機能適応型INR(FA-INR)を提案する。
論文 参考訳(メタデータ) (2025-06-07T16:45:17Z) - AuxDet: Auxiliary Metadata Matters for Omni-Domain Infrared Small Target Detection [58.67129770371016]
シーン認識最適化のためのテキストメタデータを組み込むことにより、IRSTDパラダイムを再定義する新しいIRSTDフレームワークを提案する。
AuxDetは最先端の手法を一貫して上回り、堅牢性と正確性を改善する上で補助情報の重要な役割を検証している。
論文 参考訳(メタデータ) (2025-05-21T07:02:05Z) - Modality Prompts for Arbitrary Modality Salient Object Detection [57.610000247519196]
本論文は、任意のモーダリティ・サリエント物体検出(AM SOD)の課題について述べる。
任意のモダリティ、例えばRGBイメージ、RGB-Dイメージ、RGB-D-Tイメージから有能なオブジェクトを検出することを目的としている。
AM SODの2つの基本的な課題を解明するために,新しいモード適応トランス (MAT) を提案する。
論文 参考訳(メタデータ) (2024-05-06T11:02:02Z) - S^2Former-OR: Single-Stage Bi-Modal Transformer for Scene Graph Generation in OR [50.435592120607815]
外科手術のシーングラフ生成(SGG)は、手術室(OR)におけるホモロジー認知知能の増強に不可欠である
これまでの研究は主に多段階学習に依存しており、生成したセマンティックシーングラフはポーズ推定とオブジェクト検出を伴う中間プロセスに依存している。
本研究では,S2Former-OR(S2Former-OR)と呼ばれるORにおけるSGGのための新しいシングルステージバイモーダルトランスフォーマフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-22T11:40:49Z) - Forgery-aware Adaptive Transformer for Generalizable Synthetic Image
Detection [106.39544368711427]
本研究では,様々な生成手法から偽画像を検出することを目的とした,一般化可能な合成画像検出の課題について検討する。
本稿では,FatFormerという新しいフォージェリー適応トランスフォーマー手法を提案する。
提案手法は, 平均98%の精度でGANを観測し, 95%の精度で拡散モデルを解析した。
論文 参考訳(メタデータ) (2023-12-27T17:36:32Z) - DepthFormer: Exploiting Long-Range Correlation and Local Information for
Accurate Monocular Depth Estimation [50.08080424613603]
高精度な単分子深度推定には長距離相関が不可欠である。
我々は,このグローバルコンテキストを効果的な注意機構でモデル化するためにTransformerを活用することを提案する。
提案したモデルであるDepthFormerは、最先端のモノクル深度推定手法をはるかに超えている。
論文 参考訳(メタデータ) (2022-03-27T05:03:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。