論文の概要: Architectural Co-Design for Zero-Shot Anomaly Detection: Decoupling Representation and Dynamically Fusing Features in CLIP
- arxiv url: http://arxiv.org/abs/2508.07819v1
- Date: Mon, 11 Aug 2025 10:03:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:29.040861
- Title: Architectural Co-Design for Zero-Shot Anomaly Detection: Decoupling Representation and Dynamically Fusing Features in CLIP
- Title(参考訳): ゼロショット異常検出のためのアーキテクチャ共設計:CLIPにおける表現の分離と動的融合
- Authors: Ke Ma, Jun Long, Hongxiao Fei, Liujie Hua, Yueyi Luo,
- Abstract要約: Zero-Shot Anomaly Detection (ZSAD) に適用した場合、VLM(Pre-trained Vision-Language Models) は重要な適応ギャップに直面している。
これらの制限には、特徴表現とクロスモーダルな融合を共同で洗練するアーキテクチャ共同設計フレームワークを通じて対処する。
提案手法はパラメータ効率のよいConv-LoRAアダプタを統合し,局所帰納バイアスを微細な表現に注入し,動的フュージョンゲートウェイ(DFG)を導入する。
多様な産業・医療ベンチマークの実験では、精度と堅牢性が向上し、この相乗的共設計が基礎モデルを密接な知覚タスクに頑健に適応させる上で重要であることを証明している。
- 参考スコア(独自算出の注目度): 10.311892788311733
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained Vision-Language Models (VLMs) face a significant adaptation gap when applied to Zero-Shot Anomaly Detection (ZSAD), stemming from their lack of local inductive biases for dense prediction and their reliance on inflexible feature fusion paradigms. We address these limitations through an Architectural Co-Design framework that jointly refines feature representation and cross-modal fusion. Our method integrates a parameter-efficient Convolutional Low-Rank Adaptation (Conv-LoRA) adapter to inject local inductive biases for fine-grained representation, and introduces a Dynamic Fusion Gateway (DFG) that leverages visual context to adaptively modulate text prompts, enabling a powerful bidirectional fusion. Extensive experiments on diverse industrial and medical benchmarks demonstrate superior accuracy and robustness, validating that this synergistic co-design is critical for robustly adapting foundation models to dense perception tasks.
- Abstract(参考訳): ゼロショット異常検出(ZSAD)に適用した場合、事前学習された視覚言語モデル(VLM)は、密集予測のための局所誘導バイアスの欠如と、非フレキシブルな特徴融合パラダイムへの依存から、大きな適応ギャップに直面している。
これらの制限には、特徴表現とクロスモーダルな融合を共同で洗練するアーキテクチャ共同設計フレームワークを通じて対処する。
提案手法は,パラメータ効率のよい畳み込み低ランク適応(Conv-LoRA)アダプタを統合し,局所帰納バイアスを微粒化表現に注入し,動的融合ゲートウェイ(DFG)を導入し,テキストプロンプトを適応的に調整し,強力な双方向融合を実現する。
多様な産業と医療のベンチマークに関する大規模な実験は、精度と堅牢性に優れており、この相乗的共設計が基礎モデルを密接な知覚タスクに頑健に適応するために重要であることを証明している。
関連論文リスト
- GFPL: Generative Federated Prototype Learning for Resource-Constrained and Data-Imbalanced Vision Task [43.723840781330914]
フェデレートラーニング(FL)は、分散イメージのセキュアな活用を容易にする。
FLは、非効率的な知識融合と禁止的な通信オーバーヘッドという、現実世界の展開において2つの重要な課題に直面している。
本稿では,これらの問題に対処する新しいジェネレーティブ・フェデレーション・プロトタイプ学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-25T12:57:45Z) - OmniVL-Guard: Towards Unified Vision-Language Forgery Detection and Grounding via Balanced RL [63.388513841293616]
既存の偽造検出手法は、現実世界の誤報に多いインターリーブされたテキスト、画像、ビデオを扱うのに失敗する。
このギャップを埋めるため,本論文では,オムニバス・ビジョン言語による偽造検出と接地のための統一フレームワークの開発を目標としている。
我々は、OmniVL-Guardという、オムニバス視覚言語による偽造検出と接地のためのバランスの取れた強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-11T09:41:36Z) - CtrlFuse: Mask-Prompt Guided Controllable Infrared and Visible Image Fusion [51.060328159429154]
赤外線と可視画像の融合は、相補的なモダリティを組み合わせることで、全天候の知覚可能な画像を生成する。
我々は,マスクプロンプトによって誘導されるインタラクティブな動的融合を可能にする,制御可能な画像融合フレームワークであるCtrlFuseを提案する。
実験では、融合制御性とセグメンテーション精度の両立を実証し、適応されたタスク分岐は元のセグメンテーションモデルよりも優れていた。
論文 参考訳(メタデータ) (2026-01-12T13:36:48Z) - AdaFuse: Adaptive Ensemble Decoding with Test-Time Scaling for LLMs [46.52320938421707]
推論時のアンサンブルは、大規模な言語モデル機能を再訓練せずに組み合わせる実用的な方法を提供する。
生成時に意味的に適切な融合単位を動的に選択する適応型アンサンブルデコーディングフレームワークであるAdaFuseを提案する。
AdaFuseは一貫して強力なアンサンブルベースラインを上回り、6.88%の平均的な相対的な改善を達成している。
論文 参考訳(メタデータ) (2026-01-09T18:58:22Z) - Generative Editing in the Joint Vision-Language Space for Zero-Shot Composed Image Retrieval [11.724675700368316]
Composed Image Retrieval (CIR)は、参照画像とテキスト修正を組み合わせることで、きめ細かいビジュアル検索を可能にする。
マルチモーダルアライメントのために設計された高効率・データ効率の新たな生成編集フレームワークであるFusion-Diffを提案する。
論文 参考訳(メタデータ) (2025-12-01T13:04:55Z) - DiA-gnostic VLVAE: Disentangled Alignment-Constrained Vision Language Variational AutoEncoder for Robust Radiology Reporting with Missing Modalities [3.5045368873011924]
本稿では,Dentangled Alignment を用いた頑健な放射線診断を行う DiA-gnostic VLVAE を提案する。
我々のフレームワークは、共有機能とモダリティ固有の機能を混在させることにより、モダリティの欠如に耐性を持つように設計されている。
コンパクトなLLaMA-Xデコーダは、これらの不整合表現を使用してレポートを効率的に生成する。
論文 参考訳(メタデータ) (2025-11-08T11:08:27Z) - Unleashing Vision Foundation Models for Coronary Artery Segmentation: Parallel ViT-CNN Encoding and Variational Fusion [12.839049648094893]
冠動脈セグメンテーションは冠動脈疾患(CAD)のコンピュータ診断に重要である
並列符号化アーキテクチャを用いて,視覚基盤モデル(VFM)のパワーを利用する新しいフレームワークを提案する。
提案手法は, 精度の高い冠動脈セグメンテーションにおいて, 最先端の手法よりも優れ, 優れた性能を発揮する。
論文 参考訳(メタデータ) (2025-07-17T09:25:00Z) - Learning Robust Stereo Matching in the Wild with Selective Mixture-of-Experts [29.52183168979229]
SMoEStereoは,Low-Rank Adaptation (LoRA) とMixture-of-Experts (MoE) モジュールの融合により,VFMをステレオマッチングに適用する新しいフレームワークである。
提案手法は,データセット固有の適応を伴わない複数のベンチマークに対して,最先端のクロスドメインと共同一般化を示す。
論文 参考訳(メタデータ) (2025-07-07T03:19:04Z) - Escaping Plato's Cave: JAM for Aligning Independently Trained Vision and Language Models [29.59537209390697]
単一モードモデルの潜在表現に対して、モダリティ固有のオートエンコーダを訓練するフレームワークを導入する。
類推により、このフレームワークはプラトンの洞窟から逃れる方法として機能し、結合しない入力から共有構造の出現を可能にする。
論文 参考訳(メタデータ) (2025-07-01T21:43:50Z) - High-Fidelity Scientific Simulation Surrogates via Adaptive Implicit Neural Representations [35.71656738800783]
入射神経表現(INR)は空間的に構造化されたデータをモデリングするためのコンパクトで連続的なフレームワークを提供する。
近年のアプローチでは、剛性幾何学的構造に沿った付加的な特徴を導入することでこの問題に対処している。
機能適応型INR(FA-INR)を提案する。
論文 参考訳(メタデータ) (2025-06-07T16:45:17Z) - AuxDet: Auxiliary Metadata Matters for Omni-Domain Infrared Small Target Detection [58.67129770371016]
シーン認識最適化のためのテキストメタデータを組み込むことにより、IRSTDパラダイムを再定義する新しいIRSTDフレームワークを提案する。
AuxDetは最先端の手法を一貫して上回り、堅牢性と正確性を改善する上で補助情報の重要な役割を検証している。
論文 参考訳(メタデータ) (2025-05-21T07:02:05Z) - Multi-Modality Driven LoRA for Adverse Condition Depth Estimation [61.525312117638116]
逆条件深さ推定のためのMulti-Modality Driven LoRA(MMD-LoRA)を提案する。
Prompt Driven Domain Alignment (PDDA) と Visual-Text Consistent Contrastive Learning (VTCCL) の2つのコアコンポーネントで構成されている。
nuScenesとOxford RobotCarデータセットの最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-12-28T14:23:58Z) - Model Inversion Attacks Through Target-Specific Conditional Diffusion Models [54.69008212790426]
モデル反転攻撃(MIA)は、ターゲット分類器のトレーニングセットからプライベートイメージを再構築することを目的としており、それによってAIアプリケーションにおけるプライバシー上の懸念が高まる。
従来のGANベースのMIAは、GANの固有の欠陥と潜伏空間における最適化の偏りにより、劣った遺伝子的忠実度に悩まされる傾向にある。
これらの問題を緩和するために拡散モデル反転(Diff-MI)攻撃を提案する。
論文 参考訳(メタデータ) (2024-07-16T06:38:49Z) - Modality Prompts for Arbitrary Modality Salient Object Detection [57.610000247519196]
本論文は、任意のモーダリティ・サリエント物体検出(AM SOD)の課題について述べる。
任意のモダリティ、例えばRGBイメージ、RGB-Dイメージ、RGB-D-Tイメージから有能なオブジェクトを検出することを目的としている。
AM SODの2つの基本的な課題を解明するために,新しいモード適応トランス (MAT) を提案する。
論文 参考訳(メタデータ) (2024-05-06T11:02:02Z) - S^2Former-OR: Single-Stage Bi-Modal Transformer for Scene Graph Generation in OR [50.435592120607815]
外科手術のシーングラフ生成(SGG)は、手術室(OR)におけるホモロジー認知知能の増強に不可欠である
これまでの研究は主に多段階学習に依存しており、生成したセマンティックシーングラフはポーズ推定とオブジェクト検出を伴う中間プロセスに依存している。
本研究では,S2Former-OR(S2Former-OR)と呼ばれるORにおけるSGGのための新しいシングルステージバイモーダルトランスフォーマフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-22T11:40:49Z) - Forgery-aware Adaptive Transformer for Generalizable Synthetic Image
Detection [106.39544368711427]
本研究では,様々な生成手法から偽画像を検出することを目的とした,一般化可能な合成画像検出の課題について検討する。
本稿では,FatFormerという新しいフォージェリー適応トランスフォーマー手法を提案する。
提案手法は, 平均98%の精度でGANを観測し, 95%の精度で拡散モデルを解析した。
論文 参考訳(メタデータ) (2023-12-27T17:36:32Z) - Complexity Matters: Rethinking the Latent Space for Generative Modeling [65.64763873078114]
生成的モデリングにおいて、多くの成功したアプローチは、例えば安定拡散のような低次元の潜在空間を利用する。
本研究では, モデル複雑性の観点から潜在空間を再考することにより, 未探索の話題に光を当てることを目的としている。
論文 参考訳(メタデータ) (2023-07-17T07:12:29Z) - DepthFormer: Exploiting Long-Range Correlation and Local Information for
Accurate Monocular Depth Estimation [50.08080424613603]
高精度な単分子深度推定には長距離相関が不可欠である。
我々は,このグローバルコンテキストを効果的な注意機構でモデル化するためにTransformerを活用することを提案する。
提案したモデルであるDepthFormerは、最先端のモノクル深度推定手法をはるかに超えている。
論文 参考訳(メタデータ) (2022-03-27T05:03:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。