論文の概要: Improving Vision Anomaly Detection with the Guidance of Language
Modality
- arxiv url: http://arxiv.org/abs/2310.02821v1
- Date: Wed, 4 Oct 2023 13:44:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 15:02:33.234802
- Title: Improving Vision Anomaly Detection with the Guidance of Language
Modality
- Title(参考訳): 言語モダリティの指導による視覚異常検出の改善
- Authors: Dong Chen, Kaihang Pan, Guoming Wang, Yueting Zhuang, Siliang Tang
- Abstract要約: 本稿では,マルチモーダルの観点から視覚モダリティの課題に取り組む。
本稿では,冗長な情報問題とスパース空間問題に対処するために,クロスモーダルガイダンス(CMG)を提案する。
視覚異常検出のためのよりコンパクトな潜在空間を学習するために、CMLEは言語モダリティから相関構造行列を学習する。
- 参考スコア(独自算出の注目度): 64.53005837237754
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent years have seen a surge of interest in anomaly detection for tackling
industrial defect detection, event detection, etc. However, existing
unsupervised anomaly detectors, particularly those for the vision modality,
face significant challenges due to redundant information and sparse latent
space. Conversely, the language modality performs well due to its relatively
single data. This paper tackles the aforementioned challenges for vision
modality from a multimodal point of view. Specifically, we propose Cross-modal
Guidance (CMG), which consists of Cross-modal Entropy Reduction (CMER) and
Cross-modal Linear Embedding (CMLE), to tackle the redundant information issue
and sparse space issue, respectively. CMER masks parts of the raw image and
computes the matching score with the text. Then, CMER discards irrelevant
pixels to make the detector focus on critical contents. To learn a more compact
latent space for the vision anomaly detector, CMLE learns a correlation
structure matrix from the language modality, and then the latent space of
vision modality will be learned with the guidance of the matrix. Thereafter,
the vision latent space will get semantically similar images closer. Extensive
experiments demonstrate the effectiveness of the proposed methods.
Particularly, CMG outperforms the baseline that only uses images by 16.81%.
Ablation experiments further confirm the synergy among the proposed methods, as
each component depends on the other to achieve optimal performance.
- Abstract(参考訳): 近年, 産業欠陥検出やイベント検出等に対処するための異常検出への関心が高まっている。
しかし、既存の教師なしの異常検出装置、特に視覚モダリティのものは冗長な情報と不十分な潜在空間のために重大な課題に直面している。
逆に、言語モダリティは比較的単一のデータのために良好に機能する。
本稿では,マルチモーダルの観点から,前述のビジョンモダリティの課題に取り組む。
具体的には, 冗長な情報問題と疎空間問題に対処するために, クロスモーダルエントロピー低減 (cmer) とクロスモーダル線形埋め込み (cmle) からなるクロスモーダル誘導 (cmg) を提案する。
cmerは生画像の一部をマスクし、テキストとのマッチングスコアを計算する。
そして、CMERは、無関係な画素を捨てて、検出器を臨界内容にフォーカスさせる。
視覚異常検出器のよりコンパクトな潜時空間を学習するために、CMLEは言語モダリティから相関構造行列を学習し、その後、行列の誘導により視覚異常の潜時空間を学習する。
その後、視覚潜在空間は意味的に類似した画像に近づく。
広範な実験により,提案手法の有効性が実証された。
特にCMGは、画像のみを使用するベースラインを16.81%上回る。
アブレーション実験では,各成分が互いに依存して最適な性能を得るため,提案手法間の相乗効果をさらに確認する。
関連論文リスト
- MODEL&CO: Exoplanet detection in angular differential imaging by learning across multiple observations [37.845442465099396]
ほとんどの後処理法は、対象の観測自体から核分裂のモデルを構築している。
本稿では,教師付き深層学習技術を利用して,複数観測のアーカイブからニュアンスモデルを構築することを提案する。
本稿では,提案手法をVLT/SPHERE機器から得られた複数のデータセットに適用し,高精度なリコールトレードオフを示す。
論文 参考訳(メタデータ) (2024-09-23T09:22:45Z) - MFCLIP: Multi-modal Fine-grained CLIP for Generalizable Diffusion Face Forgery Detection [64.29452783056253]
フォトリアリスティック・フェイスジェネレーション手法の急速な発展は、社会やアカデミックにおいて大きな関心を集めている。
既存のアプローチは主に画像モダリティを用いて顔の偽造パターンをキャプチャするが、きめ細かいノイズやテキストのような他のモダリティは完全には探索されていない。
そこで本研究では,画像ノイズの多点にわたる包括的かつきめ細かなフォージェリートレースをマイニングする,MFCLIP(MF-modal Fine-fine-fine-fine-fine-fine CLIP)モデルを提案する。
論文 参考訳(メタデータ) (2024-09-15T13:08:59Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - Self-Supervised Neuron Segmentation with Multi-Agent Reinforcement
Learning [53.00683059396803]
マスク画像モデル(MIM)は,マスク画像から元の情報を復元する簡便さと有効性から広く利用されている。
本稿では、強化学習(RL)を利用して最適な画像マスキング比とマスキング戦略を自動検索する決定に基づくMIMを提案する。
本手法は,ニューロン分節の課題において,代替自己監督法に対して有意な優位性を有する。
論文 参考訳(メタデータ) (2023-10-06T10:40:46Z) - Cross-Modal Causal Intervention for Medical Report Generation [109.83549148448469]
医療報告生成(MRG)は、コンピュータ支援診断と治療指導に不可欠である。
視覚的および言語的バイアスによって引き起こされる画像テキストデータ内の素早い相関のため、病変領域を確実に記述した正確なレポートを生成することは困難である。
本稿では,視覚分解モジュール (VDM) と言語分解モジュール (LDM) からなるMRGのための新しい視覚言語因果干渉 (VLCI) フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-16T07:23:55Z) - Superresolution and Segmentation of OCT scans using Multi-Stage
adversarial Guided Attention Training [18.056525121226862]
我々は,OCTスキャンを高分解能セグメンテーションラベルに変換する多段階・多識別型生成逆数ネットワーク(MultiSDGAN)を提案する。
我々は,MultiSDGANアーキテクチャに対して,チャネルと空間的注意の様々な組み合わせを評価し,比較し,より強力な特徴マップを抽出する。
その結果,Dice係数とSSIMでは21.44%,19.45%の相対的な改善が見られた。
論文 参考訳(メタデータ) (2022-06-10T00:26:55Z) - Multi-Perspective Anomaly Detection [3.3511723893430476]
我々は,ディープサポートベクトルデータ記述アルゴリズムを構築し,マルチパースペクティブな異常検出に対処する。
我々は、少ない一級データを扱うために、デノナイジングプロセスで異なる拡張手法を採用する。
2つの異なる視点からの画像を用いて新しいダイスデータセットのアプローチを評価し、標準MNISTデータセットのベンチマークを行った。
論文 参考訳(メタデータ) (2021-05-20T17:07:36Z) - Unsupervised Anomaly Detection in MR Images using Multi-Contrast
Information [3.7273619690170796]
医用画像における異常検出は、疾患の関連バイオマーカーを正常な組織と区別することである。
深い教師付き学習手法は様々な検出課題に有意な可能性があるが、その性能は医療画像分野では限られている。
本稿では,マルチコントラストMRIにおける画素ワイド異常検出のための教師なし学習フレームワークを開発した。
論文 参考訳(メタデータ) (2021-05-02T13:05:36Z) - Self-supervised Equivariant Attention Mechanism for Weakly Supervised
Semantic Segmentation [93.83369981759996]
本稿では,自己監督同変注意機構(SEAM)を提案する。
本手法は,完全教師付きセマンティックセグメンテーションにおいて,同値が暗黙の制約であることを示す。
本稿では,ネットワーク学習のための自己スーパービジョンを提供するために,様々な変換画像から予測されたCAMの整合性正則化を提案する。
論文 参考訳(メタデータ) (2020-04-09T14:57:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。