論文の概要: Commonality in Few: Few-Shot Multimodal Anomaly Detection via Hypergraph-Enhanced Memory
- arxiv url: http://arxiv.org/abs/2511.05966v2
- Date: Sun, 16 Nov 2025 07:42:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:21.989835
- Title: Commonality in Few: Few-Shot Multimodal Anomaly Detection via Hypergraph-Enhanced Memory
- Title(参考訳): ハイパーグラフ強調メモリによる多重モード異常検出
- Authors: Yuxuan Lin, Hanjing Yan, Xuan Tong, Yang Chang, Huanzhen Wang, Ziheng Zhou, Shuyong Gao, Yan Wang, Wenqiang Zhang,
- Abstract要約: CIF(Commonality In Few)に基づく新規な非教師付きマルチモーダル産業異常検出手法を提案する。
我々は、高階相関をモデル化可能なハイパーグラフを用いて、トレーニングサンプル内の構造的共通点をキャプチャし、メモリバンクを使用して、クラス内構造を前もって格納する。
MVTec 3D-ADデータセットとEyecandiesデータセットによる実験結果から,本手法は数ショット設定でSOTA(State-of-the-art)手法よりも優れていることがわかった。
- 参考スコア(独自算出の注目度): 30.213350768611893
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Few-shot multimodal industrial anomaly detection is a critical yet underexplored task, offering the ability to quickly adapt to complex industrial scenarios. In few-shot settings, insufficient training samples often fail to cover the diverse patterns present in test samples. This challenge can be mitigated by extracting structural commonality from a small number of training samples. In this paper, we propose a novel few-shot unsupervised multimodal industrial anomaly detection method based on structural commonality, CIF (Commonality In Few). To extract intra-class structural information, we employ hypergraphs, which are capable of modeling higher-order correlations, to capture the structural commonality within training samples, and use a memory bank to store this intra-class structural prior. Firstly, we design a semantic-aware hypergraph construction module tailored for single-semantic industrial images, from which we extract common structures to guide the construction of the memory bank. Secondly, we use a training-free hypergraph message passing module to update the visual features of test samples, reducing the distribution gap between test features and features in the memory bank. We further propose a hyperedge-guided memory search module, which utilizes structural information to assist the memory search process and reduce the false positive rate. Experimental results on the MVTec 3D-AD dataset and the Eyecandies dataset show that our method outperforms the state-of-the-art (SOTA) methods in few-shot settings. Code is available at https://github.com/Sunny5250/CIF.
- Abstract(参考訳): 数発のマルチモーダル産業異常検出は、複雑な工業シナリオに迅速に適応する能力を提供しながら、重要で未発見の課題である。
少数の設定では、不十分なトレーニングサンプルは、テストサンプルに存在するさまざまなパターンをカバーできないことが多い。
この課題は、少数のトレーニングサンプルから構造的な共通点を抽出することで緩和することができる。
本稿では,構造的共通性(CIF,Commonality In Few)に基づく,新規なマルチモーダル産業異常検出手法を提案する。
クラス内構造情報を抽出するために,高階相関をモデル化可能なハイパーグラフを用いて,トレーニングサンプル内の構造的共通点を抽出し,メモリバンクを用いて,クラス内構造を予め記憶する。
まず, 単文産業画像に適した意味認識型ハイパーグラフ構築モジュールを設計し, メモリバンク構築の指針となる共通構造を抽出する。
第2に、トレーニング不要なハイパーグラフメッセージパッシングモジュールを使用して、テストサンプルの視覚的特徴を更新し、テスト機能とメモリバンクの機能間の分散ギャップを低減する。
さらに,構造情報を利用してメモリ探索を補助し,偽陽性率を低減するハイパーエッジ誘導型メモリ探索モジュールを提案する。
MVTec 3D-ADデータセットとEyecandiesデータセットによる実験結果から,本手法は数ショット設定でSOTA(State-of-the-art)手法よりも優れていることがわかった。
コードはhttps://github.com/Sunny5250/CIFで入手できる。
関連論文リスト
- Towards Unified Multimodal Misinformation Detection in Social Media: A Benchmark Dataset and Baseline [56.790045049514326]
詐欺の2つの主要な形態は、人造誤報とAI生成コンテンツである。
両形態の偽造を扱うためのフレームワークであるUMFDet(Unified Multimodal Fake Content Detection)を提案する。
UMFDetは、両方の誤情報型に対して堅牢で一貫したパフォーマンスを実現し、特殊ベースラインを上回っている。
論文 参考訳(メタデータ) (2025-09-30T09:26:32Z) - Binary Code Similarity Detection via Graph Contrastive Learning on Intermediate Representations [52.34030226129628]
バイナリコード類似度検出(BCSD)は、脆弱性検出、マルウェア分析、コードの再利用識別など、多くの分野で重要な役割を果たしている。
本稿では,LLVM-IRと高レベルのセマンティック抽象化を利用して,コンパイル差を緩和するIRBinDiffを提案する。
IRBinDiffは1対1の比較と1対多の検索シナリオにおいて,他の主要なBCSD手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-10-24T09:09:20Z) - InfRS: Incremental Few-Shot Object Detection in Remote Sensing Images [11.916941756499435]
本稿では,リモートセンシング画像におけるインクリメンタルな数ショット物体検出の複雑な課題について検討する。
本稿では,新しい授業の漸進的な学習を促進するために,InfRSと呼ばれる先駆的な微調整技術を導入する。
我々はワッサーシュタイン距離に基づく原型校正戦略を開発し、破滅的な忘れ問題を軽減する。
論文 参考訳(メタデータ) (2024-05-18T13:39:50Z) - Few-shot Online Anomaly Detection and Segmentation [29.693357653538474]
本稿では,難易度の高いオンライン異常検出・セグメンテーション(FOADS)の課題に対処することに焦点を当てる。
FOADSフレームワークでは、モデルを数ショットの通常のデータセットでトレーニングし、その後、正常サンプルと異常サンプルの両方を含む未ラベルのストリーミングデータを活用することで、その能力の検査と改善を行う。
限られたトレーニングサンプルを用いた性能向上のために,ImageNetで事前学習したCNNから抽出したマルチスケール特徴埋め込みを用いて,ロバストな表現を得る。
論文 参考訳(メタデータ) (2024-03-27T02:24:00Z) - Multi-Modal Few-Shot Object Detection with Meta-Learning-Based
Cross-Modal Prompting [77.69172089359606]
本稿では,マルチモーダルな複数ショットオブジェクト検出(FSOD)について,少数ショット視覚例とクラスセマンティック情報の両方を用いて検討する。
我々のアプローチは、(メトリックベース)メタラーニングとプロンプトベースラーニングの高レベルな概念的類似性によって動機付けられている。
提案するマルチモーダルFSODモデルを,複数の複数ショットオブジェクト検出ベンチマークで総合的に評価し,有望な結果を得た。
論文 参考訳(メタデータ) (2022-04-16T16:45:06Z) - Dynamic Relevance Learning for Few-Shot Object Detection [6.550840743803705]
動的グラフ畳み込みネットワーク(GCN)を構築するために,すべてのサポート画像とクエリ画像上の関心領域(RoI)の関係を利用した動的関連学習モデルを提案する。
提案モデルでは,より一般化された特徴の学習の有効性を示す総合的な性能が得られた。
論文 参考訳(メタデータ) (2021-08-04T18:29:42Z) - One-Shot Object Detection without Fine-Tuning [62.39210447209698]
本稿では,第1ステージのMatching-FCOSネットワークと第2ステージのStructure-Aware Relation Moduleからなる2段階モデルを提案する。
また,検出性能を効果的に向上する新たなトレーニング戦略を提案する。
提案手法は,複数のデータセット上で一貫した最先端のワンショット性能を上回る。
論文 参考訳(メタデータ) (2020-05-08T01:59:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。