論文の概要: Unsupervised Multi-View Visual Anomaly Detection via Progressive Homography-Guided Alignment
- arxiv url: http://arxiv.org/abs/2511.18766v1
- Date: Mon, 24 Nov 2025 05:01:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:25.022629
- Title: Unsupervised Multi-View Visual Anomaly Detection via Progressive Homography-Guided Alignment
- Title(参考訳): プログレッシブホモグラフィ誘導アライメントによる教師なし多視点視覚異常検出
- Authors: Xintao Chen, Xiaohao Xu, Bozhong Zheng, Yun Liu, Yingna Wu,
- Abstract要約: 多視点画像からの教師なし視覚異常検出は重要な課題である。
ViewSense-AD (VSAD) は、ビュー間の幾何学的一貫性を明示的にモデル化することで、視点不変表現を学習する。
拡散モデルから得られた多レベル特徴を、通常のプロトタイプの学習メモリバンクと比較することにより異常検出を行う。
- 参考スコア(独自算出の注目度): 14.782512101141016
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unsupervised visual anomaly detection from multi-view images presents a significant challenge: distinguishing genuine defects from benign appearance variations caused by viewpoint changes. Existing methods, often designed for single-view inputs, treat multiple views as a disconnected set of images, leading to inconsistent feature representations and a high false-positive rate. To address this, we introduce ViewSense-AD (VSAD), a novel framework that learns viewpoint-invariant representations by explicitly modeling geometric consistency across views. At its core is our Multi-View Alignment Module (MVAM), which leverages homography to project and align corresponding feature regions between neighboring views. We integrate MVAM into a View-Align Latent Diffusion Model (VALDM), enabling progressive and multi-stage alignment during the denoising process. This allows the model to build a coherent and holistic understanding of the object's surface from coarse to fine scales. Furthermore, a lightweight Fusion Refiner Module (FRM) enhances the global consistency of the aligned features, suppressing noise and improving discriminative power. Anomaly detection is performed by comparing multi-level features from the diffusion model against a learned memory bank of normal prototypes. Extensive experiments on the challenging RealIAD and MANTA datasets demonstrate that VSAD sets a new state-of-the-art, significantly outperforming existing methods in pixel, view, and sample-level visual anomaly proving its robustness to large viewpoint shifts and complex textures.
- Abstract(参考訳): 多視点画像からの教師なし視覚異常検出は、真の欠陥と視点変化による良性外見の変化を区別する重要な課題である。
既存の手法は、しばしばシングルビュー入力用に設計され、複数のビューを非接続のイメージの集合として扱い、一貫性のない特徴表現と高い偽陽性率をもたらす。
これを解決するために,ビュー間の幾何的一貫性を明示的にモデル化することにより,視点不変表現を学習する新しいフレームワークであるViewSense-AD(VSAD)を紹介した。
中心となるのはMulti-View Alignment Module(MVAM)です。
MVAMをVALDM(View-Align Latent Diffusion Model)に統合し,段階的および多段階的なアライメントを実現する。
これにより、モデルは、粗いものから細かいものまで、物体の表面の一貫性と包括的理解を構築することができる。
さらに、軽量なFusion Refiner Module (FRM) は、整列した特徴のグローバルな一貫性を高め、ノイズを抑制し、識別力を向上させる。
拡散モデルから得られた多レベル特徴を、通常のプロトタイプの学習メモリバンクと比較することにより異常検出を行う。
挑戦的なRealIADとMANTAデータセットに関する大規模な実験は、VSADが新しい最先端の手法を、ピクセル、ビュー、サンプルレベルの視覚異常において大幅に上回り、大きな視点シフトと複雑なテクスチャへの堅牢性を証明することを実証している。
関連論文リスト
- Learning Multi-view Multi-class Anomaly Detection [10.199404082194947]
MVMCAD(Multi-View Multi-Class Anomaly Detection Model)を導入し、複数のビューからの情報を統合して異常を正確に識別する。
具体的には、凍結エンコーダの前にプリエンコーダの事前拡張機構を追加する半凍結エンコーダを提案する。
AAM(Anomaly Amplification Module)は、グローバルトークンのインタラクションをモデル化し、通常のリージョンを抑圧する。
論文 参考訳(メタデータ) (2025-04-30T03:59:58Z) - Robust Multi-View Learning via Representation Fusion of Sample-Level Attention and Alignment of Simulated Perturbation [61.64052577026623]
実世界のマルチビューデータセットは、しばしば不均一で不完全である。
本稿では,表現融合とアライメントを同時に行う新しいロバストMVL法(RML)を提案する。
我々のRMLは自己教師型であり、正規化として下流のタスクにも適用できます。
論文 参考訳(メタデータ) (2025-03-06T07:01:08Z) - A Global Depth-Range-Free Multi-View Stereo Transformer Network with Pose Embedding [76.44979557843367]
本稿では,事前の深度範囲を排除した新しい多視点ステレオ(MVS)フレームワークを提案する。
長距離コンテキスト情報を集約するMDA(Multi-view Disparity Attention)モジュールを導入する。
ソース画像のエピポーラ線上のサンプリング点に対応する電流画素の品質を明示的に推定する。
論文 参考訳(メタデータ) (2024-11-04T08:50:16Z) - Unifying Visual and Semantic Feature Spaces with Diffusion Models for Enhanced Cross-Modal Alignment [20.902935570581207]
本稿では,マルチモーダルアライメント・アンド・リコンストラクション・ネットワーク(MARNet)を導入し,視覚ノイズに対するモデルの耐性を高める。
MARNetは、異なるドメイン間で情報をスムーズかつ安定的にブレンドする、クロスモーダル拡散再構成モジュールを含んでいる。
2つのベンチマークデータセットであるVireo-Food172とIngredient-101で実施された実験は、MARNetがモデルによって抽出された画像情報の品質を効果的に改善することを示した。
論文 参考訳(メタデータ) (2024-07-26T16:30:18Z) - Multi-view Aggregation Network for Dichotomous Image Segmentation [76.75904424539543]
Dichotomous Image (DIS) は近年,高解像度自然画像からの高精度物体分割に向けて出現している。
既存の手法は、グローバルなローカライゼーションと局所的な洗練を徐々に完了させるために、退屈な複数のエンコーダ・デコーダストリームとステージに依存している。
これに触発されて、我々は多視点オブジェクト認識問題としてdisをモデル化し、擬似多視点アグリゲーションネットワーク(MVANet)を提供する。
一般的なdis-5Kデータセットの実験では、我々のMVANetは精度と速度の両方で最先端の手法を大きく上回っている。
論文 参考訳(メタデータ) (2024-04-11T03:00:00Z) - Multi-Spectral Image Stitching via Spatial Graph Reasoning [52.27796682972484]
空間グラフ推論に基づくマルチスペクトル画像縫合法を提案する。
同一のビュー位置から複数スケールの補完機能をノードに埋め込む。
空間的・チャネル的次元に沿った長距離コヒーレンスを導入することにより、画素関係の相補性とチャネル相互依存性は、整列したマルチビュー特徴の再構築に寄与する。
論文 参考訳(メタデータ) (2023-07-31T15:04:52Z) - Style-Hallucinated Dual Consistency Learning: A Unified Framework for
Visual Domain Generalization [113.03189252044773]
本稿では,様々な視覚的タスクにおけるドメインシフトを処理するための統合フレームワークであるStyle-HAllucinated Dual consistEncy Learning (SHADE)を提案する。
我々の汎用SHADEは、画像分類、セマンティックセグメンテーション、オブジェクト検出など、様々な視覚認識タスクにおける一般化を著しく向上させることができる。
論文 参考訳(メタデータ) (2022-12-18T11:42:51Z) - Sketched Multi-view Subspace Learning for Hyperspectral Anomalous Change
Detection [12.719327447589345]
異常変化検出のためのスケッチ付きマルチビューサブスペース学習モデルを提案する。
提案モデルでは,画像ペアからの主要な情報を保存し,計算複雑性を向上させる。
実験は、ベンチマークハイパースペクトルリモートセンシングデータセットと自然なハイパースペクトルデータセットで実施される。
論文 参考訳(メタデータ) (2022-10-09T14:08:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。