Fugu-MT 論文翻訳(概要): Spatial Autoregressive Modeling of DINOv3 Embeddings for Unsupervised Anomaly Detection

論文の概要: Spatial Autoregressive Modeling of DINOv3 Embeddings for Unsupervised Anomaly Detection

arxiv url: http://arxiv.org/abs/2603.02974v1
Date: Tue, 03 Mar 2026 13:30:33 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-04 21:38:10.816426
Title: Spatial Autoregressive Modeling of DINOv3 Embeddings for Unsupervised Anomaly Detection
Title（参考訳）: 教師なし異常検出のためのDINOv3埋め込みの空間自己回帰モデリング
Authors: Ertunc Erdil, Nico Schulthess, Guney Tombak, Ender Konukoglu,
Abstract要約: DINOモデルは、教師なし異常検出(UAD)において、最近強力なパフォーマンスを実現したリッチなパッチレベル表現を提供する。既存のほとんどの手法では、パッチ間の空間的および近傍的な関係を無視して、通常の画像からパッチ埋め込みを抽出し、それらを個別にモデル化する。本稿では,2次元自己回帰(AR)モデルを用いて,パッチ埋め込み間の空間的および文脈的依存関係を明示的にモデル化するフレームワークを提案する。
参考スコア（独自算出の注目度）: 15.896078006029475
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: DINO models provide rich patch-level representations that have recently enabled strong performance in unsupervised anomaly detection (UAD). Most existing methods extract patch embeddings from ``normal'' images and model them independently, ignoring spatial and neighborhood relationships between patches. This implicitly assumes that self-attention and positional encodings sufficiently encode contextual information within each patch embedding. In addition, the normative distribution is often modeled as memory banks or prototype-based representations, which require storing large numbers of features and performing costly comparisons at inference time, leading to substantial memory and computational overhead. In this work, we address both limitations by proposing a simple and efficient framework that explicitly models spatial and contextual dependencies between patch embeddings using a 2D autoregressive (AR) model. Instead of storing embeddings or clustering prototypes, our approach learns a compact parametric model of the normative distribution via an AR convolutional neural network (CNN). At test time, anomaly detection reduces to a single forward pass through the network and enables fast and memory-efficient inference. We evaluate our method on the BMAD benchmark, which comprises three medical imaging datasets, and compare it against existing work including recent DINO-based methods. Experimental results demonstrate that explicitly modeling spatial dependencies achieves competitive anomaly detection performance while substantially reducing inference time and memory requirements. Code is available at the project page: https://eerdil.github.io/spatial-ar-dinov3-uad/.
Abstract（参考訳）: DINOモデルは、教師なし異常検出(UAD)において、最近強力なパフォーマンスを実現した、リッチなパッチレベルの表現を提供する。既存のほとんどのメソッドは ``normal' イメージからパッチ埋め込みを抽出し、パッチ間の空間的および近傍的関係を無視して、それらを独立してモデル化する。これは、アテンションと位置エンコーディングが各パッチ埋め込み内のコンテキスト情報を十分にエンコードしていることを暗黙的に仮定する。さらに、規範的分布はメモリバンクやプロトタイプベースの表現としてモデル化されることが多く、大量の機能を格納し、推論時にコストのかかる比較を行う必要があり、メモリと計算のオーバーヘッドが大きくなる。本研究では,2次元自己回帰(AR)モデルを用いて,パッチ埋め込み間の空間的および文脈的依存関係を明示的にモデル化する,シンプルで効率的なフレームワークを提案する。埋め込みやクラスタリングのプロトタイプを格納する代わりに、我々のアプローチはAR畳み込みニューラルネットワーク(CNN)を介して、規範分布のコンパクトなパラメトリックモデルを学ぶ。テスト時には、異常検出はネットワークを通る1つのフォワードパスに減少し、高速でメモリ効率のよい推論を可能にする。 3つの医用画像データセットからなるBMADベンチマークを用いて本手法の評価を行い,最近のDINO法を含む既存手法と比較した。実験により,空間依存性を明示的にモデル化することで,推論時間とメモリ要求を大幅に低減しつつ,競合する異常検出性能が得られることが示された。コードは https://eerdil.github.io/spatial-ar-dinov3-uad/.com/ で公開されている。

関連論文リスト

MRAD: Zero-Shot Anomaly Detection with Memory-Driven Retrieval [16.654541753670348]
MRAD(Memory-Retrieval Anomaly Detection)は、パラメトリックフィッティングを直接メモリ検索に置き換える統合フレームワークである。 16の産業用および医療用データセットに対して、MRADフレームワークは、常に優れたパフォーマンスを示している。
論文参考訳（メタデータ） (2026-01-31T05:30:57Z)
Every Step Counts: Decoding Trajectories as Authorship Fingerprints of dLLMs [63.82840470917859]
本稿では,dLLMの復号化機構をモデル属性の強力なツールとして利用できることを示す。本稿では、デコードステップ間の構造的関係を捉え、モデル固有の振る舞いをよりよく明らかにする、DDM(Directed Decoding Map)と呼ばれる新しい情報抽出手法を提案する。
論文参考訳（メタデータ） (2025-10-02T06:25:10Z)
Representation Similarity: A Better Guidance of DNN Layer Sharing for Edge Computing without Training [3.792729116385123]
本稿では,表現類似度Sで導かれる表現をエッジで共有することで,新しいモデルマージ方式を提案する。 Pearson correlation Coefficient |r| > 0.94 than other metrics。
論文参考訳（メタデータ） (2024-10-15T03:35:54Z)
Continuous Memory Representation for Anomaly Detection [24.58611060347548]
CRADは「連続的」メモリ内の正常な特徴を表現するための新しい異常検出手法である。 MVTec ADデータセットを用いた評価では、CRADは、マルチクラス統一異常検出におけるエラーの65.0%を削減し、従来の最先端手法よりも大幅に優れている。
論文参考訳（メタデータ） (2024-02-28T12:38:44Z)
MLAD: A Unified Model for Multi-system Log Anomaly Detection [35.68387377240593]
複数のシステムにまたがる意味的関係推論を組み込んだ新しい異常検出モデルMLADを提案する。具体的には、Sentence-bertを用いてログシーケンス間の類似性を捉え、それらを高次元の学習可能な意味ベクトルに変換する。我々は,各キーワードのシーケンスにおける意義を識別し,マルチシステムデータセットの全体分布をモデル化するために,アテンション層の公式を改訂する。
論文参考訳（メタデータ） (2024-01-15T12:51:13Z)
Spatial-Temporal Graph Enhanced DETR Towards Multi-Frame 3D Object Detection [54.041049052843604]
STEMDは,多フレーム3Dオブジェクト検出のためのDETRのようなパラダイムを改良した,新しいエンドツーエンドフレームワークである。まず、オブジェクト間の空間的相互作用と複雑な時間的依存をモデル化するために、空間的時間的グラフアテンションネットワークを導入する。最後に、ネットワークが正のクエリと、ベストマッチしない他の非常に類似したクエリを区別することが課題となる。
論文参考訳（メタデータ） (2023-07-01T13:53:14Z)
Anomaly Detection via Multi-Scale Contrasted Memory [3.0170109896527086]
マルチスケールの標準プロトタイプをトレーニング中に記憶し,異常偏差値を計算する2段階の異常検出器を新たに導入する。 CIFAR-10の誤差相対改善率を最大35%とすることにより,多種多様なオブジェクト,スタイル,局所異常に対する最先端性能を高い精度で向上させる。
論文参考訳（メタデータ） (2022-11-16T16:58:04Z)
Focal Sparse Convolutional Networks for 3D Object Detection [121.45950754511021]
我々はスパースCNNの能力を高めるために2つの新しいモジュールを導入する。焦点スパース・コンボリューション(Focals Conv)であり、焦点スパース・コンボリューションの多様変種である。スパース・コンボリューションにおける空間的に学習可能な空間空間性は,高度な3次元物体検出に不可欠であることを示す。
論文参考訳（メタデータ） (2022-04-26T17:34:10Z)
Discriminative-Generative Dual Memory Video Anomaly Detection [81.09977516403411]
近年,ビデオ異常検出(VAD)には,トレーニングプロセス中に通常のデータに代えて,いくつかの異常を使おうと試みている。本稿では,いくつかの異常を生かしてデータの不均衡を解決するために,識別生成型デュアルメモリ(dream)異常検出モデルを提案する。
論文参考訳（メタデータ） (2021-04-29T15:49:01Z)
Exploring Data Augmentation for Multi-Modality 3D Object Detection [82.9988604088494]
ポイントクラウドとイメージに基づくマルチモダリティメソッドは、ポイントクラウドのみを使用するアプローチよりも、わずかに良いか、時には悪いだけである。トランスフォーメーションフローと呼ばれるパイプラインを提案し、トランスフォーメーションのリバースとリプレイによってシングルモードとマルチモードのデータ拡張のギャップを埋める。また,本手法は第3回nuScenes検出チャレンジでPKL賞を受賞した。
論文参考訳（メタデータ） (2020-12-23T15:23:16Z)
PaDiM: a Patch Distribution Modeling Framework for Anomaly Detection and Localization [64.39761523935613]
本稿では,画像中の異常を同時検出・ローカライズするPatch Distribution Modeling, PaDiMを提案する。 PaDiMは、パッチの埋め込みに事前訓練された畳み込みニューラルネットワーク(CNN)を使用している。また、CNNの異なるセマンティックレベル間の相関を利用して、異常のローカライズも改善している。
論文参考訳（メタデータ） (2020-11-17T17:29:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。