論文の概要: VarAD: Lightweight High-Resolution Image Anomaly Detection via Visual Autoregressive Modeling
- arxiv url: http://arxiv.org/abs/2412.17263v1
- Date: Mon, 23 Dec 2024 04:16:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:58:06.456137
- Title: VarAD: Lightweight High-Resolution Image Anomaly Detection via Visual Autoregressive Modeling
- Title(参考訳): VarAD:視覚的自己回帰モデルによる軽量高分解能画像異常検出
- Authors: Yunkang Cao, Haiming Yao, Wei Luo, Weiming Shen,
- Abstract要約: 本稿では,高分解能画像異常検出(HRIAD)の実践的課題について述べる。
本稿では,HRIADに対処するため,画像異常検出を視覚的トークン予測に変換し,VarADを提案する。
VarADは、軽量を維持しながら優れた高解像度画像異常検出性能を実現する。
- 参考スコア(独自算出の注目度): 4.511023424800653
- License:
- Abstract: This paper addresses a practical task: High-Resolution Image Anomaly Detection (HRIAD). In comparison to conventional image anomaly detection for low-resolution images, HRIAD imposes a heavier computational burden and necessitates superior global information capture capacity. To tackle HRIAD, this paper translates image anomaly detection into visual token prediction and proposes VarAD based on visual autoregressive modeling for token prediction. Specifically, VarAD first extracts multi-hierarchy and multi-directional visual token sequences, and then employs an advanced model, Mamba, for visual autoregressive modeling and token prediction. During the prediction process, VarAD effectively exploits information from all preceding tokens to predict the target token. Finally, the discrepancies between predicted tokens and original tokens are utilized to score anomalies. Comprehensive experiments on four publicly available datasets and a real-world button inspection dataset demonstrate that the proposed VarAD achieves superior high-resolution image anomaly detection performance while maintaining lightweight, rendering VarAD a viable solution for HRIAD. Code is available at \href{https://github.com/caoyunkang/VarAD}{\url{https://github.com/caoyunkang/VarAD}}.
- Abstract(参考訳): 本稿では,HRIAD(High-Resolution Image Anomaly Detection)を提案する。
低解像度画像に対する従来の画像異常検出と比較して、HRIADは計算負荷を重くし、より優れたグローバル情報取得能力を必要とする。
HRIADに対処するために、画像異常検出を視覚トークン予測に変換し、トークン予測のための視覚自己回帰モデルに基づくVarADを提案する。
具体的には、VarADはまず多階層および多方向の視覚トークンシーケンスを抽出し、その後、視覚的自己回帰モデリングとトークン予測に高度なモデルであるMambaを用いる。
予測プロセスの間、VarADは、すべての前のトークンからの情報を効果的に利用して、ターゲットトークンを予測します。
最後に、予測トークンと元のトークンとの相違を利用して異常をスコアする。
4つの公開データセットと実世界のボタン検査データセットに関する総合的な実験により、提案されたVarADは、軽量を維持しながら優れた高解像度画像異常検出性能を実現し、VarADがHRIADの実行可能なソリューションであることを示す。
コードは \href{https://github.com/caoyunkang/VarAD}{\url{https://github.com/caoyunkang/VarAD}} で公開されている。
関連論文リスト
- CableInspect-AD: An Expert-Annotated Anomaly Detection Dataset [14.246172794156987]
$textitCableInspect-AD$は、カナダの公共ユーティリティであるHydro-Qu'ebecのドメインエキスパートによって作成、注釈付けされた高品質なデータセットである。
このデータセットには、現実世界の異常に挑戦する高解像度の画像が含まれており、さまざまな重度レベルの欠陥をカバーしている。
モデルの性能を評価するために,クロスバリデーションに基づく包括的評価プロトコルを提案する。
論文 参考訳(メタデータ) (2024-09-30T14:50:13Z) - GenFace: A Large-Scale Fine-Grained Face Forgery Benchmark and Cross Appearance-Edge Learning [50.7702397913573]
フォトリアリスティック・ジェネレータの急速な進歩は、真の画像と操作された画像の相違がますます不明瞭になっている臨界点に達している。
公開されている顔の偽造データセットはいくつかあるが、偽造顔は主にGANベースの合成技術を用いて生成される。
我々は,大規模で多様できめ細かな高忠実度データセットであるGenFaceを提案し,ディープフェイク検出の進展を促進する。
論文 参考訳(メタデータ) (2024-02-03T03:13:50Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - Mutual Information Regularization for Weakly-supervised RGB-D Salient
Object Detection [33.210575826086654]
弱教師付きRGB-Dサルエント物体検出モデルを提案する。
モーダル相互情報正規化による効果的なマルチモーダル表現学習に着目した。
論文 参考訳(メタデータ) (2023-06-06T12:36:57Z) - Masked Images Are Counterfactual Samples for Robust Fine-tuning [77.82348472169335]
微調整の深層学習モデルは、分布内(ID)性能と分布外(OOD)堅牢性の間のトレードオフにつながる可能性がある。
そこで本研究では,マスク付き画像を対物サンプルとして用いて,ファインチューニングモデルのロバスト性を向上させる新しいファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2023-03-06T11:51:28Z) - Beyond a Pre-Trained Object Detector: Cross-Modal Textual and Visual
Context for Image Captioning [25.728621355173626]
現在の方法の鍵となる制限は、モデルの出力が対象検出器の出力にのみ条件付けられることである。
オブジェクト関係などの欠落情報を表す補助的な入力を追加することを提案する。
我々は,画像キャプションにおける手法の有効性を検証し,各コンポーネントの徹底的な分析と,事前学習したマルチモーダルモデルの重要性を検証し,現状よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2022-05-09T15:05:24Z) - Beyond the Spectrum: Detecting Deepfakes via Re-Synthesis [69.09526348527203]
ディープフェイク(Deepfakes)として知られる非常に現実的なメディアは、現実の目から人間の目まで区別できない。
本研究では,テスト画像を再合成し,検出のための視覚的手がかりを抽出する,新しい偽検出手法を提案する。
種々の検出シナリオにおいて,提案手法の摂動に対する有効性の向上,GANの一般化,堅牢性を示す。
論文 参考訳(メタデータ) (2021-05-29T21:22:24Z) - Modality-Buffet for Real-Time Object Detection [25.89199578900324]
軽量ハードウェアを用いたビデオにおけるリアルタイム物体検出は多くのロボット作業において重要な要素である。
1つの選択肢は、フレーム毎にすべてのモダリティを同時に予測できる非常に軽量なモデルを持つことです。
我々は、このタスクを逐次決定問題として定式化し、強化学習(RL)を使用して、次の予測を行うために、異なる対象検出器のポートフォリオから検出するRGB入力から決定するポリシーを生成する。
論文 参考訳(メタデータ) (2020-11-17T15:57:06Z) - Uncertainty Inspired RGB-D Saliency Detection [70.50583438784571]
本稿では,データラベリングプロセスから学習することで,RGB-D値検出の不確実性を利用した最初のフレームワークを提案する。
そこで本研究では,確率的RGB-Dサリエンシ検出を実現するために,サリエンシデータラベリングプロセスにインスパイアされた生成アーキテクチャを提案する。
6つの挑戦的RGB-Dベンチマークデータセットの結果から,サリエンシマップの分布を学習する際のアプローチの優れた性能が示された。
論文 参考訳(メタデータ) (2020-09-07T13:01:45Z) - Fully Unsupervised Diversity Denoising with Convolutional Variational
Autoencoders [81.30960319178725]
完全畳み込み変分オートエンコーダ(VAE)に基づく復調手法であるDivNoisingを提案する。
まず, 撮像ノイズモデルをデコーダに明示的に組み込むことにより, 教師なしの雑音発生問題をVAEフレームワーク内に定式化する手法を提案する。
このようなノイズモデルは、ノイズの多いデータから測定したり、ブートストラップしたり、トレーニング中に共同学習したりすることが可能である。
論文 参考訳(メタデータ) (2020-06-10T21:28:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。