論文の概要: Towards Generic Anomaly Detection and Understanding: Large-scale
Visual-linguistic Model (GPT-4V) Takes the Lead
- arxiv url: http://arxiv.org/abs/2311.02782v3
- Date: Thu, 16 Nov 2023 09:10:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-17 18:33:12.594238
- Title: Towards Generic Anomaly Detection and Understanding: Large-scale
Visual-linguistic Model (GPT-4V) Takes the Lead
- Title(参考訳): 汎用的異常検出と理解に向けて:大規模視覚言語モデル(gpt-4v)がリード
- Authors: Yunkang Cao, Xiaohao Xu, Chen Sun, Xiaonan Huang, and Weiming Shen
- Abstract要約: 本研究では,視覚言語モデルであるGPT-4Vを用いて,異常検出タスクを汎用的に処理する手法を提案する。
画像,ビデオ,ポイントクラウド,時系列データなど,マルチモダリティ,マルチドメイン異常検出タスクにおけるGPT-4Vについて検討する。
GPT-4Vは、ゼロ/ワンショット異常検出において、大域的および微粒なセマンティックパターンを検出し、説明するのに非常に効果的であることが証明されている。
- 参考スコア(独自算出の注目度): 7.832745838520855
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Anomaly detection is a crucial task across different domains and data types.
However, existing anomaly detection models are often designed for specific
domains and modalities. This study explores the use of GPT-4V(ision), a
powerful visual-linguistic model, to address anomaly detection tasks in a
generic manner. We investigate the application of GPT-4V in multi-modality,
multi-domain anomaly detection tasks, including image, video, point cloud, and
time series data, across multiple application areas, such as industrial,
medical, logical, video, 3D anomaly detection, and localization tasks. To
enhance GPT-4V's performance, we incorporate different kinds of additional cues
such as class information, human expertise, and reference images as
prompts.Based on our experiments, GPT-4V proves to be highly effective in
detecting and explaining global and fine-grained semantic patterns in
zero/one-shot anomaly detection. This enables accurate differentiation between
normal and abnormal instances. Although we conducted extensive evaluations in
this study, there is still room for future evaluation to further exploit
GPT-4V's generic anomaly detection capacity from different aspects. These
include exploring quantitative metrics, expanding evaluation benchmarks,
incorporating multi-round interactions, and incorporating human feedback loops.
Nevertheless, GPT-4V exhibits promising performance in generic anomaly
detection and understanding, thus opening up a new avenue for anomaly
detection.
- Abstract(参考訳): 異常検出は、さまざまなドメインとデータタイプにまたがる重要なタスクである。
しかし、既存の異常検出モデルは、しばしば特定の領域とモダリティのために設計される。
本研究では,視覚言語モデルであるgpt-4v(ision)を用いて,異常検出タスクを汎用的に処理する。
gpt-4vのマルチモダリティ,画像,ビデオ,ポイントクラウド,時系列データを含むマルチドメイン異常検出タスクにおいて,産業,医療,論理,ビデオ,3次元異常検出,ローカライズタスクなど,複数のアプリケーション領域にまたがる適用について検討した。
GPT-4Vの性能を高めるために,クラス情報や人的専門知識,参照画像など,さまざまな種類の付加的手がかりをプロンプトとして組み込んで,GPT-4Vは,ゼロ・ワンショット異常検出において,グローバルおよび微粒なセマンティックパターンの検出と説明に極めて有効であることが実証された。
これにより、正常例と異常例を正確に区別することができる。
本研究では広範な評価を行ったが,GPT-4Vの汎用異常検出能力のさらなる活用には今後の評価が必要である。
定量的指標の探索、評価ベンチマークの拡張、マルチラウンドインタラクションの導入、ヒューマンフィードバックループの導入などだ。
それにもかかわらず、gpt-4vは一般的な異常検出と理解において有望な性能を示し、異常検出のための新しい道を開く。
関連論文リスト
- AnomalousPatchCore: Exploring the Use of Anomalous Samples in Industrial Anomaly Detection [2.2742404315918927]
視覚検査(英: visual inspection)または産業異常検出(英: industrial anomaly detection)は、製造業において最も一般的な品質管理タイプの一つである。
ほとんどの異常検出法は、通常のサンプルからのみ知識を利用でき、しばしば利用可能な異常サンプルからの情報を活用することができない。
そこで本研究では,異常検出システムであるAnomalousPatchCore(APC)を提案する。
論文 参考訳(メタデータ) (2024-08-27T14:51:34Z) - A Comprehensive Library for Benchmarking Multi-class Visual Anomaly Detection [52.228708947607636]
本稿では,新しい手法のモジュラーフレームワークであるADerを包括的視覚異常検出ベンチマークとして紹介する。
このベンチマークには、産業ドメインと医療ドメインからの複数のデータセットが含まれており、15の最先端メソッドと9つの包括的なメトリクスを実装している。
我々は,異なる手法の長所と短所を客観的に明らかにし,多クラス視覚異常検出の課題と今後の方向性について考察する。
論文 参考訳(メタデータ) (2024-06-05T13:40:07Z) - How Well Does GPT-4V(ision) Adapt to Distribution Shifts? A Preliminary
Investigation [90.93999543169296]
GPT-4Vは最も先進的な多モード基盤モデルとして機能する。
本研究は, GPT-4Vの動的環境における適応性と一般化能力について, 厳密に評価する。
論文 参考訳(メタデータ) (2023-12-12T16:48:07Z) - Open-Vocabulary Video Anomaly Detection [57.552523669351636]
監視の弱いビデオ異常検出(VAD)は、ビデオフレームが正常であるか異常であるかを識別するためにビデオレベルラベルを利用する際、顕著な性能を達成した。
近年の研究は、より現実的な、オープンセットのVADに取り組み、異常や正常なビデオから見えない異常を検出することを目的としている。
本稿ではさらに一歩前進し、未確認および未確認の異常を検知・分類するために訓練済みの大規模モデルを活用することを目的とした、オープン語彙ビデオ異常検出(OVVAD)について検討する。
論文 参考訳(メタデータ) (2023-11-13T02:54:17Z) - Myriad: Large Multimodal Model by Applying Vision Experts for Industrial
Anomaly Detection [89.49244928440221]
産業異常検出に視覚専門家を適用した新しい大規模マルチモーダルモデル(Myriad)を提案する。
具体的には,MiniGPT-4をベースLMMとして採用し,Large Language Models (LLM) に理解可能なトークンとして,視覚専門家の事前知識を埋め込むために,Expert Perceptionモジュールを設計する。
視覚専門家の誤りや混乱を補うために,一般画像と産業画像の視覚的表現ギャップを埋めるために,ドメインアダプタを導入する。
論文 参考訳(メタデータ) (2023-10-29T16:49:45Z) - Precursor-of-Anomaly Detection for Irregular Time Series [31.73234935455713]
本稿では,新しいタイプの異常検出法であるPrecursor-of-Anomaly(PoA)について述べる。
両問題を同時に解くために,ニューラルネットワークとマルチタスク学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-27T14:10:09Z) - Prototypical Residual Networks for Anomaly Detection and Localization [80.5730594002466]
本稿では,PRN(Prototypeal Residual Network)というフレームワークを提案する。
PRNは、異常領域の分割マップを正確に再構築するために、異常領域と正常パターンの間の様々なスケールとサイズの特徴的残差を学習する。
異常を拡大・多様化するために,見かけの相違と外観の相違を考慮に入れた様々な異常発生戦略を提示する。
論文 参考訳(メタデータ) (2022-12-05T05:03:46Z) - Deep Learning for Time Series Anomaly Detection: A Survey [53.83593870825628]
時系列異常検出は、製造業や医療を含む幅広い研究分野や応用に応用されている。
時系列の大規模かつ複雑なパターンにより、研究者は異常パターンを検出するための特別な深層学習モデルを開発するようになった。
本調査は,ディープラーニングを用いた構造化および総合的時系列異常検出モデルの提供に焦点を当てる。
論文 参考訳(メタデータ) (2022-11-09T22:40:22Z) - Functional Anomaly Detection: a Benchmark Study [4.444788548423704]
異常検出は、非常に高い周波数でサンプリングされた測定に依存することができる。
本研究の目的は, 実データセット上の機能的設定において, 異常検出のための最近の手法の性能について検討することである。
論文 参考訳(メタデータ) (2022-01-13T18:20:32Z) - Applications of Generative Adversarial Networks in Anomaly Detection: A
Systematic Literature Review [28.752089275446462]
GAN(Generative Adversarial Network)は異常検出研究において大きな注目を集めている。
本稿では,GANの異常検出への応用について,系統的な文献レビューを行う。
論文 参考訳(メタデータ) (2021-10-22T21:48:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。