論文の概要: Towards Generic Anomaly Detection and Understanding: Large-scale
Visual-linguistic Model (GPT-4V) Takes the Lead
- arxiv url: http://arxiv.org/abs/2311.02782v2
- Date: Sat, 11 Nov 2023 18:35:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-14 19:39:44.081074
- Title: Towards Generic Anomaly Detection and Understanding: Large-scale
Visual-linguistic Model (GPT-4V) Takes the Lead
- Title(参考訳): 汎用的異常検出と理解に向けて:大規模視覚言語モデル(gpt-4v)がリード
- Authors: Yunkang Cao, Xiaohao Xu, Chen Sun, Xiaonan Huang, and Weiming Shen
- Abstract要約: 本研究では,視覚言語モデルであるGPT-4Vを用いて,異常検出タスクを汎用的に処理する手法を提案する。
画像,ビデオ,ポイントクラウド,時系列データなど,マルチモダリティ,マルチドメイン異常検出タスクにおけるGPT-4Vについて検討する。
GPT-4Vは、ゼロ/ワンショット異常検出において、大域的および微粒なセマンティックパターンを検出し、説明するのに非常に効果的であることが証明されている。
- 参考スコア(独自算出の注目度): 7.832745838520855
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Anomaly detection is a crucial task across different domains and data types.
However, existing anomaly detection models are often designed for specific
domains and modalities. This study explores the use of GPT-4V(ision), a
powerful visual-linguistic model, to address anomaly detection tasks in a
generic manner. We investigate the application of GPT-4V in multi-modality,
multi-domain anomaly detection tasks, including image, video, point cloud, and
time series data, across multiple application areas, such as industrial,
medical, logical, video, 3D anomaly detection, and localization tasks. To
enhance GPT-4V's performance, we incorporate different kinds of additional cues
such as class information, human expertise, and reference images as
prompts.Based on our experiments, GPT-4V proves to be highly effective in
detecting and explaining global and fine-grained semantic patterns in
zero/one-shot anomaly detection. This enables accurate differentiation between
normal and abnormal instances. Although we conducted extensive evaluations in
this study, there is still room for future evaluation to further exploit
GPT-4V's generic anomaly detection capacity from different aspects. These
include exploring quantitative metrics, expanding evaluation benchmarks,
incorporating multi-round interactions, and incorporating human feedback loops.
Nevertheless, GPT-4V exhibits promising performance in generic anomaly
detection and understanding, thus opening up a new avenue for anomaly
detection.
- Abstract(参考訳): 異常検出は、さまざまなドメインとデータタイプにまたがる重要なタスクである。
しかし、既存の異常検出モデルは、しばしば特定の領域とモダリティのために設計される。
本研究では,視覚言語モデルであるgpt-4v(ision)を用いて,異常検出タスクを汎用的に処理する。
gpt-4vのマルチモダリティ,画像,ビデオ,ポイントクラウド,時系列データを含むマルチドメイン異常検出タスクにおいて,産業,医療,論理,ビデオ,3次元異常検出,ローカライズタスクなど,複数のアプリケーション領域にまたがる適用について検討した。
GPT-4Vの性能を高めるために,クラス情報や人的専門知識,参照画像など,さまざまな種類の付加的手がかりをプロンプトとして組み込んで,GPT-4Vは,ゼロ・ワンショット異常検出において,グローバルおよび微粒なセマンティックパターンの検出と説明に極めて有効であることが実証された。
これにより、正常例と異常例を正確に区別することができる。
本研究では広範な評価を行ったが,GPT-4Vの汎用異常検出能力のさらなる活用には今後の評価が必要である。
定量的指標の探索、評価ベンチマークの拡張、マルチラウンドインタラクションの導入、ヒューマンフィードバックループの導入などだ。
それにもかかわらず、gpt-4vは一般的な異常検出と理解において有望な性能を示し、異常検出のための新しい道を開く。
関連論文リスト
- Learn Suspected Anomalies from Event Prompts for Video Anomaly Detection [49.91075101563298]
イベントプロンプトから疑わしい異常の学習を導くための新しい枠組みが提案されている。
これにより、新しいマルチプロンプト学習プロセスにより、すべてのビデオの視覚的セマンティックな特徴を制限できる。
提案手法はAPやAUCといった最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2024-03-02T10:42:47Z) - How Well Does GPT-4V(ision) Adapt to Distribution Shifts? A Preliminary
Investigation [90.93999543169296]
GPT-4Vは最も先進的な多モード基盤モデルとして機能する。
本研究は, GPT-4Vの動的環境における適応性と一般化能力について, 厳密に評価する。
論文 参考訳(メタデータ) (2023-12-12T16:48:07Z) - Open-Vocabulary Video Anomaly Detection [57.552523669351636]
監視の弱いビデオ異常検出(VAD)は、ビデオフレームが正常であるか異常であるかを識別するためにビデオレベルラベルを利用する際、顕著な性能を達成した。
近年の研究は、より現実的な、オープンセットのVADに取り組み、異常や正常なビデオから見えない異常を検出することを目的としている。
本稿ではさらに一歩前進し、未確認および未確認の異常を検知・分類するために訓練済みの大規模モデルを活用することを目的とした、オープン語彙ビデオ異常検出(OVVAD)について検討する。
論文 参考訳(メタデータ) (2023-11-13T02:54:17Z) - Myriad: Large Multimodal Model by Applying Vision Experts for Industrial
Anomaly Detection [89.49244928440221]
産業異常検出に視覚専門家を適用した新しい大規模マルチモーダルモデル(Myriad)を提案する。
具体的には,MiniGPT-4をベースLMMとして採用し,Large Language Models (LLM) に理解可能なトークンとして,視覚専門家の事前知識を埋め込むために,Expert Perceptionモジュールを設計する。
視覚専門家の誤りや混乱を補うために,一般画像と産業画像の視覚的表現ギャップを埋めるために,ドメインアダプタを導入する。
論文 参考訳(メタデータ) (2023-10-29T16:49:45Z) - The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision) [121.42924593374127]
我々は,最新のモデルであるGPT-4Vを分析し,LMMの理解を深める。
GPT-4Vは、任意にインターリーブされたマルチモーダル入力を処理するという前例のない能力により、強力なマルチモーダルジェネラリストシステムとなっている。
GPT-4Vの、入力画像に描かれた視覚マーカーを理解するユニークな能力は、新しい人間とコンピュータの相互作用方法をもたらす。
論文 参考訳(メタデータ) (2023-09-29T17:34:51Z) - Precursor-of-Anomaly Detection for Irregular Time Series [31.73234935455713]
本稿では,新しいタイプの異常検出法であるPrecursor-of-Anomaly(PoA)について述べる。
両問題を同時に解くために,ニューラルネットワークとマルチタスク学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-27T14:10:09Z) - Prototypical Residual Networks for Anomaly Detection and Localization [80.5730594002466]
本稿では,PRN(Prototypeal Residual Network)というフレームワークを提案する。
PRNは、異常領域の分割マップを正確に再構築するために、異常領域と正常パターンの間の様々なスケールとサイズの特徴的残差を学習する。
異常を拡大・多様化するために,見かけの相違と外観の相違を考慮に入れた様々な異常発生戦略を提示する。
論文 参考訳(メタデータ) (2022-12-05T05:03:46Z) - Functional Anomaly Detection: a Benchmark Study [4.444788548423704]
異常検出は、非常に高い周波数でサンプリングされた測定に依存することができる。
本研究の目的は, 実データセット上の機能的設定において, 異常検出のための最近の手法の性能について検討することである。
論文 参考訳(メタデータ) (2022-01-13T18:20:32Z) - Applications of Generative Adversarial Networks in Anomaly Detection: A
Systematic Literature Review [28.752089275446462]
GAN(Generative Adversarial Network)は異常検出研究において大きな注目を集めている。
本稿では,GANの異常検出への応用について,系統的な文献レビューを行う。
論文 参考訳(メタデータ) (2021-10-22T21:48:48Z) - An Evaluation of Anomaly Detection and Diagnosis in Multivariate Time
Series [7.675917669905486]
本稿では,異常検出・診断のための教師なし・半教師付き深層学習手法の体系的・包括的評価について述べる。
我々は、10のモデルと4のスコアリング関数のグリッドを通して、モデルエラーのモデルと後処理を変え、これらの変種を最先端の手法と比較する。
既存の評価指標は、事象を考慮に入れていないか、良い検知器と自明な検出器を区別できないかのどちらかである。
論文 参考訳(メタデータ) (2021-09-23T15:14:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。