論文の概要: Training-free Anomaly Event Detection via LLM-guided Symbolic Pattern Discovery
- arxiv url: http://arxiv.org/abs/2502.05843v2
- Date: Tue, 04 Mar 2025 03:56:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 18:50:37.089879
- Title: Training-free Anomaly Event Detection via LLM-guided Symbolic Pattern Discovery
- Title(参考訳): LLM誘導シンボリックパターン発見による無トレーニング異常事象検出
- Authors: Yuhui Zeng, Haoxiang Wu, Wenjie Nie, Xiawu Zheng, Guangyao Chen, Yunhang Shen, Jun Peng, Yonghong Tian, Rongrong Ji,
- Abstract要約: 異常事象検出は、様々な現実世界のアプリケーションにおいて重要な役割を果たす。
オープンセットオブジェクト検出とシンボリック回帰を統合した学習自由フレームワークを提案する。
- 参考スコア(独自算出の注目度): 71.41062111470414
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Anomaly event detection plays a crucial role in various real-world applications. However, current approaches predominantly rely on supervised learning, which faces significant challenges: the requirement for extensive labeled training data and lack of interpretability in decision-making processes. To address these limitations, we present a training-free framework that integrates open-set object detection with symbolic regression, powered by Large Language Models (LLMs) for efficient symbolic pattern discovery. The LLMs guide the symbolic reasoning process, establishing logical relationships between detected entities. Through extensive experiments across multiple domains, our framework demonstrates several key advantages: (1) achieving superior detection accuracy through direct reasoning without any training process; (2) providing highly interpretable logical expressions that are readily comprehensible to humans; and (3) requiring minimal annotation effort - approximately 1% of the data needed by traditional training-based methods.To facilitate comprehensive evaluation and future research, we introduce two datasets: a large-scale private dataset containing over 110,000 annotated images covering various anomaly scenarios including construction site safety violations, illegal fishing activities, and industrial hazards, along with a public benchmark dataset of 5,000 samples with detailed anomaly event annotations. Code is available at here.
- Abstract(参考訳): 異常事象検出は、様々な現実世界のアプリケーションにおいて重要な役割を果たす。
しかし、現在のアプローチは主に教師あり学習に依存しており、これは大きな課題に直面している: 広範囲のラベル付きトレーニングデータの要求と意思決定プロセスにおける解釈可能性の欠如である。
これらの制約に対処するために、オープンセットオブジェクト検出とシンボル回帰を統合し、Large Language Models (LLMs) を用いて効率的なシンボルパターン探索を行うトレーニングフリーフレームワークを提案する。
LLMはシンボリック推論プロセスをガイドし、検出されたエンティティ間の論理的関係を確立する。
複数の領域にわたる広範な実験を通じて、本フレームワークは、(1)直接推論による検出精度の向上、(2)人間にとって容易に理解可能な高度に解釈可能な論理式の提供、(3)最小限のアノテーションの努力を必要とすること、(3)総合的な評価と今後の研究を促進するために、建設現場の安全違反、違法な漁業活動、産業災害を含む様々な異常シナリオを含む110,000以上の注釈付き画像を含む大規模プライベートデータセットと、詳細な異常事象アノテーションを含む5,000のサンプルの公開ベンチマークの2つのデータセットを紹介した。
コードはここにある。
関連論文リスト
- GraspCoT: Integrating Physical Property Reasoning for 6-DoF Grasping under Flexible Language Instructions [24.947855662285015]
物理特性を指向したChain-of-Thought(CoT)推論機構を統合した6-DoFグリップ検出フレームワークを提案する。
IntentGraspは、多目的把握検出のための公共データセットのギャップを、多言語および間接的なコマンドで埋める大規模なベンチマークである。
論文 参考訳(メタデータ) (2025-03-20T10:32:38Z) - MQADet: A Plug-and-Play Paradigm for Enhancing Open-Vocabulary Object Detection via Multimodal Question Answering [5.503514317063399]
既存のオープンボキャブラリ検出器は、複雑な視覚・テクスチャのミスアライメントと長い尾のカテゴリーの不均衡によって制限される。
マルチモーダルな大言語モデルのクロスモーダル推論機能を活用することで、既存のオープン語彙検出器を強化するための共通パラダイムであるMQADetを紹介する。
複雑なテキストと視覚的ターゲットを正確にローカライズするためにMLLMをガイドする3段階のMultimodal Question Answering (MQA) パイプラインを設計する。
論文 参考訳(メタデータ) (2025-02-23T07:59:39Z) - Propensity-driven Uncertainty Learning for Sample Exploration in Source-Free Active Domain Adaptation [19.620523416385346]
ソースフリーアクティブドメイン適応(SFADA)は、ソースデータにアクセスせずに、トレーニング済みのモデルを新しいドメインに適応するという課題に対処する。
このシナリオは、データプライバシ、ストレージ制限、ラベル付けコストが重要な懸念事項である現実世界のアプリケーションに特に関係している。
Propensity-driven Uncertainty Learning (ProULearn) フレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-23T10:05:25Z) - OW-Rep: Open World Object Detection with Instance Representation Learning [1.8749305679160366]
Open World Object Detection (OWOD)は、見えないオブジェクトクラスが出現する現実的なシナリオに対処する。
OWODフレームワークを拡張して、未知のオブジェクトを共同で検出し、セマンティックにリッチなインスタンス埋め込みを学ぶ。
論文 参考訳(メタデータ) (2024-09-24T13:13:34Z) - End-to-end Open-vocabulary Video Visual Relationship Detection using Multi-modal Prompting [68.37943632270505]
Open-vocabulary video visual relationship detectionは、ビデオの視覚的関係の検出をカテゴリを超えて拡張することを目的としている。
既存の方法は、通常、閉じたデータセットで訓練された軌跡検出器を使用して物体の軌跡を検出する。
我々はCLIPの豊富な意味的知識を活用して新しい関係を発見するオープン語彙関係を提案する。
論文 参考訳(メタデータ) (2024-09-19T06:25:01Z) - Explainable Attention for Few-shot Learning and Beyond [7.044125601403848]
本稿では,説明可能な難易度発見,特に数発の学習シナリオに適した新しいフレームワークを提案する。
提案手法では、深層強化学習を用いて、生の入力データに直接影響するハードアテンションの概念を実装している。
論文 参考訳(メタデータ) (2023-10-11T18:33:17Z) - CoTDet: Affordance Knowledge Prompting for Task Driven Object Detection [42.2847114428716]
タスク駆動オブジェクト検出は、イメージ内のタスクを提供するのに適したオブジェクトインスタンスを検出することを目的としている。
その課題は、従来のオブジェクト検出のためのクローズドなオブジェクト語彙に制限されるほど多様すぎるタスクのために利用できるオブジェクトカテゴリにある。
本稿では,オブジェクトカテゴリではなく,異なるオブジェクトが同じタスクを達成できる共通属性について検討する。
論文 参考訳(メタデータ) (2023-09-03T06:18:39Z) - Comparing AutoML and Deep Learning Methods for Condition Monitoring
using Realistic Validation Scenarios [0.0]
本研究では、AutoMLツールボックスを用いた条件監視タスクにおける従来の機械学習手法とディープラーニングを広範囲に比較する。
実験では、ランダムなK倍のクロスバリデーションシナリオにおいて、全ての試験モデルに対して一貫した高い精度を示す。
実際のシナリオにおけるドメインシフトの存在を示す明確な勝者は現れない。
論文 参考訳(メタデータ) (2023-08-28T14:57:29Z) - Improving Few-Shot Generalization by Exploring and Exploiting Auxiliary
Data [100.33096338195723]
補助データを用いたFew-shot Learning(FLAD)に焦点を当てる。
FLADは、一般化を改善するために、数ショットの学習中に補助データへのアクセスを前提としている。
提案するアルゴリズムは EXP3-FLAD と UCB1-FLAD の2つである。
論文 参考訳(メタデータ) (2023-02-01T18:59:36Z) - Texture-guided Saliency Distilling for Unsupervised Salient Object
Detection [67.10779270290305]
本研究では, 簡便かつ高精度な塩分濃度の知識を抽出するUSOD法を提案する。
提案手法は,RGB,RGB-D,RGB-T,ビデオSODベンチマーク上での最先端USOD性能を実現する。
論文 参考訳(メタデータ) (2022-07-13T02:01:07Z) - Consecutive Pretraining: A Knowledge Transfer Learning Strategy with
Relevant Unlabeled Data for Remote Sensing Domain [25.84756140221655]
自然言語処理(NLP)における事前学習を停止しないという考え方に基づいて,CSPT(ConSecutive PreTraining)を提案する。
提案したCSPTは、タスク対応モデルトレーニングのためのラベルなしデータの巨大な可能性を公開することもできる。
その結果,提案したCSPTをタスク認識モデルトレーニングに活用することにより,従来の教師付きプレトレーニング-then-fine-tuning法よりもRTDのダウンストリームタスクのほとんどを上回り得ることがわかった。
論文 参考訳(メタデータ) (2022-07-08T12:32:09Z) - Contrastive Object Detection Using Knowledge Graph Embeddings [72.17159795485915]
一つのホットアプローチで学習したクラス埋め込みの誤差統計と、自然言語処理や知識グラフから意味的に構造化された埋め込みを比較した。
本稿では,キーポイントベースおよびトランスフォーマーベースオブジェクト検出アーキテクチャの知識埋め込み設計を提案する。
論文 参考訳(メタデータ) (2021-12-21T17:10:21Z) - Object Pursuit: Building a Space of Objects via Discriminative Weight
Generation [23.85039747700698]
視覚学習と理解のためのオブジェクト中心表現を継続的に学習するフレームワークを提案する。
我々は、オブジェクト中心の表現を学習しながら、オブジェクトとそれに対応するトレーニング信号の多様なバリエーションをサンプリングするために、インタラクションを活用する。
提案するフレームワークの重要な特徴について広範な研究を行い,学習した表現の特徴を分析した。
論文 参考訳(メタデータ) (2021-12-15T08:25:30Z) - Multi-modal Transformers Excel at Class-agnostic Object Detection [105.10403103027306]
既存の手法では、人間の理解可能な意味論によって支配されるトップダウンの監視信号が欠落していると論じる。
マルチスケール特徴処理と変形可能な自己アテンションを用いた効率よく柔軟なMViTアーキテクチャを開発した。
多様なアプリケーションにおけるMViT提案の重要性を示す。
論文 参考訳(メタデータ) (2021-11-22T18:59:29Z) - Robust Object Detection via Instance-Level Temporal Cycle Confusion [89.1027433760578]
物体検出器の分布外一般化を改善するための補助的自己監視タスクの有効性を検討する。
最大エントロピーの原理に触発されて,新しい自己監督タスクであるインスタンスレベル時間サイクル混乱(cycconf)を導入する。
それぞれのオブジェクトに対して、タスクは、ビデオ内の隣接するフレームで最も異なるオブジェクトの提案を見つけ、自己スーパービジョンのために自分自身にサイクルバックすることです。
論文 参考訳(メタデータ) (2021-04-16T21:35:08Z) - Few-Cost Salient Object Detection with Adversarial-Paced Learning [95.0220555274653]
本稿では,少数のトレーニング画像にのみ手動アノテーションを応用して,効果的なサルエント物体検出モデルを学習することを提案する。
我々は,このタスクを,少額の有能な物体検出とみなし,少数のコストの学習シナリオを促進するために,APL(Adversarialpaced Learning)ベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-05T14:15:49Z) - Visual Relationship Detection with Visual-Linguistic Knowledge from
Multimodal Representations [103.00383924074585]
視覚的関係検出は、画像内の有能なオブジェクト間の関係を推論することを目的としている。
変換器からの視覚言語表現(RVL-BERT)という新しい手法を提案する。
RVL-BERTは、自己教師付き事前学習を通じて学習した視覚的・言語的常識知識を用いて空間推論を行う。
論文 参考訳(メタデータ) (2020-09-10T16:15:09Z) - Learning to Count in the Crowd from Limited Labeled Data [109.2954525909007]
我々は,限られた数のラベル付きサンプルから参加者を数えることを学ぶことで,アノテーションの努力を減らすことに重点を置いている。
具体的には,未ラベルデータに対する擬似地下真理推定を含むガウス過程に基づく反復学習機構を提案する。
論文 参考訳(メタデータ) (2020-07-07T04:17:01Z) - Stance Detection Benchmark: How Robust Is Your Stance Detection? [65.91772010586605]
Stance Detection (StD) は、あるトピックやクレームに対する著者の姿勢を検出することを目的としている。
マルチデータセット学習環境において、さまざまなドメインの10のStDデータセットから学習するStDベンチマークを導入する。
このベンチマーク設定では、5つのデータセットに新しい最先端結果を表示することができます。
論文 参考訳(メタデータ) (2020-01-06T13:37:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。