論文の概要: AnomalyLMM: Bridging Generative Knowledge and Discriminative Retrieval for Text-Based Person Anomaly Search
- arxiv url: http://arxiv.org/abs/2509.04376v1
- Date: Thu, 04 Sep 2025 16:34:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 20:21:10.223544
- Title: AnomalyLMM: Bridging Generative Knowledge and Discriminative Retrieval for Text-Based Person Anomaly Search
- Title(参考訳): AnomalyLMM:テキストに基づく異常検索のための生成知識と識別検索
- Authors: Hao Ju, Hu Zhang, Zhedong Zheng,
- Abstract要約: テキストベースの人物異常検索にLMMを利用する最初のフレームワークであるAnomalyLMMを提案する。
PABデータセットについて厳密な評価を行い、テキストベースの人物異常検索のための唯一の公開ベンチマークである。
実験により,提案手法の有効性が示され,競争基準を+0.96%のRecall@1精度で上回った。
- 参考スコア(独自算出の注目度): 20.097560079540532
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With growing public safety demands, text-based person anomaly search has emerged as a critical task, aiming to retrieve individuals with abnormal behaviors via natural language descriptions. Unlike conventional person search, this task presents two unique challenges: (1) fine-grained cross-modal alignment between textual anomalies and visual behaviors, and (2) anomaly recognition under sparse real-world samples. While Large Multi-modal Models (LMMs) excel in multi-modal understanding, their potential for fine-grained anomaly retrieval remains underexplored, hindered by: (1) a domain gap between generative knowledge and discriminative retrieval, and (2) the absence of efficient adaptation strategies for deployment. In this work, we propose AnomalyLMM, the first framework that harnesses LMMs for text-based person anomaly search. Our key contributions are: (1) A novel coarse-to-fine pipeline integrating LMMs to bridge generative world knowledge with retrieval-centric anomaly detection; (2) A training-free adaptation cookbook featuring masked cross-modal prompting, behavioral saliency prediction, and knowledge-aware re-ranking, enabling zero-shot focus on subtle anomaly cues. As the first study to explore LMMs for this task, we conduct a rigorous evaluation on the PAB dataset, the only publicly available benchmark for text-based person anomaly search, with its curated real-world anomalies covering diverse scenarios (e.g., falling, collision, and being hit). Experiments show the effectiveness of the proposed method, surpassing the competitive baseline by +0.96% Recall@1 accuracy. Notably, our method reveals interpretable alignment between textual anomalies and visual behaviors, validated via qualitative analysis. Our code and models will be released for future research.
- Abstract(参考訳): 公衆の安全要求が高まるにつれ、テキストベースの人物異常検索が重要課題となり、自然言語の記述を通じて異常な行動を持つ個人を検索することを目指している。
従来の人物探索とは違って,本課題では,(1)テキストの異常と視覚行動の微粒な相互アライメント,(2)まばらな実世界のサンプル下での異常認識の2つの課題を提示する。
大規模マルチモーダルモデル(LMM)はマルチモーダル理解において優れているが, 細粒度異常検索の可能性は, 1) 生成的知識と識別的検索の領域ギャップ, (2) 展開のための効率的な適応戦略の欠如によって未解明のままである。
本研究では,テキストベースの人物異常検索にLMMを利用する最初のフレームワークであるAnomalyLMMを提案する。
主な貢献は,(1)LMMを組み込んだ新しい粗いパイプラインで,生成的世界知識と検索中心の異常検出を橋渡しし,(2)マスク付きクロスモーダルプロンプト,行動満足度予測,知識認識の再評価を施したトレーニングフリー適応クックブックにより,微妙な異常検出にゼロショットで焦点を合わせることができる。
このタスクのためのLMMを探索する最初の研究として、テキストベースの人物異常探索のための唯一一般公開されたベンチマークであるPABデータセットに対して厳密な評価を行い、様々なシナリオ(例えば、落下、衝突、衝突など)をカバーする実世界の異常をキュレートした。
実験により,提案手法の有効性が示され,競争基準を+0.96%のRecall@1精度で上回った。
特に,テキストの異常と視覚行動の相互関係を定性解析により検証した。
私たちのコードとモデルは将来の研究のためにリリースされます。
関連論文リスト
- Anomaly Detection in Human Language via Meta-Learning: A Few-Shot Approach [0.0]
本稿では,ラベル付きデータに制限のある多種多様な領域にまたがる人間の言語における異常を検出する枠組みを提案する。
異常検出を数発のバイナリ分類問題として扱い、メタラーニングを活用してタスクを一般化するモデルを訓練する。
提案手法は,エピソードトレーニングと原型ネットワークとドメイン再サンプリングを組み合わせることで,新しい異常検出タスクに迅速に適応する。
論文 参考訳(メタデータ) (2025-07-26T17:23:03Z) - Text-ADBench: Text Anomaly Detection Benchmark based on LLMs Embedding [27.02879006439693]
本研究は、総合的な実証的研究を行い、テキスト異常検出のためのベンチマークを導入する。
本研究は,埋め込み型テキスト異常検出の有効性を系統的に評価する。
ベンチマークツールキットをオープンソース化することで、この研究は、堅牢でスケーラブルなテキスト異常検出システムにおける将来の研究の基礎を提供する。
論文 参考訳(メタデータ) (2025-07-16T14:47:41Z) - CLIP Meets Diffusion: A Synergistic Approach to Anomaly Detection [54.85000884785013]
異常検出は、異常の定義の曖昧さ、異常型の多様性、トレーニングデータの不足による複雑な問題である。
識別的基盤モデルと生成的基礎モデルの両方を活用するCLIPfusionを提案する。
本手法は, 異常検出の多面的課題に対処する上で, マルチモーダル・マルチモデル融合の有効性を裏付けるものである。
論文 参考訳(メタデータ) (2025-06-13T13:30:15Z) - Few-Shot Anomaly-Driven Generation for Anomaly Classification and Segmentation [38.76264181764036]
異常検出は, 産業検査における異常サンプルの不足により, 実用的かつ困難な課題である。
本稿では,現実的かつ多様な異常を生成するために拡散モデルを誘導するAnoGen法を提案する。
本手法は,DRAEMとDesTSegを基礎モデルとして構築し,一般的な産業用異常検出データセットであるMVTecの実験を行う。
論文 参考訳(メタデータ) (2025-05-14T10:25:06Z) - Beyond Walking: A Large-Scale Image-Text Benchmark for Text-based Person Anomaly Search [25.907668574771705]
そこで本研究では,日常的・異常な活動に従事する歩行者をテキストで検索するタスクを提案する。
このタスクのトレーニングと評価を可能にするため,大規模画像テキストによる歩行者異常行動ベンチマークを構築した。
提案したベンチマーク実験により, 合成学習データにより詳細な動作の検索が容易となり, 提案手法は84.93%のリコール@1精度で到達した。
論文 参考訳(メタデータ) (2024-11-26T09:50:15Z) - A Comprehensive Library for Benchmarking Multi-class Visual Anomaly Detection [89.92916473403108]
本稿では,新しい手法のモジュラーフレームワークであるADerの総合的な視覚異常検出ベンチマークを提案する。
このベンチマークには、産業ドメインと医療ドメインからの複数のデータセットが含まれており、15の最先端メソッドと9つの包括的なメトリクスを実装している。
我々は,異なる手法の長所と短所を客観的に明らかにし,多クラス視覚異常検出の課題と今後の方向性について考察する。
論文 参考訳(メタデータ) (2024-06-05T13:40:07Z) - Few-Shot Anomaly Detection with Adversarial Loss for Robust Feature
Representations [8.915958745269442]
異常検出は、データセット内の通常のパターンや分布から逸脱したデータポイントを特定することを目的とした、重要で困難なタスクである。
ワンクラス・ワン・モデル手法を用いて様々な手法が提案されているが、これらの手法はメモリ不足や訓練に十分なデータを必要とするといった現実的な問題に直面していることが多い。
本稿では,より堅牢で一般化された特徴表現を得るために,対向訓練損失を統合する数発の異常検出手法を提案する。
論文 参考訳(メタデータ) (2023-12-04T09:45:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。