論文の概要: UAL-Bench: The First Comprehensive Unusual Activity Localization Benchmark
- arxiv url: http://arxiv.org/abs/2410.01180v1
- Date: Wed, 2 Oct 2024 02:33:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 22:50:44.175665
- Title: UAL-Bench: The First Comprehensive Unusual Activity Localization Benchmark
- Title(参考訳): UAL-Bench: 初の総合的ユビキタスなアクティビティローカライゼーションベンチマーク
- Authors: Hasnat Md Abdullah, Tian Liu, Kangda Wei, Shu Kong, Ruihong Huang,
- Abstract要約: ビデオにおけるヒューマンエラーや監視インシデントなどの異常な活動のローカライズは、現実的に重要な意味を持つ。
異常な活動のローカライズにおける基礎モデルの能力を探るため,UAL-Benchを紹介する。
UAL-Benchには、UAG-OOPS、UAG-SSBD、UAG-FunQAという3つのビデオデータセットと、OOPS-UAG-Instructというインストラクション・トゥンデータセットがある。
以上の結果から,VLM-LLMアプローチはVid-LLMよりも短時間の異常事象の局所化や開始時刻の予測に優れていた。
- 参考スコア(独自算出の注目度): 20.15425745473231
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Localizing unusual activities, such as human errors or surveillance incidents, in videos holds practical significance. However, current video understanding models struggle with localizing these unusual events likely because of their insufficient representation in models' pretraining datasets. To explore foundation models' capability in localizing unusual activity, we introduce UAL-Bench, a comprehensive benchmark for unusual activity localization, featuring three video datasets: UAG-OOPS, UAG-SSBD, UAG-FunQA, and an instruction-tune dataset: OOPS-UAG-Instruct, to improve model capabilities. UAL-Bench evaluates three approaches: Video-Language Models (Vid-LLMs), instruction-tuned Vid-LLMs, and a novel integration of Vision-Language Models and Large Language Models (VLM-LLM). Our results show the VLM-LLM approach excels in localizing short-span unusual events and predicting their onset (start time) more accurately than Vid-LLMs. We also propose a new metric, R@1, TD <= p, to address limitations in existing evaluation methods. Our findings highlight the challenges posed by long-duration videos, particularly in autism diagnosis scenarios, and the need for further advancements in localization techniques. Our work not only provides a benchmark for unusual activity localization but also outlines the key challenges for existing foundation models, suggesting future research directions on this important task.
- Abstract(参考訳): ビデオにおけるヒューマンエラーや監視インシデントなどの異常な活動のローカライズは、現実的に重要な意味を持つ。
しかし、現在のビデオ理解モデルは、モデルの事前学習データセットに不十分な表現があるため、これらの異常な事象をローカライズするのに苦労している。
UAG-OOPS, UAG-SSBD, UAG-FunQAの3つのビデオデータセットと、OOPS-UAG-Instructというインストラクション・トゥーン・データセットを特徴とする、異常なアクティビティローカライゼーションのための総合的なベンチマークであるUAL-Benchを紹介する。
UAL-Benchは、ビデオ言語モデル(Vid-LLM)、命令調整型Vid-LLM(Vid-LLM)、ビジョン言語モデルと大規模言語モデル(VLM-LLM)の新たな統合の3つのアプローチを評価する。
以上の結果から,VLM-LLMアプローチはVid-LLMよりも短時間の異常事象の局所化や開始時刻の予測に優れていた。
また、既存の評価手法の限界に対処するため、新しい計量 R@1, TD <= p も提案する。
以上の結果から,特に自閉症の診断シナリオにおける長期経過ビデオの課題と,ローカライゼーション技術のさらなる進歩の必要性が浮き彫りになった。
我々の研究は、異常な活動ローカライゼーションのベンチマークを提供するだけでなく、既存の基盤モデルにおける重要な課題を概説し、この重要な課題に関する今後の研究方向性を示唆している。
関連論文リスト
- Zero-shot Action Localization via the Confidence of Large Vision-Language Models [19.683461002518147]
真のZEro-shot Action Localization法(ZEAL)を提案する。
具体的には、大規模言語モデル(LLM)の組み込みアクション知識を活用して、アクションを詳細に記述する。
我々は、訓練をせずに、挑戦的なベンチマークでゼロショットアクションローカライゼーションの顕著な結果を示す。
論文 参考訳(メタデータ) (2024-10-18T09:51:14Z) - Exploring Scalability of Self-Training for Open-Vocabulary Temporal Action Localization [44.00346424334902]
時間的行動ローカライゼーション(OV-TAL)のためのラベルなしYouTubeビデオによる自己学習のスケーラビリティについて検討する。
提案手法は,(1)分類に依存しない行動ローカライザを人間のラベル付きtalデータセット上でトレーニングし,未ラベル付きビデオの擬似ラベルを生成し,(2)大規模擬似ラベル付きデータセットを用いてローカライザのトレーニングを行う。
論文 参考訳(メタデータ) (2024-07-09T16:44:04Z) - VANE-Bench: Video Anomaly Evaluation Benchmark for Conversational LMMs [64.60035916955837]
VANE-Benchはビデオの異常や矛盾を検出するためのビデオLMMの熟練度を評価するために設計されたベンチマークである。
我々のデータセットは、既存の最先端のテキスト・ビデオ生成モデルを用いて合成された一連のビデオから構成される。
我々は、このベンチマークタスクにおいて、オープンソースとクローズドソースの両方で既存の9つのビデオLMMを評価し、ほとんどのモデルが微妙な異常を効果的に識別するのに困難に直面することを発見した。
論文 参考訳(メタデータ) (2024-06-14T17:59:01Z) - Open-Vocabulary Spatio-Temporal Action Detection [59.91046192096296]
OV-STAD (Open-vocabulary-temporal action detection) は,ビデオ理解において重要な課題である。
OV-STADは、ボックスとラベルを監督する限定されたベースクラスでモデルをトレーニングする必要がある。
局所的なビデオ領域とテキストのペアに対して、細かなアクション検出タスクに対して、より精巧なVLMを適用するために、慎重に微調整を行う。
論文 参考訳(メタデータ) (2024-05-17T14:52:47Z) - Test-Time Zero-Shot Temporal Action Localization [58.84919541314969]
ZS-TALは、トレーニング中に目に見えないビデオのアクションを特定し、見つけようとしている。
トレーニングベースのZS-TALアプローチは、教師あり学習のためのラベル付きデータの可用性を前提としている。
時間的行動ローカライゼーション(T3AL)のためのテスト時間適応を行う新しい手法を提案する。
論文 参考訳(メタデータ) (2024-04-08T11:54:49Z) - Harnessing Large Language Models for Training-free Video Anomaly Detection [34.76811491190446]
ビデオ異常検出(VAD)は、ビデオ内の異常事象を時間的に検出することを目的としている。
トレーニングベースのメソッドはドメイン固有のものになりがちなので、実践的なデプロイメントにはコストがかかる。
Language-based VAD (LAVAD)を提案する。
論文 参考訳(メタデータ) (2024-04-01T09:34:55Z) - Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Grounding [108.79026216923984]
ビデオグラウンドイングは、入力テキストクエリに対応するビデオ内の時間セクションをローカライズすることを目的としている。
本稿では,現在のビデオグラウンドリング手法において,オープン語彙時空間ビデオグラウンドニングタスクを導入することにより,限界に対処する。
論文 参考訳(メタデータ) (2023-12-31T13:53:37Z) - Optimization Efficient Open-World Visual Region Recognition [55.76437190434433]
RegionSpotは、ローカライゼーション基盤モデルから位置認識ローカライゼーション知識と、ViLモデルからのセマンティック情報を統合する。
オープンワールドオブジェクト認識の実験では、私たちのRereaSpotは、以前の代替よりも大きなパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2023-11-02T16:31:49Z) - Dense Video Object Captioning from Disjoint Supervision [77.47084982558101]
本稿では,高密度ビデオオブジェクトキャプションのための新しいタスクとモデルを提案する。
このタスクは、ビデオにおける空間的および時間的局所化を統一する。
我々は、この新しいタスクの強力なベースラインにおいて、我々のモデルがどのように改善されているかを示す。
論文 参考訳(メタデータ) (2023-06-20T17:57:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。