論文の概要: F$^3$Set: Towards Analyzing Fast, Frequent, and Fine-grained Events from Videos
- arxiv url: http://arxiv.org/abs/2504.08222v1
- Date: Fri, 11 Apr 2025 03:05:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-14 14:20:02.262232
- Title: F$^3$Set: Towards Analyzing Fast, Frequent, and Fine-grained Events from Videos
- Title(参考訳): F$3$Set: ビデオから高速、頻繁、きめ細かいイベントを分析する
- Authors: Zhaoyu Liu, Kan Jiang, Murong Ma, Zhe Hou, Yun Lin, Jin Song Dong,
- Abstract要約: F$3$Setは、正確なF$3$イベント検出のためのビデオデータセットで構成されるベンチマークである。
我々は、F$3$Setで一般的な時間的行動理解手法を評価し、既存の手法の課題を明らかにした。
本稿では,F$3$イベント検出のための新しい手法F$3$EDを提案する。
- 参考スコア(独自算出の注目度): 9.12807394556914
- License:
- Abstract: Analyzing Fast, Frequent, and Fine-grained (F$^3$) events presents a significant challenge in video analytics and multi-modal LLMs. Current methods struggle to identify events that satisfy all the F$^3$ criteria with high accuracy due to challenges such as motion blur and subtle visual discrepancies. To advance research in video understanding, we introduce F$^3$Set, a benchmark that consists of video datasets for precise F$^3$ event detection. Datasets in F$^3$Set are characterized by their extensive scale and comprehensive detail, usually encompassing over 1,000 event types with precise timestamps and supporting multi-level granularity. Currently, F$^3$Set contains several sports datasets, and this framework may be extended to other applications as well. We evaluated popular temporal action understanding methods on F$^3$Set, revealing substantial challenges for existing techniques. Additionally, we propose a new method, F$^3$ED, for F$^3$ event detections, achieving superior performance. The dataset, model, and benchmark code are available at https://github.com/F3Set/F3Set.
- Abstract(参考訳): Fast, Frequent, Fine-fine(F$^3$)イベントの分析は、ビデオ分析とマルチモーダルLLMにおいて大きな課題となる。
現行の手法では、動きのぼやけや微妙な視覚的相違などの問題により、F$^3$の基準を満たす事象を高精度に識別するのに苦労している。
ビデオ理解の研究を進めるために、F$^3$Setという、正確なF$^3$イベント検出のためのビデオデータセットからなるベンチマークを導入する。
F$3$Setのデータセットは、その広範なスケールと包括的詳細を特徴とし、通常は1000以上のイベントタイプと正確なタイムスタンプを持ち、マルチレベルな粒度をサポートする。
現在、F$^3$Setにはいくつかのスポーツデータセットが含まれており、このフレームワークは他のアプリケーションにも拡張することができる。
F$3$Set上での時間的行動理解手法の評価を行い,既存の手法の課題を明らかにした。
さらに,F$^3$イベント検出のための新しい手法F$^3$EDを提案する。
データセット、モデル、ベンチマークコードはhttps://github.com/F3Set/F3Setで公開されている。
関連論文リスト
- Grounding Partially-Defined Events in Multimodal Data [61.0063273919745]
部分定義イベントに対するマルチモーダル定式化を導入し、これらのイベントの抽出を3段階スパン検索タスクとしてキャストする。
このタスクのベンチマークであるMultiVENT-Gを提案し,22.8Kのラベル付きイベント中心エンティティを含む,14.5時間の高密度アノテーション付き現在のイベントビデオと1,168のテキストドキュメントからなる。
結果は、イベント理解の抽象的な課題を示し、イベント中心のビデオ言語システムにおける約束を実証する。
論文 参考訳(メタデータ) (2024-10-07T17:59:48Z) - Uni$^2$Det: Unified and Universal Framework for Prompt-Guided Multi-dataset 3D Detection [64.08296187555095]
Uni$2$Detは3D検出のための統一的で普遍的なマルチデータセットトレーニングのためのフレームワークである。
マルチデータセット3D検出のためのマルチステージプロンプトモジュールを提案する。
ゼロショットクロスデータセット転送の結果は,提案手法の一般化能力を検証する。
論文 参考訳(メタデータ) (2024-09-30T17:57:50Z) - Towards Event-oriented Long Video Understanding [101.48089908037888]
Event-Benchは、既存のデータセットとヒューマンアノテーションに基づいて構築された、イベント指向の長いビデオ理解ベンチマークである。
VIMは、統合されたイベント集約型ビデオ命令を用いて、ビデオMLLMを強化するコスト効率のよい方法である。
論文 参考訳(メタデータ) (2024-06-20T09:14:19Z) - SimAD: A Simple Dissimilarity-based Approach for Time Series Anomaly Detection [11.846850082915084]
時系列異常検出のためのSimAD, $textbfSim$ple dissimilarity-based approachを紹介した。
SimADには、拡張時間窓の処理に適した高度な特徴抽出器と、正規データと異常データの間の分散分散をアクセントするContrastFusionモジュールが組み込まれている。
さまざまな時系列データセットのtextbfsevenにわたる実験では、SimADが最先端のメソッドよりも優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-05-18T09:37:04Z) - Improving Event Definition Following For Zero-Shot Event Detection [66.27883872707523]
ゼロショットイベント検出に対する既存のアプローチは通常、既知のイベントタイプをアノテートしたデータセット上でモデルをトレーニングする。
イベント定義に従うためのトレーニングモデルによるゼロショットイベント検出の改善を目指しています。
論文 参考訳(メタデータ) (2024-03-05T01:46:50Z) - Event Stream-based Visual Object Tracking: A High-Resolution Benchmark
Dataset and A Novel Baseline [38.42400442371156]
既存の作業は、整列したRGBとイベントデータを使用して正確なトラッキングを行うか、イベントベースのトラッカーを直接学習する。
本稿では,知識伝達を促進するために,学習中に多モード/多ビュー情報を十分に活用できる新しい階層型知識蒸留フレームワークを提案する。
EventVOTという,最初の大規模高解像度(1280×720$)のデータセットを提案する。1141のビデオが収録されており,歩行者や自動車,UAV,ピンポンなど,幅広いカテゴリをカバーする。
論文 参考訳(メタデータ) (2023-09-26T01:42:26Z) - Zero- and Few-Shot Event Detection via Prompt-Based Meta Learning [45.3385722995475]
ゼロおよび少数ショットイベント検出のためのメタ学習ベースのフレームワークであるMetaEventを提案する。
本フレームワークでは,クローゼをベースとしたプロンプトとトリガ対応ソフトを用いて,未知のイベントタイプに効率的に出力を投影する手法を提案する。
そのため、提案されたMetaEventは、事前の知識なしに、機能とイベントタイプをマッピングすることで、ゼロショットイベント検出を実行することができる。
論文 参考訳(メタデータ) (2023-05-27T05:36:46Z) - PILED: An Identify-and-Localize Framework for Few-Shot Event Detection [79.66042333016478]
本研究では,事前学習した言語モデルから事象関連知識を引き出すために,クローゼプロンプトを用いた。
型固有のパラメータの数を最小化し、新しい型に対するイベント検出タスクに迅速に適応できるようにします。
論文 参考訳(メタデータ) (2022-02-15T18:01:39Z) - VisEvent: Reliable Object Tracking via Collaboration of Frame and Event
Flows [93.54888104118822]
このタスクには現実的でスケールしたデータセットがないため、大規模なVisible-Eventベンチマーク(VisEventと呼ぶ)を提案する。
私たちのデータセットは、低照度、高速、背景乱雑なシナリオ下でキャプチャされた820のビデオペアで構成されています。
VisEventに基づいて、イベントフローをイベントイメージに変換し、30以上のベースラインメソッドを構築します。
論文 参考訳(メタデータ) (2021-08-11T03:55:12Z) - Event detection in coarsely annotated sports videos via parallel multi
receptive field 1D convolutions [14.30009544149561]
スポーツビデオ分析のような問題では、正確なフレームレベルのアノテーションと正確なイベント時間を得るのは難しい。
粗い注釈付きビデオにおけるイベント検出の課題を提案する。
本稿では,提案課題に対する多層時間畳み込みネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-04-13T19:51:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。