論文の概要: Multi-shot Temporal Event Localization: a Benchmark
- arxiv url: http://arxiv.org/abs/2012.09434v2
- Date: Thu, 15 Apr 2021 11:16:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-02 20:07:08.819787
- Title: Multi-shot Temporal Event Localization: a Benchmark
- Title(参考訳): マルチショット時間イベントローカライズ:ベンチマーク
- Authors: Xiaolong Liu (1), Yao Hu (2), Song Bai (2,3), Fei Ding (2), Xiang Bai
(1), Philip H.S. Torr (3) ((1) Huazhong University of Science and Technology,
(2) Alibaba Group, (3) University of Oxford)
- Abstract要約: マルチショット時間的イベントローカライゼーションという,新たな課題を提案する。
MUSESには合計716時間のイベントインスタンスが31,477件ある。
時間的動作の局所化における最先端手法はIoU=0.5で13.1%のmAPしか達成できないことを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current developments in temporal event or action localization usually target
actions captured by a single camera. However, extensive events or actions in
the wild may be captured as a sequence of shots by multiple cameras at
different positions. In this paper, we propose a new and challenging task
called multi-shot temporal event localization, and accordingly, collect a large
scale dataset called MUlti-Shot EventS (MUSES). MUSES has 31,477 event
instances for a total of 716 video hours. The core nature of MUSES is the
frequent shot cuts, for an average of 19 shots per instance and 176 shots per
video, which induces large intrainstance variations. Our comprehensive
evaluations show that the state-of-the-art method in temporal action
localization only achieves an mAP of 13.1% at IoU=0.5. As a minor contribution,
we present a simple baseline approach for handling the intra-instance
variations, which reports an mAP of 18.9% on MUSES and 56.9% on THUMOS14 at
IoU=0.5. To facilitate research in this direction, we release the dataset and
the project code at https://songbai.site/muses/ .
- Abstract(参考訳): 時間的イベントやアクションのローカライゼーションにおける現在の発展は、通常、単一のカメラによってキャプチャされたアクションをターゲットにしている。
しかし、野生での広範な出来事や行動は、異なる位置にある複数のカメラによって一連のショットとして捉えられる。
本稿では,MUSES(MUlti-Shot Events)と呼ばれる大規模データセットを収集し,マルチショット時間的イベントローカライゼーションという課題を新たに提案する。
MUSESには合計716時間のイベントインスタンスが31,477件ある。
MUSESの中核となる性質は、インスタンスあたり平均19ショット、ビデオあたり176ショットのショットカットであり、大きな制約変動を引き起こす。
総合評価の結果, 時間的動作の局所化における最先端手法はIoU=0.5で13.1%のmAPしか達成できないことがわかった。
若干の貢献として,iou=0.5のthums14では18.9%,thums14では56.9%のマップを報告し,instance内変異を扱うための単純なベースラインアプローチを提案する。
この方向の研究を容易にするため、データセットとプロジェクトコードをhttps://songbai.site/muses/でリリースします。
関連論文リスト
- Grounding Partially-Defined Events in Multimodal Data [61.0063273919745]
部分定義イベントに対するマルチモーダル定式化を導入し、これらのイベントの抽出を3段階スパン検索タスクとしてキャストする。
このタスクのベンチマークであるMultiVENT-Gを提案し,22.8Kのラベル付きイベント中心エンティティを含む,14.5時間の高密度アノテーション付き現在のイベントビデオと1,168のテキストドキュメントからなる。
結果は、イベント理解の抽象的な課題を示し、イベント中心のビデオ言語システムにおける約束を実証する。
論文 参考訳(メタデータ) (2024-10-07T17:59:48Z) - Path-adaptive Spatio-Temporal State Space Model for Event-based Recognition with Arbitrary Duration [9.547947845734992]
イベントカメラはバイオインスパイアされたセンサーで、強度の変化を非同期に捉え、イベントストリームを出力する。
本稿では, PAST-Act と呼ばれる新しいフレームワークを提案する。
私たちはまた、コミュニティの利益のために任意の期間で、ArDVS100という名前の分レベルのイベントベースの認識データセットを構築しました。
論文 参考訳(メタデータ) (2024-09-25T14:08:37Z) - FMI-TAL: Few-shot Multiple Instances Temporal Action Localization by Probability Distribution Learning and Interval Cluster Refinement [2.261014973523156]
本稿では,確率学習とクラスタリファインメントを備えた空間チャネル関係変換器を提案する。
この方法は,クエリビデオ中のアクションの開始と終了の境界を正確に識別することができる。
本モデルでは,ベンチマークデータセットである ActivityNet1.3 と THUMOS14 を用いて,厳密な実験を行うことで,競争性能を実現する。
論文 参考訳(メタデータ) (2024-08-25T08:17:25Z) - Implicit Event-RGBD Neural SLAM [54.74363487009845]
神経性SLAMは近年顕著な進歩を遂げている。
既存の手法は、非理想的なシナリオにおいて重大な課題に直面します。
本稿では,最初のイベントRGBD暗黙的ニューラルSLAMフレームワークであるEN-SLAMを提案する。
論文 参考訳(メタデータ) (2023-11-18T08:48:58Z) - Adaptive Perception Transformer for Temporal Action Localization [13.735402329482719]
本稿では適応知覚変換器(AdaPerFormer)と呼ばれる新しいエンドツーエンドモデルを提案する。
1つのブランチは、全ビデオシーケンスをモデル化し、グローバルな関連するコンテキストを集約するグローバルな認識の注意を気にする。
他のブランチは、フレーム内およびフレーム間の情報を集約するローカルな畳み込みシフトに集中する。
論文 参考訳(メタデータ) (2022-08-25T07:42:48Z) - Bridging the Gap between Events and Frames through Unsupervised Domain
Adaptation [57.22705137545853]
本稿では,ラベル付き画像とラベル付きイベントデータを用いてモデルを直接訓練するタスク転送手法を提案する。
生成イベントモデルを利用して、イベント機能をコンテンツとモーションに分割します。
われわれのアプローチは、イベントベースのニューラルネットワークのトレーニングのために、膨大な量の既存の画像データセットをアンロックする。
論文 参考訳(メタデータ) (2021-09-06T17:31:37Z) - The Spatio-Temporal Poisson Point Process: A Simple Model for the
Alignment of Event Camera Data [19.73526916714181]
イベントカメラは、視覚情報の自然で効率的な表現を提供する。
本稿では,その自然時間構造を捉えたイベントデータの新しいモデルを提案する。
DAVIS 240Cデータセット上での回転速度推定の精度向上について述べる。
論文 参考訳(メタデータ) (2021-06-13T00:43:27Z) - FineAction: A Fined Video Dataset for Temporal Action Localization [60.90129329728657]
FineActionは、既存のビデオデータセットとWebビデオから収集された、新しい大規模なファインドビデオデータセットである。
このデータセットには、106のアクションカテゴリにまたがる約17Kの未トリミングビデオに高密度にアノテートされた139Kのアクションインスタンスが含まれている。
実験結果から,FineActionは短い期間のファインドおよびマルチラベルインスタンス上でのアクションローカライゼーションに新たな課題をもたらすことが明らかとなった。
論文 参考訳(メタデータ) (2021-05-24T06:06:32Z) - Event-based Motion Segmentation with Spatio-Temporal Graph Cuts [51.17064599766138]
イベントベースカメラで取得したオブジェクトを独立に識別する手法を開発した。
この方法は、予想される移動物体の数を事前に決定することなく、技術状態よりも同等以上の性能を発揮する。
論文 参考訳(メタデータ) (2020-12-16T04:06:02Z) - 0-MMS: Zero-Shot Multi-Motion Segmentation With A Monocular Event Camera [13.39518293550118]
本稿では,ボトムアップ機能トラッキングとトップダウン動作補償を組み合わせたモノラルなマルチモーションセグメンテーション手法を提案する。
時間間隔内でのイベントを用いて、本手法はシーンを分割とマージによって複数の動作に分割する。
このアプローチは、EV-IMO、EED、MODデータセットから、挑戦的な現実シナリオと合成シナリオの両方で評価された。
論文 参考訳(メタデータ) (2020-06-11T02:34:29Z) - Revisiting Few-shot Activity Detection with Class Similarity Control [107.79338380065286]
本稿では,提案回帰に基づく数ショットの時間的活動検出のためのフレームワークを提案する。
我々のモデルはエンドツーエンドのトレーニングが可能で、数ショットのアクティビティと未トリミングなテストビデオのフレームレートの違いを考慮しており、さらに数ショットのサンプルの恩恵を受けることができる。
論文 参考訳(メタデータ) (2020-03-31T22:02:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。