論文の概要: MM-SEAL: A Large-scale Video Dataset of Multi-person Multi-grained Spatio-temporally Action Localization
- arxiv url: http://arxiv.org/abs/2204.02688v2
- Date: Wed, 27 Nov 2024 06:14:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-28 15:23:45.862601
- Title: MM-SEAL: A Large-scale Video Dataset of Multi-person Multi-grained Spatio-temporally Action Localization
- Title(参考訳): MM-SEAL:多人数多人数時空間行動の大規模ビデオデータセット
- Authors: Shimin Chen, Wei Li, Chen Chen, Jianyang Gu, Jiaming Chu, Xunqiang Tao, Yandong Guo,
- Abstract要約: マルチパーソン・複雑なアクティビティ・ローカライゼーションのための新しいベンチマークを最初に提案する。
我々は、制限された原子の作用が多くの複雑な活動に組み合わされることを観察する。
MM-SEALは、アトミックアクションと複雑なアクティビティアノテーションの両方を提供し、172のアクションカテゴリにまたがる111.7kのアトミックアクションと、200のアクティビティカテゴリにまたがる17.7kの複雑なアクティビティを生成する。
- 参考スコア(独自算出の注目度): 19.721688276051363
- License:
- Abstract: In this paper, we introduce a novel large-scale video dataset dubbed MM-SEAL for multi-person multi-grained spatio-temporal action localization among human daily life. We are the first to propose a new benchmark for multi-person spatio-temporal complex activity localization, where complex semantic and long duration bring new challenges to localization tasks. We observe that limited atomic actions can be combined into many complex activities. MM-SEAL provides both atomic action and complex activity annotations, producing 111.7k atomic actions spanning 172 action categories and 17.7k complex activities spanning 200 activity categories. We explore the relationship between atomic actions and complex activities, finding that atomic action features can improve the complex activity localization performance. Also, we propose a new network which generates temporal proposals and labels simultaneously, termed Faster-TAD. Finally, our evaluations show that visual features pretrained on MM-SEAL can improve the performance on other action localization benchmarks. We will release the dataset and the project code upon publication of the paper.
- Abstract(参考訳): 本稿では,MM-SEALと呼ばれる大規模ビデオデータセットについて紹介する。
我々は,多人数の時空間的複合活動ローカライゼーションのための新しいベンチマークを最初に提案し,そこでは複雑な意味論と長期が局所化タスクに新たな課題をもたらす。
我々は、制限された原子の作用が多くの複雑な活動に組み合わされることを観察する。
MM-SEALは、アトミックアクションと複雑なアクティビティアノテーションの両方を提供し、172のアクションカテゴリにまたがる111.7kのアトミックアクションと、200のアクティビティカテゴリにまたがる17.7kの複雑なアクティビティを生成する。
我々は、原子活動と複雑な活動の関係について検討し、原子行動の特徴が複雑な活動の局所化性能を向上させることを発見した。
また、時間的提案とラベルを同時に生成する新しいネットワークであるFaster-TADを提案する。
最後に,MM-SEALで事前学習した視覚的特徴が,他の動作ローカライゼーションベンチマークの性能を向上させることを示す。
論文が公開されたら、データセットとプロジェクトコードをリリースします。
関連論文リスト
- Technical Report for ActivityNet Challenge 2022 -- Temporal Action Localization [20.268572246761895]
本稿では,各アクションの時間的境界を特定し,未トリミングビデオにおけるアクションクラスを予測することを提案する。
Faster-TADは、TADのパイプラインを単純化し、素晴らしいパフォーマンスを得る。
論文 参考訳(メタデータ) (2024-10-31T14:16:56Z) - Temporal Grounding of Activities using Multimodal Large Language Models [0.0]
画像ベースとテキストベースの大規模言語モデル(LLM)を時間的活動局所化のための2段階的アプローチで組み合わせることの有効性を評価する。
提案手法は既存のビデオベースLLMよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-05-30T09:11:02Z) - Learning to Refactor Action and Co-occurrence Features for Temporal
Action Localization [74.74339878286935]
アクション機能と共起機能は、しばしばビデオの実際のアクションコンテンツを支配します。
ビデオスニペット内でこれらの2種類の特徴を分離することで,新しい補助タスクを開発する。
まず、アクション内容を明示的に分解し、その共起機能を正規化します。
論文 参考訳(メタデータ) (2022-06-23T06:30:08Z) - Off-Beat Multi-Agent Reinforcement Learning [62.833358249873704]
オフビート動作が一般的環境におけるモデルフリーマルチエージェント強化学習(MARL)について検討した。
モデルレスMARLアルゴリズムのための新しいエピソードメモリLeGEMを提案する。
我々は,Stag-Hunter Game,Quarry Game,Afforestation Game,StarCraft IIマイクロマネジメントタスクなど,オフビートアクションを伴うさまざまなマルチエージェントシナリオ上でLeGEMを評価する。
論文 参考訳(メタデータ) (2022-05-27T02:21:04Z) - Towards High-Quality Temporal Action Detection with Sparse Proposals [14.923321325749196]
時間的アクション検出は、人間のアクションインスタンスを含む時間的セグメントをローカライズし、アクションカテゴリを予測することを目的としている。
階層的特徴と相互作用するためにスパース提案を導入する。
実験により,高いtIoU閾値下での本手法の有効性が示された。
論文 参考訳(メタデータ) (2021-09-18T06:15:19Z) - Temporal Action Segmentation with High-level Complex Activity Labels [29.17792724210746]
我々は、高レベルなアクティビティラベルのみを入力とするアクションセグメントを学習する。
本稿では,ビデオ中の構成要素を自動検出する新しいアクション発見フレームワークを提案する。
論文 参考訳(メタデータ) (2021-08-15T09:50:42Z) - FineAction: A Fined Video Dataset for Temporal Action Localization [60.90129329728657]
FineActionは、既存のビデオデータセットとWebビデオから収集された、新しい大規模なファインドビデオデータセットである。
このデータセットには、106のアクションカテゴリにまたがる約17Kの未トリミングビデオに高密度にアノテートされた139Kのアクションインスタンスが含まれている。
実験結果から,FineActionは短い期間のファインドおよびマルチラベルインスタンス上でのアクションローカライゼーションに新たな課題をもたらすことが明らかとなった。
論文 参考訳(メタデータ) (2021-05-24T06:06:32Z) - Semi-Supervised Few-Shot Atomic Action Recognition [59.587738451616495]
半教師付き数発のアトミック・アクション認識のための新しいモデルを提案する。
我々のモデルは、教師なしおよびコントラスト付きビデオ埋め込み、ゆるやかなアクションアライメント、マルチヘッド特徴比較、アテンションベースのアグリゲーションを特徴としている。
実験により,本モデルは,それぞれの最先端の分類精度よりも高い精度を全監督条件下で達成できることが確認された。
論文 参考訳(メタデータ) (2020-11-17T03:59:05Z) - Complementary Boundary Generator with Scale-Invariant Relation Modeling
for Temporal Action Localization: Submission to ActivityNet Challenge 2020 [66.4527310659592]
本報告では,ActivityNet Challenge 2020 Task 1への提出時に使用したソリューションの概要を紹介する。
時間的行動ローカライゼーションタスクを2段階(すなわち提案生成と分類)に分離し,提案の多様性を高める。
提案手法は,課題テストセット上での平均mAPを用いて,時間的動作の局所化タスクにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-20T04:35:40Z) - Inferring Temporal Compositions of Actions Using Probabilistic Automata [61.09176771931052]
本稿では,動作の時間的構成を意味正規表現として表現し,確率的オートマトンを用いた推論フレームワークを提案する。
我々のアプローチは、長い範囲の複雑なアクティビティを、順序のないアトミックアクションのセットとして予測するか、自然言語文を使ってビデオを取得するという既存の研究とは異なる。
論文 参考訳(メタデータ) (2020-04-28T00:15:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。