論文の概要: FineAction: A Fined Video Dataset for Temporal Action Localization
- arxiv url: http://arxiv.org/abs/2105.11107v1
- Date: Mon, 24 May 2021 06:06:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-25 15:12:16.310577
- Title: FineAction: A Fined Video Dataset for Temporal Action Localization
- Title(参考訳): FineAction: 時間的アクションローカライゼーションのためのフィンドビデオデータセット
- Authors: Yi Liu, Limin Wang, Xiao Ma, Yali Wang, Yu Qiao
- Abstract要約: FineActionは、既存のビデオデータセットとWebビデオから収集された、新しい大規模なファインドビデオデータセットである。
このデータセットには、106のアクションカテゴリにまたがる約17Kの未トリミングビデオに高密度にアノテートされた139Kのアクションインスタンスが含まれている。
実験結果から,FineActionは短い期間のファインドおよびマルチラベルインスタンス上でのアクションローカライゼーションに新たな課題をもたらすことが明らかとなった。
- 参考スコア(独自算出の注目度): 60.90129329728657
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: On the existing benchmark datasets, THUMOS14 and ActivityNet, temporal action
localization techniques have achieved great success. However, there are still
existing some problems, such as the source of the action is too single, there
are only sports categories in THUMOS14, coarse instances with uncertain
boundaries in ActivityNet and HACS Segments interfering with proposal
generation and behavior prediction. To take temporal action localization to a
new level, we develop FineAction, a new large-scale fined video dataset
collected from existing video datasets and web videos. Overall, this dataset
contains 139K fined action instances densely annotated in almost 17K untrimmed
videos spanning 106 action categories. FineAction has a more fined definition
of action categories and high-quality annotations to reduce the boundary
uncertainty compared to the existing action localization datasets. We
systematically investigate representative methods of temporal action
localization on our dataset and obtain some interesting findings with further
analysis. Experimental results reveal that our FineAction brings new challenges
for action localization on fined and multi-label instances with shorter
duration. This dataset will be public in the future and we hope our FineAction
could advance research towards temporal action localization. Our dataset
website is at https://deeperaction.github.io/fineaction/.
- Abstract(参考訳): 既存のベンチマークデータセットであるTHUMOS14とActivityNetでは、時間的アクションローカライゼーション技術が大きな成功を収めている。
しかし、アクションのソースがシングルすぎること、THUMOS14にのみスポーツカテゴリが存在すること、ActivityNetとHACSセグメンツに不確実な境界を持つ粗いインスタンスが提案生成と行動予測に干渉することなど、いくつかの問題が存在する。
時間的行動ローカライゼーションを新たなレベルに引き上げるために,既存のビデオデータセットやWebビデオから収集した大規模ビデオデータセットであるFineActionを開発した。
全体として、このデータセットは、106のアクションカテゴリにまたがる約17kの未トリミングビデオに、139kの細かなアクションインスタンスを密に注釈付けしている。
FineActionは、既存のアクションローカライゼーションデータセットと比較して境界の不確実性を低減するために、アクションカテゴリと高品質アノテーションをより詳細に定義している。
本研究は,データセット上での時間的行動の定位を示す代表的な手法を体系的に検討し,さらに分析することで興味深い知見を得た。
実験結果から,FineActionは短い期間のファインドおよびマルチラベルインスタンス上でのアクションローカライゼーションに新たな課題をもたらすことが明らかとなった。
このデータセットは将来的に公開され、FineActionが時間的行動ローカライゼーションに向けた研究を進めることを期待します。
データセットのWebサイトはhttps://deeperaction.github.io/fineaction/です。
関連論文リスト
- FMI-TAL: Few-shot Multiple Instances Temporal Action Localization by Probability Distribution Learning and Interval Cluster Refinement [2.261014973523156]
本稿では,確率学習とクラスタリファインメントを備えた空間チャネル関係変換器を提案する。
この方法は,クエリビデオ中のアクションの開始と終了の境界を正確に識別することができる。
本モデルでは,ベンチマークデータセットである ActivityNet1.3 と THUMOS14 を用いて,厳密な実験を行うことで,競争性能を実現する。
論文 参考訳(メタデータ) (2024-08-25T08:17:25Z) - Weakly-Supervised Temporal Action Localization with Bidirectional
Semantic Consistency Constraint [83.36913240873236]
WTAL(Weakly Supervised Temporal Action Localization)は、ビデオの時間的境界を分類し、ローカライズすることを目的としている。
本研究では,双方向意味整合性制約 (Bi-SCC) という単純な手法を提案する。
実験結果から,THUMOS14とActivityNetの最先端手法よりも優れた結果が得られた。
論文 参考訳(メタデータ) (2023-04-25T07:20:33Z) - Boundary-Denoising for Video Activity Localization [57.9973253014712]
本稿では,映像活動のローカライゼーション問題について,認知的視点から検討する。
具体的には,DenoiseLocというエンコーダデコーダモデルを提案する。
実験によると、DenoiseLocはいくつかのビデオアクティビティ理解タスクで%前進している。
論文 参考訳(メタデータ) (2023-04-06T08:48:01Z) - Video Action Detection: Analysing Limitations and Challenges [70.01260415234127]
ビデオ行動検出における既存のデータセットを分析し,その限界について議論する。
静的画像から映像を区別する重要な特性である時間的側面を解析するバイアスネススタディを実行する。
このような極端な実験は、注意深いモデリングを必要とする既存の手法に忍び込んだバイアスの存在を示している。
論文 参考訳(メタデータ) (2022-04-17T00:42:14Z) - Weakly Supervised Temporal Action Localization Through Learning Explicit
Subspaces for Action and Context [151.23835595907596]
ビデオレベルの監視のみの下で、アクションインスタンスの時間的開始と終了をローカライズする方法を学ぶ。
アクションとコンテキストそれぞれについて,2つの機能サブスペースを学習するフレームワークを提案する。
提案手法は3つのベンチマークで最先端のWS-TAL法より優れている。
論文 参考訳(メタデータ) (2021-03-30T08:26:53Z) - Activity Graph Transformer for Temporal Action Localization [41.69734359113706]
時間的行動のローカリゼーションのためのエンドツーエンド学習可能なモデルであるActivity Graph Transformerを紹介します。
本研究では,この非線形時間構造を,映像を非連続実体としてグラフの形で推論することによって捉える。
その結果,提案したモデルが最新技術より相当なマージンで上回ることが示された。
論文 参考訳(メタデータ) (2021-01-21T10:42:48Z) - Learning to Localize Actions from Moments [153.54638582696128]
本研究では,多種多様な行動カテゴリに対する行動ローカライゼーションを学習するトランスファーラーニングタイプの新しい設計を提案する。
本稿では、そのような設計をワンステージのアクションローカライズフレームワークに統合するアクション・ヘラルド・ネットワーク(AherNet)を提案する。
論文 参考訳(メタデータ) (2020-08-31T16:03:47Z) - Weakly Supervised Temporal Action Localization Using Deep Metric
Learning [12.49814373580862]
本稿では,トレーニング中の映像レベルのアクションインスタンスのみを統括する時間的行動ローカライズ手法を提案する。
標準バックプロパゲーションアルゴリズムを用いて,バランスの取れた2進クロスエントロピー損失とメートル法損失を共同で最適化する。
IoU閾値0.5でTHUMOS14を6.5%mAP改善し,ActivityNet1.2の競合性能を実現した。
論文 参考訳(メタデータ) (2020-01-21T22:01:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。