論文の概要: TikTokActions: A TikTok-Derived Video Dataset for Human Action
Recognition
- arxiv url: http://arxiv.org/abs/2402.08875v2
- Date: Mon, 11 Mar 2024 23:42:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 00:45:24.727979
- Title: TikTokActions: A TikTok-Derived Video Dataset for Human Action
Recognition
- Title(参考訳): TikTokActions:人間の行動認識のためのビデオデータセットTikTok
- Authors: Yang Qian, Yinan Sun, Ali Kargarandehkordi, Onur Cezmi Mutlu,
Saimourya Surabhi, Pingyi Chen, Zain Jabbar, Dennis Paul Wall, Peter
Washington
- Abstract要約: 現代の人間の行動に関する386のハッシュタグの下に分類された283,582のユニークなビデオクリップのデータセットをリリースする。
Tik-Tokデータセットを使用して事前トレーニングされたモデルのパフォーマンスは、より大きなアクション認識データセットでトレーニングされたモデルに匹敵する。
- 参考スコア(独自算出の注目度): 2.4735867606303974
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The increasing variety and quantity of tagged multimedia content on platforms
such as TikTok provides an opportunity to advance computer vision modeling. We
have curated a distinctive dataset of 283,582 unique video clips categorized
under 386 hashtags relating to modern human actions. We release this dataset as
a valuable resource for building domain-specific foundation models for human
movement modeling tasks such as action recognition. To validate this dataset,
which we name TikTokActions, we perform two sets of experiments. First, we
pretrain the state-of-the-art VideoMAEv2 with a ViT-base backbone on
TikTokActions subset, and then fine-tune and evaluate on popular datasets such
as UCF101 and the HMDB51. We find that the performance of the model pre-trained
using our Tik-Tok dataset is comparable to models trained on larger action
recognition datasets (95.3% on UCF101 and 53.24% on HMDB51). Furthermore, our
investigation into the relationship between pre-training dataset size and
fine-tuning performance reveals that beyond a certain threshold, the
incremental benefit of larger training sets diminishes. This work introduces a
useful TikTok video dataset that is available for public use and provides
insights into the marginal benefit of increasing pre-training dataset sizes for
video-based foundation models.
- Abstract(参考訳): TikTokのようなプラットフォーム上でのタグ付きマルチメディアコンテンツの多様性と量の増加は、コンピュータビジョンモデリングを前進させる機会を提供する。
現代人の行動に関連する386個のハッシュタグに分類した283,582本のユニークなビデオクリップを収集した。
我々は、このデータセットを、アクション認識などのヒューマンムーブメントモデリングタスクのためのドメイン固有の基礎モデルを構築するための貴重なリソースとしてリリースする。
このデータセットを検証するために、TikTokActionsという2つの実験を行った。
まず、TikTokActionsサブセット上のVTベースバックボーンで最先端のVideoMAEv2を事前トレーニングし、次いで微調整を行い、UCF101やHMDB51のような一般的なデータセットで評価する。
Tik-Tokデータセットを使用して事前トレーニングされたモデルの性能は、より大きなアクション認識データセットでトレーニングされたモデルに匹敵する(UCF101では95.3%、HMDB51では53.24%)。
さらに,事前学習データセットのサイズと微調整性能の関係について検討した結果,一定の閾値を超えると,より大きなトレーニングセットの漸進的なメリットが減少することがわかった。
この研究は、tiktokビデオデータセットを一般向けに提供し、ビデオベースの基礎モデルの事前トレーニングデータセットサイズを増加させる限界的なメリットについての洞察を提供する。
関連論文リスト
- TMT-VIS: Taxonomy-aware Multi-dataset Joint Training for Video Instance
Segmentation [51.199543962233506]
大規模データセットのトレーニングは、ビデオインスタンスセグメンテーションのパフォーマンスを高めることができるが、VISのデータセットは労働コストが高いためスケールアップが難しい。
私たちが持っているものは、多数の独立した提出された特定のデータセットであり、データ量と多様性を高めるためにデータセットの集合をまたいだモデルを共同でトレーニングすることが魅力です。
我々は、YouTube-VIS 2019、YouTube-VIS 2021、OVIS、UVOの4つの人気で挑戦的なベンチマークで、広範囲に評価を行っている。
本モデルでは,ベースラインソリューションよりも大幅に改善され,すべてのベンチマークで新たな最先端レコードが設定される。
論文 参考訳(メタデータ) (2023-12-11T18:50:09Z) - HomE: Homography-Equivariant Video Representation Learning [62.89516761473129]
マルチビュービデオの表現学習のための新しい手法を提案する。
提案手法は異なる視点間の暗黙的なマッピングを学習し,近隣の視点間のホモグラフィ関係を維持する表現空間を決定づける。
動作分類では,UCF101データセットの96.4%の3倍精度が得られた。
論文 参考訳(メタデータ) (2023-06-02T15:37:43Z) - Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based
Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。
我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。
時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文 参考訳(メタデータ) (2022-07-17T07:05:39Z) - MSeg: A Composite Dataset for Multi-domain Semantic Segmentation [100.17755160696939]
セマンティックセグメンテーションデータセットを異なるドメインから統合する合成データセットであるMSegを提案する。
一般化と画素レベルのアノテーションのアライメントを調整し,2万枚以上のオブジェクトマスクを8万枚以上の画像で再現する。
MSegでトレーニングされたモデルは、WildDash-v1のリーダーボードで、トレーニング中にWildDashのデータに触れることなく、堅牢なセマンティックセグメンテーションのためにランク付けされている。
論文 参考訳(メタデータ) (2021-12-27T16:16:35Z) - NoisyActions2M: A Multimedia Dataset for Video Understanding from Noisy
Labels [33.659146748289444]
約200万のビデオと関連するユーザ生成アノテーションやその他のメタ情報からなるベンチマークデータセットを作成します。
提案したデータセット上で事前トレーニングされたネットワークは、下流データセットにおけるビデオの破損やラベルノイズに対してどのように役立つかを示す。
論文 参考訳(メタデータ) (2021-10-13T16:12:18Z) - Multi-Task Self-Training for Learning General Representations [97.01728635294879]
マルチタスク・セルフトレーニング(MuST)は、独立した専門教師モデルにおける知識を活用して、一人の一般学生モデルを訓練する。
MuSTはラベルなしまたは部分的にラベル付けされたデータセットでスケーラブルで、大規模データセットのトレーニングにおいて、特別な教師付きモデルとセルフ教師付きモデルの両方を上回っている。
論文 参考訳(メタデータ) (2021-08-25T17:20:50Z) - ViViT: A Video Vision Transformer [75.74690759089529]
ビデオ分類にpure-transformerベースのモデルを提案する。
本モデルでは,入力ビデオから時間トークンを抽出し,一連のトランスフォーマー層で符号化する。
トレーニング中にモデルを効果的に正規化し、トレーニング済みの画像モデルを利用して比較的小さなデータセットでトレーニングできることを示します。
論文 参考訳(メタデータ) (2021-03-29T15:27:17Z) - Creating a Large-scale Synthetic Dataset for Human Activity Recognition [0.8250374560598496]
ビデオの合成データセットを生成するために3Dレンダリングツールを使用し、これらのビデオで訓練された分類器が実際のビデオに一般化可能であることを示す。
ビデオ上で事前学習したI3Dモデルを微調整し、3つのクラスでHMDB51データセット上で73%の精度を達成できることを確認した。
論文 参考訳(メタデータ) (2020-07-21T22:20:21Z) - Quo Vadis, Skeleton Action Recognition ? [11.389618872289647]
我々は骨格に基づく人間の行動認識の現場における現在および今後のフロンティアについて研究する。
本研究では,Kinetics-700から得られたRGBビデオのキュレートしたサブセットであるSkeletics-152を紹介する。
我々は、Skeleton-MimeticsおよびMetaphoricsデータセットを導入して、文脈外アクションを含むように研究を拡張した。
論文 参考訳(メタデータ) (2020-07-04T11:02:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。