論文の概要: TikTokActions: A TikTok-Derived Video Dataset for Human Action
Recognition
- arxiv url: http://arxiv.org/abs/2402.08875v2
- Date: Mon, 11 Mar 2024 23:42:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 00:45:24.727979
- Title: TikTokActions: A TikTok-Derived Video Dataset for Human Action
Recognition
- Title(参考訳): TikTokActions:人間の行動認識のためのビデオデータセットTikTok
- Authors: Yang Qian, Yinan Sun, Ali Kargarandehkordi, Onur Cezmi Mutlu,
Saimourya Surabhi, Pingyi Chen, Zain Jabbar, Dennis Paul Wall, Peter
Washington
- Abstract要約: 現代の人間の行動に関する386のハッシュタグの下に分類された283,582のユニークなビデオクリップのデータセットをリリースする。
Tik-Tokデータセットを使用して事前トレーニングされたモデルのパフォーマンスは、より大きなアクション認識データセットでトレーニングされたモデルに匹敵する。
- 参考スコア(独自算出の注目度): 2.4735867606303974
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The increasing variety and quantity of tagged multimedia content on platforms
such as TikTok provides an opportunity to advance computer vision modeling. We
have curated a distinctive dataset of 283,582 unique video clips categorized
under 386 hashtags relating to modern human actions. We release this dataset as
a valuable resource for building domain-specific foundation models for human
movement modeling tasks such as action recognition. To validate this dataset,
which we name TikTokActions, we perform two sets of experiments. First, we
pretrain the state-of-the-art VideoMAEv2 with a ViT-base backbone on
TikTokActions subset, and then fine-tune and evaluate on popular datasets such
as UCF101 and the HMDB51. We find that the performance of the model pre-trained
using our Tik-Tok dataset is comparable to models trained on larger action
recognition datasets (95.3% on UCF101 and 53.24% on HMDB51). Furthermore, our
investigation into the relationship between pre-training dataset size and
fine-tuning performance reveals that beyond a certain threshold, the
incremental benefit of larger training sets diminishes. This work introduces a
useful TikTok video dataset that is available for public use and provides
insights into the marginal benefit of increasing pre-training dataset sizes for
video-based foundation models.
- Abstract(参考訳): TikTokのようなプラットフォーム上でのタグ付きマルチメディアコンテンツの多様性と量の増加は、コンピュータビジョンモデリングを前進させる機会を提供する。
現代人の行動に関連する386個のハッシュタグに分類した283,582本のユニークなビデオクリップを収集した。
我々は、このデータセットを、アクション認識などのヒューマンムーブメントモデリングタスクのためのドメイン固有の基礎モデルを構築するための貴重なリソースとしてリリースする。
このデータセットを検証するために、TikTokActionsという2つの実験を行った。
まず、TikTokActionsサブセット上のVTベースバックボーンで最先端のVideoMAEv2を事前トレーニングし、次いで微調整を行い、UCF101やHMDB51のような一般的なデータセットで評価する。
Tik-Tokデータセットを使用して事前トレーニングされたモデルの性能は、より大きなアクション認識データセットでトレーニングされたモデルに匹敵する(UCF101では95.3%、HMDB51では53.24%)。
さらに,事前学習データセットのサイズと微調整性能の関係について検討した結果,一定の閾値を超えると,より大きなトレーニングセットの漸進的なメリットが減少することがわかった。
この研究は、tiktokビデオデータセットを一般向けに提供し、ビデオベースの基礎モデルの事前トレーニングデータセットサイズを増加させる限界的なメリットについての洞察を提供する。
関連論文リスト
- Revisiting Feature Prediction for Learning Visual Representations from Video [62.08833572467379]
V-JEPAは、機能予測の目的のみを用いて訓練された視覚モデルの集合である。
モデルは、公開データセットから収集された200万のビデオに基づいてトレーニングされる。
以上の結果から,映像特徴の予測による学習が視覚表現の多目的化につながることが示唆された。
論文 参考訳(メタデータ) (2024-02-15T18:59:11Z) - ViLP: Knowledge Exploration using Vision, Language, and Pose Embeddings
for Video Action Recognition [4.36572039512405]
本稿では,ビデオ行動認識のための視覚言語モデル(VLM)について紹介する。
特に、この手法は2つの一般的な人間のビデオ行動認識ベンチマークデータセットにおいて、92.81%と73.02%の精度を達成する。
論文 参考訳(メタデータ) (2023-08-07T20:50:54Z) - VideoMAE V2: Scaling Video Masked Autoencoders with Dual Masking [57.552798046137646]
Video masked autoencoder(ビデオマスクオートエンコーダ)は、ビデオ基礎モデルを構築するための、スケーラブルで汎用的な自己監督型プレトレーナーである。
我々は10億のパラメータを持つビデオViTモデルのトレーニングに成功した。
論文 参考訳(メタデータ) (2023-03-29T14:28:41Z) - Bidirectional Cross-Modal Knowledge Exploration for Video Recognition
with Pre-trained Vision-Language Models [149.1331903899298]
本稿では,双方向の知識を探索するクロスモーダルブリッジを用いた,BIKEと呼ばれる新しいフレームワークを提案する。
本研究では,テキスト・トゥ・ビデオの専門知識を用いて時間的サリエンシをパラメータフリーでキャプチャする時間的概念スポッティング機構を提案する。
我々の最良のモデルは、リリースしたCLIPモデルを使用して、Kinetics-400の挑戦に対して、最先端の精度88.6%を達成する。
論文 参考訳(メタデータ) (2022-12-31T11:36:53Z) - InternVideo: General Video Foundation Models via Generative and
Discriminative Learning [52.69422763715118]
動的および複雑なビデオレベルの理解タスクのための一般的なビデオ基盤モデルであるInternVideoを提案する。
InternVideoは、事前学習対象として、マスク付きビデオモデリングとビデオ言語コントラスト学習を効率的に探索する。
InternVideoは、ビデオアクション認識/検出、ビデオ言語アライメント、オープンワールドビデオアプリケーションなど、39のビデオデータセットの最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-12-06T18:09:49Z) - Revisiting Classifier: Transferring Vision-Language Models for Video
Recognition [102.93524173258487]
ダウンストリームタスクのためのタスク非依存の深層モデルから知識を伝達することは、コンピュータビジョン研究において重要なトピックである。
本研究では,映像分類作業における知識の伝達に着目した。
予測された言語モデルを用いて、効率的な翻訳学習のための適切なセマンティックターゲットを生成する。
論文 参考訳(メタデータ) (2022-07-04T10:00:47Z) - Auxiliary Learning for Self-Supervised Video Representation via
Similarity-based Knowledge Distillation [2.6519061087638014]
本稿では,知識類似度蒸留法(auxSKD)を基礎として,補助的プレトレーニングフェーズを通じて自己指導型プレトレーニングを補完する新しい手法を提案する。
本手法は,学習者の学習モデルに対する知識を反復的に消し去る教師ネットワークを,未学習映像データのセグメント間の類似情報をキャプチャすることで展開する。
また、入力ビデオのランダムに選択されたセグメントの再生速度を予測し、より信頼性の高い自己教師付き表現を提供するための新しいプリテキストタスク、ビデオセグメントペース予測(VSPP)を導入する。
論文 参考訳(メタデータ) (2021-12-07T21:50:40Z) - ViViT: A Video Vision Transformer [75.74690759089529]
ビデオ分類にpure-transformerベースのモデルを提案する。
本モデルでは,入力ビデオから時間トークンを抽出し,一連のトランスフォーマー層で符号化する。
トレーニング中にモデルを効果的に正規化し、トレーニング済みの画像モデルを利用して比較的小さなデータセットでトレーニングできることを示します。
論文 参考訳(メタデータ) (2021-03-29T15:27:17Z) - Creating a Large-scale Synthetic Dataset for Human Activity Recognition [0.8250374560598496]
ビデオの合成データセットを生成するために3Dレンダリングツールを使用し、これらのビデオで訓練された分類器が実際のビデオに一般化可能であることを示す。
ビデオ上で事前学習したI3Dモデルを微調整し、3つのクラスでHMDB51データセット上で73%の精度を達成できることを確認した。
論文 参考訳(メタデータ) (2020-07-21T22:20:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。