論文の概要: SportsSloMo: A New Benchmark and Baselines for Human-centric Video Frame
Interpolation
- arxiv url: http://arxiv.org/abs/2308.16876v1
- Date: Thu, 31 Aug 2023 17:23:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-01 13:31:55.134003
- Title: SportsSloMo: A New Benchmark and Baselines for Human-centric Video Frame
Interpolation
- Title(参考訳): SportsSloMo:人間中心のビデオフレーム補間のためのベンチマークとベースライン
- Authors: Jiaben Chen, Huaizu Jiang
- Abstract要約: SportsSloMoは、130万本以上のビデオクリップと100万フレームの高解像度(720p)のスローモーションスポーツビデオがYouTubeからクロールされたベンチマークである。
ベンチマークでいくつかの最先端手法を再学習し、その結果、他のデータセットと比較して精度が低下していることを示す。
我々は,人間の認識する先行性を考慮した2つの損失項を導入し,汎視的セグメンテーションと人間のキーポイント検出に補助的監督を加える。
- 参考スコア(独自算出の注目度): 11.198172694893927
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human-centric video frame interpolation has great potential for improving
people's entertainment experiences and finding commercial applications in the
sports analysis industry, e.g., synthesizing slow-motion videos. Although there
are multiple benchmark datasets available in the community, none of them is
dedicated for human-centric scenarios. To bridge this gap, we introduce
SportsSloMo, a benchmark consisting of more than 130K video clips and 1M video
frames of high-resolution ($\geq$720p) slow-motion sports videos crawled from
YouTube. We re-train several state-of-the-art methods on our benchmark, and the
results show a decrease in their accuracy compared to other datasets. It
highlights the difficulty of our benchmark and suggests that it poses
significant challenges even for the best-performing methods, as human bodies
are highly deformable and occlusions are frequent in sports videos. To improve
the accuracy, we introduce two loss terms considering the human-aware priors,
where we add auxiliary supervision to panoptic segmentation and human keypoints
detection, respectively. The loss terms are model agnostic and can be easily
plugged into any video frame interpolation approaches. Experimental results
validate the effectiveness of our proposed loss terms, leading to consistent
performance improvement over 5 existing models, which establish strong baseline
models on our benchmark. The dataset and code can be found at:
https://neu-vi.github.io/SportsSlomo/.
- Abstract(参考訳): 人間中心のビデオフレーム補間は、人々のエンターテイメント体験を改善し、スローモーションビデオの合成などスポーツ分析業界における商業的応用を見つける大きな可能性を秘めている。
コミュニティには複数のベンチマークデータセットがあるが、人間中心のシナリオに特化したものはない。
このギャップを埋めるために、私たちはsportsslomoを紹介します。これは130万以上のビデオクリップと、youtubeからクロールされた高解像度(約720p)のスローモーションスポーツビデオの100万フレームからなるベンチマークです。
ベンチマークでは,いくつかの最先端手法を再トレーニングし,他のデータセットと比較して精度が低下することを示した。
これは我々のベンチマークの難しさを強調するものであり、人体は変形性が高く、オクルージョンはスポーツビデオで頻繁に見られるため、最もパフォーマンスの良い方法であっても重大な課題をもたらすことを示唆する。
精度を向上させるために,人間の認識前処理を考慮した2つの損失項を導入し,それぞれパノプティカルセグメンテーションとヒューマンキーポイント検出に補助的監督を加える。
損失項はモデル非依存であり、任意のビデオフレーム補間アプローチに簡単に接続できる。
実験の結果,提案した損失項の有効性が検証され,既存の5つのモデルに対して一貫した性能向上が達成された。
データセットとコードは、https://neu-vi.github.io/sportsslomo/で見ることができる。
関連論文リスト
- Perception Test: A Diagnostic Benchmark for Multimodal Video Models [78.64546291816117]
本稿では,事前学習したマルチモーダルモデルの知覚と推論能力を評価するために,新しいマルチモーダルビデオベンチマークを提案する。
知覚テストは、スキル(記憶、抽象化、物理学、セマンティックス)と、ビデオ、オーディオ、テキストモダリティ間の推論(記述的、説明的、予測的、反ファクト的)のタイプに焦点を当てている。
このベンチマークは、ゼロショット/少数ショットまたは限定的な微調整方式で、転送機能の事前訓練されたモデルを探索する。
論文 参考訳(メタデータ) (2023-05-23T07:54:37Z) - Deep Unsupervised Key Frame Extraction for Efficient Video
Classification [63.25852915237032]
本研究は、畳み込みニューラルネットワーク(CNN)と時間セグメント密度ピーククラスタリング(TSDPC)を組み合わせたキーフレームの検索方法を提案する。
提案した TSDPC は汎用的で強力なフレームワークであり,従来の研究に比べて2つの利点がある。
さらに、CNNの上部にLong Short-Term Memory Network (LSTM)を追加し、分類性能をさらに高める。
論文 参考訳(メタデータ) (2022-11-12T20:45:35Z) - TAP-Vid: A Benchmark for Tracking Any Point in a Video [84.94877216665793]
我々は、より長いビデオクリップで表面上の任意の物理点を追跡するという問題を定式化し、任意の点(TAP)を追尾する。
そこで本研究では,実世界の映像に正確な点線アノテーションを付加したTAP-Vidと,完全な接地木線トラックを付加した合成ビデオとを併用したベンチマーク,TAP-Vidを提案する。
本稿では, 簡易な終端点追跡モデルTAP-Netを提案する。
論文 参考訳(メタデータ) (2022-11-07T17:57:02Z) - Fast and Robust Video-Based Exercise Classification via Body Pose
Tracking and Scalable Multivariate Time Series Classifiers [13.561233730881279]
本稿では,ビデオを用いたS&C演習の分類の応用について述べる。
そこで本研究では,BodyMTSという手法を用いて,映像を時系列に変換する手法を提案する。
その結果,BodyMTSの平均精度は87%であり,これはヒトドメインの専門家の精度よりも有意に高いことがわかった。
論文 参考訳(メタデータ) (2022-10-02T13:03:38Z) - Sports Video Analysis on Large-Scale Data [10.24207108909385]
本稿では,スポーツビデオにおける自動機械記述のモデル化について検討する。
スポーツビデオ分析のためのNBAデータセット(NSVA)を提案する。
論文 参考訳(メタデータ) (2022-08-09T16:59:24Z) - Render In-between: Motion Guided Video Synthesis for Action
Interpolation [53.43607872972194]
本研究では、リアルな人間の動きと外観を生成できる動き誘導型フレームアップサンプリングフレームワークを提案する。
大規模モーションキャプチャーデータセットを活用することにより、フレーム間の非線形骨格運動を推定するために、新しいモーションモデルが訓練される。
私たちのパイプラインでは、低フレームレートのビデオと不自由な人間のモーションデータしか必要としませんが、トレーニングには高フレームレートのビデオは必要ありません。
論文 参考訳(メタデータ) (2021-11-01T15:32:51Z) - Real-time Human-Centric Segmentation for Complex Video Scenes [16.57620683425904]
人間」に関連する既存のビデオタスクのほとんどは、ビデオ内の未特定の他のタスクを無視して、有能な人間のセグメンテーションに焦点を当てている。
歩行者や他の州の人間を含む複雑なビデオの中で、すべての人間のセグメンテーションと追跡に焦点を当てた研究はほとんどない。
本稿では,HVISNetと略される新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-08-16T16:07:51Z) - Coherent Loss: A Generic Framework for Stable Video Segmentation [103.78087255807482]
ビデオセグメンテーションの結果の視覚的品質を,ジッタリングアーティファクトがいかに劣化させるかを検討する。
本稿では,ニューラルネットワークの性能向上を目的とした汎用フレームワークを備えたコヒーレントロスを提案する。
論文 参考訳(メタデータ) (2020-10-25T10:48:28Z) - Hybrid Dynamic-static Context-aware Attention Network for Action
Assessment in Long Videos [96.45804577283563]
本稿では,長期ビデオにおけるアクションアセスメントのための新しいハイブリットDynAmic-static Context-aware AttenTION NETwork(ACTION-NET)を提案する。
ビデオのダイナミックな情報を学習すると同時に,特定フレームにおける検出した選手の静的姿勢にも焦点をあてる。
2つのストリームの特徴を組み合わせることで、専門家が与えた地道的なスコアによって監督され、最終的なビデオスコアを後退させます。
論文 参考訳(メタデータ) (2020-08-13T15:51:42Z) - Unsupervised Temporal Feature Aggregation for Event Detection in
Unstructured Sports Videos [10.230408415438966]
任意のカメラアングルを持つ非構造化環境を対象としたスポーツビデオにおけるイベント検出事例について検討した。
我々は、非構造化設定におけるプレイヤーの教師なし識別と、任意の射撃角度によるバリエーションを示すために訓練されたモデルの一般化の2つの主要な問題を同定し、解決する。
論文 参考訳(メタデータ) (2020-02-19T10:24:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。