Fugu-MT 論文翻訳(概要): SportsSloMo: A New Benchmark and Baselines for Human-centric Video Frame Interpolation

論文の概要: SportsSloMo: A New Benchmark and Baselines for Human-centric Video Frame Interpolation

arxiv url: http://arxiv.org/abs/2308.16876v1
Date: Thu, 31 Aug 2023 17:23:50 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-01 13:31:55.134003
Title: SportsSloMo: A New Benchmark and Baselines for Human-centric Video Frame Interpolation
Title（参考訳）: SportsSloMo:人間中心のビデオフレーム補間のためのベンチマークとベースライン
Authors: Jiaben Chen, Huaizu Jiang
Abstract要約: SportsSloMoは、130万本以上のビデオクリップと100万フレームの高解像度(720p)のスローモーションスポーツビデオがYouTubeからクロールされたベンチマークである。ベンチマークでいくつかの最先端手法を再学習し、その結果、他のデータセットと比較して精度が低下していることを示す。我々は,人間の認識する先行性を考慮した2つの損失項を導入し,汎視的セグメンテーションと人間のキーポイント検出に補助的監督を加える。
参考スコア（独自算出の注目度）: 11.198172694893927
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Human-centric video frame interpolation has great potential for improving people's entertainment experiences and finding commercial applications in the sports analysis industry, e.g., synthesizing slow-motion videos. Although there are multiple benchmark datasets available in the community, none of them is dedicated for human-centric scenarios. To bridge this gap, we introduce SportsSloMo, a benchmark consisting of more than 130K video clips and 1M video frames of high-resolution ($\geq$720p) slow-motion sports videos crawled from YouTube. We re-train several state-of-the-art methods on our benchmark, and the results show a decrease in their accuracy compared to other datasets. It highlights the difficulty of our benchmark and suggests that it poses significant challenges even for the best-performing methods, as human bodies are highly deformable and occlusions are frequent in sports videos. To improve the accuracy, we introduce two loss terms considering the human-aware priors, where we add auxiliary supervision to panoptic segmentation and human keypoints detection, respectively. The loss terms are model agnostic and can be easily plugged into any video frame interpolation approaches. Experimental results validate the effectiveness of our proposed loss terms, leading to consistent performance improvement over 5 existing models, which establish strong baseline models on our benchmark. The dataset and code can be found at: https://neu-vi.github.io/SportsSlomo/.
Abstract（参考訳）: 人間中心のビデオフレーム補間は、人々のエンターテイメント体験を改善し、スローモーションビデオの合成などスポーツ分析業界における商業的応用を見つける大きな可能性を秘めている。コミュニティには複数のベンチマークデータセットがあるが、人間中心のシナリオに特化したものはない。このギャップを埋めるために、私たちはsportsslomoを紹介します。これは130万以上のビデオクリップと、youtubeからクロールされた高解像度(約720p)のスローモーションスポーツビデオの100万フレームからなるベンチマークです。ベンチマークでは,いくつかの最先端手法を再トレーニングし,他のデータセットと比較して精度が低下することを示した。これは我々のベンチマークの難しさを強調するものであり、人体は変形性が高く、オクルージョンはスポーツビデオで頻繁に見られるため、最もパフォーマンスの良い方法であっても重大な課題をもたらすことを示唆する。精度を向上させるために,人間の認識前処理を考慮した2つの損失項を導入し,それぞれパノプティカルセグメンテーションとヒューマンキーポイント検出に補助的監督を加える。損失項はモデル非依存であり、任意のビデオフレーム補間アプローチに簡単に接続できる。実験の結果,提案した損失項の有効性が検証され,既存の5つのモデルに対して一貫した性能向上が達成された。データセットとコードは、https://neu-vi.github.io/sportsslomo/で見ることができる。

関連論文リスト

KASportsFormer: Kinematic Anatomy Enhanced Transformer for 3D Human Pose Estimation on Short Sports Scene Video [4.653030985708889]
スポーツのための新しい3Dポーズ推定フレームワークであるKASportsFormerを紹介する。提案手法は,MPJPEの誤差を58.0mm,34.3mmとした。
論文参考訳（メタデータ） (2025-07-28T12:17:40Z)
SAMA: Towards Multi-Turn Referential Grounded Video Chat with Large Language Models [80.3895950009792]
ビデオにおけるきめ細かい時間的理解の獲得は、現在のビデオ大マルチモデル(ビデオLMM)にとって大きな課題である。私たちは、データセット、モデル、ベンチマークの3つの中核的な側面に貢献しています。まず,ビデオ理解,グラウンドニング,マルチターンビデオチャットの共用学習を実現するため、15Kビデオからなる大規模データセットであるSAMA-239Kを紹介する。第2に,広義の時間的コンテキストアグリゲータとセグメンションモデルを組み合わせたSAMAモデルを提案する。
論文参考訳（メタデータ） (2025-05-24T18:13:16Z)
Direct Motion Models for Assessing Generated Videos [38.04485796547767]
ビデオ生成ビデオモデルの現在の制限は、可視的に見えるフレームを生成するが、動きが貧弱であることである。ここでは、妥当な物体の相互作用と動きをよりよく測定する指標を開発することで、FVDを超えていく。画素再構成や動作認識の代わりに点線を用いると、合成データの時間歪みに顕著に敏感な測定結果が得られることを示す。
論文参考訳（メタデータ） (2025-04-30T22:34:52Z)
VideoPhy-2: A Challenging Action-Centric Physical Commonsense Evaluation in Video Generation [66.58048825989239]
VideoPhy-2は、生成されたビデオの物理的常識を評価するアクション中心のデータセットである。我々は、生成したビデオのセマンティック・アテンデンス、物理コモンセンス、および物理ルールのグラウンド化を評価する人間の評価を行う。結果より,最高のモデルでも22%のジョイントパフォーマンスを達成できたことが示唆された。
論文参考訳（メタデータ） (2025-03-09T22:49:12Z)
Perception Test: A Diagnostic Benchmark for Multimodal Video Models [78.64546291816117]
本稿では,事前学習したマルチモーダルモデルの知覚と推論能力を評価するために,新しいマルチモーダルビデオベンチマークを提案する。知覚テストは、スキル(記憶、抽象化、物理学、セマンティックス)と、ビデオ、オーディオ、テキストモダリティ間の推論(記述的、説明的、予測的、反ファクト的)のタイプに焦点を当てている。このベンチマークは、ゼロショット/少数ショットまたは限定的な微調整方式で、転送機能の事前訓練されたモデルを探索する。
論文参考訳（メタデータ） (2023-05-23T07:54:37Z)
Deep Unsupervised Key Frame Extraction for Efficient Video Classification [63.25852915237032]
本研究は、畳み込みニューラルネットワーク(CNN)と時間セグメント密度ピーククラスタリング(TSDPC)を組み合わせたキーフレームの検索方法を提案する。提案した TSDPC は汎用的で強力なフレームワークであり,従来の研究に比べて2つの利点がある。さらに、CNNの上部にLong Short-Term Memory Network (LSTM)を追加し、分類性能をさらに高める。
論文参考訳（メタデータ） (2022-11-12T20:45:35Z)
TAP-Vid: A Benchmark for Tracking Any Point in a Video [84.94877216665793]
我々は、より長いビデオクリップで表面上の任意の物理点を追跡するという問題を定式化し、任意の点(TAP)を追尾する。そこで本研究では,実世界の映像に正確な点線アノテーションを付加したTAP-Vidと,完全な接地木線トラックを付加した合成ビデオとを併用したベンチマーク,TAP-Vidを提案する。本稿では, 簡易な終端点追跡モデルTAP-Netを提案する。
論文参考訳（メタデータ） (2022-11-07T17:57:02Z)
Fast and Robust Video-Based Exercise Classification via Body Pose Tracking and Scalable Multivariate Time Series Classifiers [13.561233730881279]
本稿では,ビデオを用いたS&C演習の分類の応用について述べる。そこで本研究では,BodyMTSという手法を用いて,映像を時系列に変換する手法を提案する。その結果,BodyMTSの平均精度は87%であり,これはヒトドメインの専門家の精度よりも有意に高いことがわかった。
論文参考訳（メタデータ） (2022-10-02T13:03:38Z)
Sports Video Analysis on Large-Scale Data [10.24207108909385]
本稿では,スポーツビデオにおける自動機械記述のモデル化について検討する。スポーツビデオ分析のためのNBAデータセット(NSVA)を提案する。
論文参考訳（メタデータ） (2022-08-09T16:59:24Z)
Render In-between: Motion Guided Video Synthesis for Action Interpolation [53.43607872972194]
本研究では、リアルな人間の動きと外観を生成できる動き誘導型フレームアップサンプリングフレームワークを提案する。大規模モーションキャプチャーデータセットを活用することにより、フレーム間の非線形骨格運動を推定するために、新しいモーションモデルが訓練される。私たちのパイプラインでは、低フレームレートのビデオと不自由な人間のモーションデータしか必要としませんが、トレーニングには高フレームレートのビデオは必要ありません。
論文参考訳（メタデータ） (2021-11-01T15:32:51Z)
Real-time Human-Centric Segmentation for Complex Video Scenes [16.57620683425904]
人間」に関連する既存のビデオタスクのほとんどは、ビデオ内の未特定の他のタスクを無視して、有能な人間のセグメンテーションに焦点を当てている。歩行者や他の州の人間を含む複雑なビデオの中で、すべての人間のセグメンテーションと追跡に焦点を当てた研究はほとんどない。本稿では,HVISNetと略される新しいフレームワークを提案する。
論文参考訳（メタデータ） (2021-08-16T16:07:51Z)
Coherent Loss: A Generic Framework for Stable Video Segmentation [103.78087255807482]
ビデオセグメンテーションの結果の視覚的品質を,ジッタリングアーティファクトがいかに劣化させるかを検討する。本稿では,ニューラルネットワークの性能向上を目的とした汎用フレームワークを備えたコヒーレントロスを提案する。
論文参考訳（メタデータ） (2020-10-25T10:48:28Z)
Hybrid Dynamic-static Context-aware Attention Network for Action Assessment in Long Videos [96.45804577283563]
本稿では,長期ビデオにおけるアクションアセスメントのための新しいハイブリットDynAmic-static Context-aware AttenTION NETwork(ACTION-NET)を提案する。ビデオのダイナミックな情報を学習すると同時に,特定フレームにおける検出した選手の静的姿勢にも焦点をあてる。 2つのストリームの特徴を組み合わせることで、専門家が与えた地道的なスコアによって監督され、最終的なビデオスコアを後退させます。
論文参考訳（メタデータ） (2020-08-13T15:51:42Z)
Unsupervised Temporal Feature Aggregation for Event Detection in Unstructured Sports Videos [10.230408415438966]
任意のカメラアングルを持つ非構造化環境を対象としたスポーツビデオにおけるイベント検出事例について検討した。我々は、非構造化設定におけるプレイヤーの教師なし識別と、任意の射撃角度によるバリエーションを示すために訓練されたモデルの一般化の2つの主要な問題を同定し、解決する。
論文参考訳（メタデータ） (2020-02-19T10:24:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。