論文の概要: Slow - Motion Video Synthesis for Basketball Using Frame Interpolation
- arxiv url: http://arxiv.org/abs/2511.11644v1
- Date: Mon, 10 Nov 2025 02:58:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:22.782812
- Title: Slow - Motion Video Synthesis for Basketball Using Frame Interpolation
- Title(参考訳): フレーム補間によるバスケットボールのスローモーションビデオ合成
- Authors: Jiantang Huang,
- Abstract要約: バスケットボールの放送映像は伝統的に30-60fpsで撮影され、ダンクやクロスオーバーのような急激な演奏を視聴者が鑑賞する能力を制限する。
本稿では,高品質なバスケットボール特有の補間フレームをリアルタイムに生成するスローモーション合成システムを提案する。
提案手法は,Pak Signal-to-Noise Ratio (PSNR) とStructure similarity (SSIM) を用いて,Super SloMoとベースラインRIFEモデルと比較する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Basketball broadcast footage is traditionally captured at 30-60 fps, limiting viewers' ability to appreciate rapid plays such as dunks and crossovers. We present a real-time slow-motion synthesis system that produces high-quality basketball-specific interpolated frames by fine-tuning the recent Real-Time Intermediate Flow Estimation (RIFE) network on the SportsSloMo dataset. Our pipeline isolates the basketball subset of SportsSloMo, extracts training triplets, and fine-tunes RIFE with human-aware random cropping. We compare the resulting model against Super SloMo and the baseline RIFE model using Peak Signal-to-Noise Ratio (PSNR) and Structural Similarity (SSIM) on held-out clips. The fine-tuned RIFE attains a mean PSNR of 34.3 dB and SSIM of 0.949, outperforming Super SloMo by 2.1 dB and the baseline RIFE by 1.3 dB. A lightweight Gradio interface demonstrates end-to-end 4x slow-motion generation on a single RTX 4070 Ti Super at approximately 30 fps. These results indicate that task-specific adaptation is crucial for sports slow-motion, and that RIFE provides an attractive accuracy-speed trade-off for consumer applications.
- Abstract(参考訳): バスケットボールの放送映像は伝統的に30-60fpsで撮影され、ダンクやクロスオーバーのような急激な演奏を視聴者が鑑賞する能力を制限する。
本稿では,SportsSloMoデータセット上で,最新のリアルタイム中間フロー推定(RIFE)ネットワークを微調整することにより,高品質なバスケットボール固有の補間フレームを生成するリアルタイムスローモーション合成システムを提案する。
パイプラインは,SportsSloMoのバスケットボールサブセットを分離し,トレーニングトレーレットを抽出する。
提案手法は,Pak Signal-to-Noise Ratio (PSNR) とStructure similarity (SSIM) を用いて,Super SloMoとベースラインRIFEモデルと比較する。
微調整されたRIFEは、平均PSNR34.3dB、SSIM0.949に達し、Super SloMo2.1dB、ベースラインRIFE1.3dBを上回っている。
軽量のGradioインタフェースは、RTX 4070 Ti Superを30fpsでエンドツーエンドの4倍のスローモーション生成する。
これらの結果から,タスク固有の適応はスポーツのスローモーションに不可欠であり,RIFEは消費者アプリケーションにとって魅力的な精度と速度のトレードオフをもたらすことが示唆された。
関連論文リスト
- StreamDiffusionV2: A Streaming System for Dynamic and Interactive Video Generation [65.90400162290057]
生成モデルは、コンテンツの作り方、スタイル、配信方法を再定義することで、ライブストリーミング業界を変革している。
ビデオ拡散の最近の進歩は、オフライン生成のための時間的一貫性とサンプリング効率を著しく改善した。
ライブオンラインストリーミングは厳しいサービスレベル(SLO)の下で動作します。 タイム・ツー・ファーストフレームは最小限でなければなりません。
論文 参考訳(メタデータ) (2025-11-10T18:51:28Z) - BLADE: Block-Sparse Attention Meets Step Distillation for Efficient Video Generation [27.57431718095974]
本稿では,ビデオ推論のためのデータフリー共同学習フレームワークBLADEを紹介する。
異なるスケールで顕著な効率向上を示す。
短いビデオシーケンス長を持つCagVideoX-5Bのようなモデルでは、我々のフレームワークはロバストな8.89倍のスピードアップを提供する。
論文 参考訳(メタデータ) (2025-08-14T15:58:59Z) - You Can Ground Earlier than See: An Effective and Efficient Pipeline for
Temporal Sentence Grounding in Compressed Videos [56.676761067861236]
ビデオがトリミングされていない場合、時間的文のグラウンド化は、文問合せに従って目的のモーメントを意味的に見つけることを目的としている。
それまでの優れた作品は、かなり成功したが、それらはデコードされたフレームから抽出されたハイレベルな視覚的特徴にのみ焦点を当てている。
本稿では,圧縮された映像を直接視覚入力として利用する,圧縮された領域のTSGを提案する。
論文 参考訳(メタデータ) (2023-03-14T12:53:27Z) - Event-guided Multi-patch Network with Self-supervision for Non-uniform
Motion Deblurring [113.96237446327795]
本稿では,ぼやけた画像やビデオを扱うための,イベント誘導型深層階層型マルチパッチネットワークを提案する。
また、ビデオ内の複雑なぼやけに対処するために、動画に含まれる動きの手がかりを利用するイベント誘導アーキテクチャを提案する。
我々のMPNは、現在のマルチスケール手法に比べて40倍高速なランタイムでGoProとVideoDeblurringデータセットの最先端を達成しています。
論文 参考訳(メタデータ) (2023-02-14T15:58:00Z) - Fast-BEV: A Fast and Strong Bird's-Eye View Perception Baseline [76.48192454417138]
Bird's-Eye View (BEV)の表現は、次世代自動運転車(AV)の認識の基礎として期待されている。
本稿では,車載チップ上で高速なBEV認識を実現するフレームワークであるFast-BEVを提案する。
論文 参考訳(メタデータ) (2023-01-29T18:43:31Z) - FREGAN : an application of generative adversarial networks in enhancing
the frame rate of videos [1.1688030627514534]
FREGAN(Frame Rate Enhancement Generative Adversarial Network)モデルが提案されている。
提案手法の有効性を標準データセットで検証した。
実験結果は,提案モデルがピーク信号対雑音比(PSNR)が34.94で,構造類似度指数(SSIM)が0.95であることを示している。
論文 参考訳(メタデータ) (2021-11-01T17:19:00Z) - Motion Representation Using Residual Frames with 3D CNN [43.002621928500425]
本稿では,3D ConvNet の入力データとして残差フレームを利用した動画から動画の特徴を高速かつ効果的に抽出する方法を提案する。
従来の積み重ねられたRGBフレームを残留フレームに置き換えることで、トップ1の精度よりも35.6%と26.6%の改善点が得られる。
論文 参考訳(メタデータ) (2020-06-21T07:35:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。