論文の概要: Real-time Video Prediction With Fast Video Interpolation Model and Prediction Training
- arxiv url: http://arxiv.org/abs/2503.23185v2
- Date: Fri, 04 Apr 2025 14:29:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-07 14:46:03.210465
- Title: Real-time Video Prediction With Fast Video Interpolation Model and Prediction Training
- Title(参考訳): 高速映像補間モデルによるリアルタイム映像予測と予測訓練
- Authors: Shota Hirose, Kazuki Kotoyori, Kasidis Arunruangsirilert, Fangzheng Lin, Heming Sun, Jiro Katto,
- Abstract要約: IFRVPと呼ばれるネットワーク上のゼロレイテンシ相互作用に対するリアルタイムビデオ予測を提案する。
予測モデルにELANベースの残差ブロックを導入し,予測速度と精度を両立させる。
評価の結果,提案モデルが効率よく動作し,予測精度と計算速度の最良のトレードオフが得られることがわかった。
- 参考スコア(独自算出の注目度): 9.225628670664596
- License:
- Abstract: Transmission latency significantly affects users' quality of experience in real-time interaction and actuation. As latency is principally inevitable, video prediction can be utilized to mitigate the latency and ultimately enable zero-latency transmission. However, most of the existing video prediction methods are computationally expensive and impractical for real-time applications. In this work, we therefore propose real-time video prediction towards the zero-latency interaction over networks, called IFRVP (Intermediate Feature Refinement Video Prediction). Firstly, we propose three training methods for video prediction that extend frame interpolation models, where we utilize a simple convolution-only frame interpolation network based on IFRNet. Secondly, we introduce ELAN-based residual blocks into the prediction models to improve both inference speed and accuracy. Our evaluations show that our proposed models perform efficiently and achieve the best trade-off between prediction accuracy and computational speed among the existing video prediction methods. A demonstration movie is also provided at http://bit.ly/IFRVPDemo. The code will be released at https://github.com/FykAikawa/IFRVP.
- Abstract(参考訳): 伝送遅延は、リアルタイムのインタラクションとアクティベーションにおけるユーザの体験の質に大きく影響する。
遅延は主に避けられないため、遅延を緩和し、究極的にはゼロレイテンシ伝送を可能にするためにビデオ予測を利用することができる。
しかし、既存のビデオ予測手法のほとんどは計算コストが高く、リアルタイムアプリケーションでは実用的ではない。
そこで本研究では,IRFVP(Intermediate Feature Refinement Video Prediction)と呼ばれる,ネットワーク上のゼロレイテンシ相互作用に対するリアルタイム映像予測を提案する。
まず,IFRNetに基づく単純な畳み込みのみのフレーム補間ネットワークを用いて,フレーム補間モデルを拡張する3つのビデオ予測手法を提案する。
次に、予測モデルにELANベースの残差ブロックを導入し、推論速度と精度の両方を改善する。
提案手法は,既存の映像予測手法において,予測精度と計算速度の最良のトレードオフが得られることを示す。
デモ映画はhttp://bit.ly/IFRVPDemoでも公開されている。
コードはhttps://github.com/FykAikawa/IFRVPでリリースされる。
関連論文リスト
- AID: Adapting Image2Video Diffusion Models for Instruction-guided Video Prediction [88.70116693750452]
テキスト誘導ビデオ予測(TVP)は、命令に従って、初期フレームから将来のフレームの動きを予測する。
従来のTVP方式では, 安定拡散法を応用して大きなブレークスルーを達成している。
我々は、初期フレームとテキスト命令に基づいて、将来のビデオ状態を予測するためのMLLM(Multi-Modal Large Language Model)を導入する。
論文 参考訳(メタデータ) (2024-06-10T17:02:08Z) - Predicting Long-horizon Futures by Conditioning on Geometry and Time [49.86180975196375]
我々は,過去を前提とした将来のセンサ観測の課題を探求する。
マルチモーダリティを扱える画像拡散モデルの大規模事前学習を活用する。
我々は、屋内と屋外のシーンにまたがる多様なビデオのセットについて、ビデオ予測のためのベンチマークを作成する。
論文 参考訳(メタデータ) (2024-04-17T16:56:31Z) - TKN: Transformer-based Keypoint Prediction Network For Real-time Video
Prediction [16.294105130947]
ビデオ予測のためのトランスフォーマーベースキーポイント予測ニューラルネットワーク(TKN)を提案する。
TKNは、制約付き情報抽出と並列予測スキームによる予測プロセスを向上する教師なし学習手法である。
KTHとHuman3.6データセットに関する大規模な実験は、TKNが既存の方法よりも11倍高速であることを示している。
論文 参考訳(メタデータ) (2023-03-17T07:26:16Z) - StreamYOLO: Real-time Object Detection for Streaming Perception [84.2559631820007]
将来を予測する能力を備えたモデルを提供し、ストリーミング知覚の結果を大幅に改善する。
本稿では,複数の速度を駆動するシーンについて考察し,VasAP(Velocity-Awared streaming AP)を提案する。
本手法は,Argoverse-HDデータセットの最先端性能を実現し,SAPとVsAPをそれぞれ4.7%,VsAPを8.2%改善する。
論文 参考訳(メタデータ) (2022-07-21T12:03:02Z) - Optimizing Video Prediction via Video Frame Interpolation [53.16726447796844]
本稿では,映像フレームスケープのフォトリアリスティックな結果にインスパイアされた,映像フレームによる映像予測のための新しい最適化フレームワークを提案する。
我々のフレームワークは、トレーニングデータセットを必要とせずに、事前訓練された差別化可能なビデオフレームモジュールによる最適化に基づいている。
我々の手法は、大量のトレーニングデータや余分な意味情報を必要とする他のビデオ予測手法よりも優れている。
論文 参考訳(メタデータ) (2022-06-27T17:03:46Z) - VPTR: Efficient Transformers for Video Prediction [14.685237010856953]
本稿では,効率的な局所的空間的時間的分離注意機構に基づく,映像の将来のフレーム予測のためのトランスフォーマーブロックを提案する。
この新しいトランスフォーマーブロックに基づいて,トランスフォーマーの完全自己回帰映像フレーム予測を提案する。
自動回帰ビデオ予測変換器も提案され、推論速度を向上し、自己回帰ビデオの累積推論誤差を低減する。
論文 参考訳(メタデータ) (2022-03-29T18:09:09Z) - Long-term Video Frame Interpolation via Feature Propagation [95.18170372022703]
ビデオフレーム(VFI)は、まず入力間の動きを推定し、次に推定された動きで入力を目標時間にワープすることで、中間フレーム(s)を予測する。
入力シーケンス間の時間的距離が増加すると、このアプローチは最適ではない。
本稿では,従来の特徴レベルの予測を新しいモーション・トゥ・フェース・アプローチで拡張した伝搬ネットワーク(PNet)を提案する。
論文 参考訳(メタデータ) (2022-03-29T10:47:06Z) - Real-time Object Detection for Streaming Perception [84.2559631820007]
ストリーミング知覚は,ビデオオンライン知覚の1つの指標として,レイテンシと精度を共同評価するために提案される。
ストリーミング知覚のためのシンプルで効果的なフレームワークを構築します。
提案手法はArgoverse-HDデータセット上での競合性能を実現し,強力なベースラインに比べてAPを4.9%向上させる。
論文 参考訳(メタデータ) (2022-03-23T11:33:27Z) - Video Prediction at Multiple Scales with Hierarchical Recurrent Networks [24.536256844130996]
本稿では,異なるレベルの粒度の将来の結果を同時に予測できる新しい映像予測モデルを提案する。
空間的および時間的ダウンサンプリングを組み合わせることで、MSPredは長い時間的地平線上での抽象表現を効率的に予測することができる。
実験では,提案モデルが将来の映像フレームだけでなく,様々なシナリオにおける他の表現を正確に予測できることを実証した。
論文 参考訳(メタデータ) (2022-03-17T13:08:28Z) - Fourier-based Video Prediction through Relational Object Motion [28.502280038100167]
ビデオ予測のタスクには, 深い再帰的アーキテクチャが適用されている。
本稿では、周波数領域のアプローチをビデオ予測に用い、異なるアプローチを提案する。
結果の予測は、シーンの観察されたダイナミクスと一致しており、ぼやけに苦しむことはない。
論文 参考訳(メタデータ) (2021-10-12T10:43:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。