論文の概要: Efficient Continuous Video Flow Model for Video Prediction
- arxiv url: http://arxiv.org/abs/2412.05633v1
- Date: Sat, 07 Dec 2024 12:11:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:55:17.837114
- Title: Efficient Continuous Video Flow Model for Video Prediction
- Title(参考訳): 映像予測のための効率的な連続映像流モデル
- Authors: Gaurav Shrivastava, Abhinav Shrivastava,
- Abstract要約: 拡散や修正フローモデルなどの多段階予測モデルでは、単一ステップ法と比較して新しいフレームをサンプリングする際のレイテンシが高くなる。
本稿では,遅延制約を緩和し,映像予測タスクへのこれらのプロセスの適応を容易にすることを目的とした,多段階プロセスのモデリング手法を提案する。
- 参考スコア(独自算出の注目度): 43.16308241800144
- License:
- Abstract: Multi-step prediction models, such as diffusion and rectified flow models, have emerged as state-of-the-art solutions for generation tasks. However, these models exhibit higher latency in sampling new frames compared to single-step methods. This latency issue becomes a significant bottleneck when adapting such methods for video prediction tasks, given that a typical 60-second video comprises approximately 1.5K frames. In this paper, we propose a novel approach to modeling the multi-step process, aimed at alleviating latency constraints and facilitating the adaptation of such processes for video prediction tasks. Our approach not only reduces the number of sample steps required to predict the next frame but also minimizes computational demands by reducing the model size to one-third of the original size. We evaluate our method on standard video prediction datasets, including KTH, BAIR action robot, Human3.6M and UCF101, demonstrating its efficacy in achieving state-of-the-art performance on these benchmarks.
- Abstract(参考訳): 拡散や整流モデルのような多段階予測モデルは、生成タスクのための最先端のソリューションとして現れている。
しかし、これらのモデルはシングルステップ法と比較して新しいフレームをサンプリングする際のレイテンシが高い。
このレイテンシ問題は、典型的な60秒のビデオが約1.5Kフレームからなることを考えると、ビデオ予測タスクにこのような手法を適用する際に重大なボトルネックとなる。
本稿では,遅延制約を緩和し,映像予測タスクへのそれらのプロセスの適応を容易にすることを目的とした,多段階プロセスのモデリング手法を提案する。
提案手法は, 次のフレームの予測に必要なサンプルステップ数を削減できるだけでなく, モデルサイズを元のサイズの3分の1に削減することで, 計算要求を最小化する。
我々は、KTH、BAIRアクションロボット、Human3.6M、UCF101を含む標準映像予測データセットについて評価を行い、これらのベンチマークにおける最先端性能の実現の有効性を実証した。
関連論文リスト
- Autoregressive Video Generation without Vector Quantization [90.87907377618747]
本研究では,時間フレーム毎の予測の非量子化自己回帰モデルとしてビデオ生成問題を再構成する。
提案手法では,ベクトル量子化のない新しい自己回帰モデルであるNOVAを訓練する。
以上の結果から,NOVAはデータ効率,推論速度,視覚的忠実度,映像流速において,従来の自己回帰ビデオモデルよりもはるかに小さいモデルキャパシティを有することがわかった。
論文 参考訳(メタデータ) (2024-12-18T18:59:53Z) - AdaDiff: Adaptive Step Selection for Fast Diffusion Models [82.78899138400435]
我々は、インスタンス固有のステップ利用ポリシーを学ぶために設計された軽量フレームワークであるAdaDiffを紹介します。
AdaDiffはポリシーメソッドを使用して最適化され、慎重に設計された報酬関数を最大化する。
我々は3つの画像生成と2つのビデオ生成ベンチマークの実験を行い、本手法がベースラインと同じような視覚的品質を実現することを示す。
論文 参考訳(メタデータ) (2023-11-24T11:20:38Z) - PELA: Learning Parameter-Efficient Models with Low-Rank Approximation [16.9278983497498]
そこで本研究では,中間学習段階を導入することにより,事前学習モデルのパラメータ効率を向上させる手法を提案する。
これにより、下流の微調整タスクにローランクモデルの直接的かつ効率的な利用が可能になる。
論文 参考訳(メタデータ) (2023-10-16T07:17:33Z) - Future Video Prediction from a Single Frame for Video Anomaly Detection [0.38073142980732994]
ビデオ異常検出(VAD)はコンピュータビジョンにおいて重要であるが難しい課題である。
本稿では,ビデオ異常検出のための新しいプロキシタスクとして,将来のフレーム予測プロキシタスクを紹介する。
このプロキシタスクは、より長い動きパターンを学習する従来の手法の課題を軽減する。
論文 参考訳(メタデータ) (2023-08-15T14:04:50Z) - Sample Less, Learn More: Efficient Action Recognition via Frame Feature
Restoration [59.6021678234829]
本稿では,2つのスパースサンプリングおよび隣接するビデオフレームの中間特徴を復元する新しい手法を提案する。
提案手法の統合により, 一般的な3つのベースラインの効率は50%以上向上し, 認識精度は0.5%低下した。
論文 参考訳(メタデータ) (2023-07-27T13:52:42Z) - Post-Processing Temporal Action Detection [134.26292288193298]
時間的行動検出(TAD)法は、通常、入力された可変長のビデオを固定長のスニペット表現シーケンスに変換する際に、前処理のステップを踏む。
この前処理ステップは、ビデオを時間的にダウンサンプリングし、推論の解像度を低減し、元の時間分解における検出性能を阻害する。
モデルの再設計や再学習を伴わない新しいモデル非依存のポストプロセッシング手法を提案する。
論文 参考訳(メタデータ) (2022-11-27T19:50:37Z) - Efficient Video Prediction via Sparsely Conditioned Flow Matching [24.32740918613266]
本稿では,遅延フローマッチングに基づく映像予測のための新しい生成モデルを提案する。
我々は、VidEo pRedictionのためのRandomフレーム条件付きフロー統合(Random frame conditioned flow Integration)または略してRIVER(Random frame conditioned flow Integration)と呼ぶ。
論文 参考訳(メタデータ) (2022-11-26T14:18:50Z) - MANet: Improving Video Denoising with a Multi-Alignment Network [72.93429911044903]
本稿では,複数フローの提案とアテンションに基づく平均化を行うマルチアライメントネットワークを提案する。
大規模ビデオデータセットを用いた実験により,本手法は調音ベースラインモデルを0.2dBで改善することを示した。
論文 参考訳(メタデータ) (2022-02-20T00:52:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。