論文の概要: FlowC2S: Flowing from Current to Succeeding Frames for Fast and Memory-Efficient Video Continuation
- arxiv url: http://arxiv.org/abs/2604.17625v1
- Date: Sun, 19 Apr 2026 21:38:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.608189
- Title: FlowC2S: Flowing from Current to Succeeding Frames for Fast and Memory-Efficient Video Continuation
- Title(参考訳): FlowC2S: 高速かつメモリ効率の良いビデオ継続のための流路から流路への流れ
- Authors: Hovhannes Margaryan, Quentin Bammey, Christian Sandor,
- Abstract要約: 本稿では,高速かつメモリ効率のよい連続映像を生成するための新しい手法を提案する。
提案手法はFlowC2Sと呼ばれ,既存のビデオチャンク間のベクトル場を学習するために,事前学習したテキスト・ビデオフローモデルを微調整する。
- 参考スコア(独自算出の注目度): 4.429835955129622
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces a novel methodology for generating fast and memory-efficient video continuations. Our method, dubbed FlowC2S, fine-tunes a pre-trained text-to-video flow model to learn a vector field between the current and succeeding video chunks. Two design choices are key. First, we introduce inherent optimal couplings, utilizing temporally adjacent video chunks during training as a practical proxy for true optimal couplings, resulting in straighter flows. Second, we incorporate target inversion, injecting the inverted latent of the target chunk into the input representation to strengthen correspondences and improve visual fidelity. By flowing directly from current to succeeding frames, instead of the common combination of current frames with noise to generate a video continuation, we reduce the dimensionality of the model input by a factor of two. The proposed method, fine-tuned from LTXV and Wan, surpasses the state-of-the-art scores across quantitative evaluations with FID and FVD, with as few as five neural function evaluations.
- Abstract(参考訳): 本稿では,高速かつメモリ効率のよい連続映像を生成するための新しい手法を提案する。
提案手法はFlowC2Sと呼ばれ,既存のビデオチャンク間のベクトル場を学習するために,事前学習したテキスト・ビデオフローモデルを微調整する。
2つのデザイン選択が重要です。
まず、トレーニング中に時間的に隣接するビデオチャンクを真の最適なカップリングの実用的なプロキシとして利用し、より直線的なフローをもたらす、本質的に最適なカップリングを導入する。
第二に、対象チャンクの反転潜時を入力表現に注入することで、対応性を強化し、視覚的忠実度を向上させる。
直流から後続のフレームへ直接流れていくことで、映像連続を生成するために、現在のフレームとノイズの共通結合の代わりに、2つの係数で入力されたモデルの寸法を小さくする。
LTXV と Wan を微調整した本手法は,FID と FVD の定量的評価を5つのニューラルファンクション評価で比較した。
関連論文リスト
- EFlow: Fast Few-Step Video Generator Training from Scratch via Efficient Solution Flow [52.73538517981873]
EFlowは、ビデオ拡散トランスフォーマーのための効率的な数ステップのトレーニングフレームワークである。
Gated Local-Global Attentionはトークンドロップ可能なハイブリッドブロックである。
Path-Drop Guidedトレーニングは、高価なターゲットを計算的に安価で弱いパスに置き換える。
論文 参考訳(メタデータ) (2026-03-28T02:06:55Z) - Flowception: Temporally Expansive Flow Matching for Video Generation [35.14803469800522]
Flowceptionは自動回帰および可変長ビデオ生成フレームワークである。
離散的なフレーム挿入を連続的なフレームデノイングでインターリーブする確率パスを学習する。
Flowceptionは、フレームをシーケンスに挿入し、復調することを学ぶことで、画像からビデオへの生成やビデオなど、さまざまなタスクをシームレスに統合する。
論文 参考訳(メタデータ) (2025-12-12T10:23:47Z) - Generative Video Bi-flow [14.053608981988793]
ニューラル正規微分方程式(ODE)の流れとして時間変化を頑健に学習する新しい生成ビデオモデルを提案する。
様々なビデオデータセットに対して,非条件のビデオ生成をストリーミング方式で実演する。
論文 参考訳(メタデータ) (2025-03-09T00:03:59Z) - From Slow Bidirectional to Fast Autoregressive Video Diffusion Models [48.35054927704544]
現在のビデオ拡散モデルは、印象的な生成品質を実現するが、双方向の注意依存のため、インタラクティブなアプリケーションに苦戦する。
この制限には、事前訓練された双方向拡散変換器を自己回帰変換器に適応させ、フレームをオンザフライで生成することで対処する。
我々のモデルは、VBench-Longベンチマークで84.27点のスコアを達成し、以前のすべてのビデオ生成モデルを上回った。
論文 参考訳(メタデータ) (2024-12-10T18:59:50Z) - Improving the Training of Rectified Flows [14.652876697052156]
拡散モデルは画像生成とビデオ生成に大いに期待できるが、最先端モデルからのサンプリングには高コストの数値積分が必要である。
この問題に対処するための1つのアプローチは整流流であり、これは繰り返し、トランケーションエラーの影響を受けにくい滑らかなODEパスを学習する。
本研究は,NFEの低い環境下においても,改質流れを訓練するための改良手法を提案する。
改良された改質流は, 整合蒸留, 進行蒸留といった最先端蒸留法を1段階, 2段階で上回った。
論文 参考訳(メタデータ) (2024-05-30T17:56:04Z) - MemFlow: Optical Flow Estimation and Prediction with Memory [54.22820729477756]
本稿では,メモリを用いた光フロー推定と予測をリアルタイムに行うMemFlowを提案する。
本手法では,メモリの読み出しと更新を行うモジュールをリアルタイムに収集する。
われわれのアプローチは、過去の観測に基づいて、将来の光流の予測にシームレスに拡張する。
論文 参考訳(メタデータ) (2024-04-07T04:56:58Z) - StreamFlow: Streamlined Multi-Frame Optical Flow Estimation for Video
Sequences [31.210626775505407]
連続するフレーム間のオクルージョンは、長い間、光学的フロー推定において重要な課題を提起してきた。
本稿では,ビデオ入力に適したストリーム・イン・バッチ・マルチフレーム(SIM)パイプラインを提案する。
StreamFlowは、挑戦的なKITTIとSintelデータセットのパフォーマンスだけでなく、排他的領域でも特に改善されている。
論文 参考訳(メタデータ) (2023-11-28T07:53:51Z) - ReBotNet: Fast Real-time Video Enhancement [59.08038313427057]
ほとんどの復元ネットワークは遅く、高い計算ボトルネックがあり、リアルタイムビデオ拡張には使用できない。
本研究では,ライブビデオ通話やビデオストリームなどの実用的なユースケースをリアルタイムに拡張するための,効率的かつ高速なフレームワークを設計する。
提案手法を評価するために,実世界のビデオ通話とストリーミングのシナリオを示す2つの新しいデータセットをエミュレートし,ReBotNetがより少ない計算,メモリ要求の低減,より高速な推論時間で既存手法より優れていることを示す。
論文 参考訳(メタデータ) (2023-03-23T17:58:05Z) - Efficient Video Prediction via Sparsely Conditioned Flow Matching [24.32740918613266]
本稿では,遅延フローマッチングに基づく映像予測のための新しい生成モデルを提案する。
我々は、VidEo pRedictionのためのRandomフレーム条件付きフロー統合(Random frame conditioned flow Integration)または略してRIVER(Random frame conditioned flow Integration)と呼ぶ。
論文 参考訳(メタデータ) (2022-11-26T14:18:50Z) - FLAVR: Flow-Agnostic Video Representations for Fast Frame Interpolation [97.99012124785177]
FLAVRは、3D空間時間の畳み込みを使用して、ビデオフレームのエンドツーエンドの学習と推論を可能にする柔軟で効率的なアーキテクチャです。
FLAVRは、アクション認識、光フロー推定、モーション拡大のための有用な自己解釈タスクとして役立つことを実証します。
論文 参考訳(メタデータ) (2020-12-15T18:59:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。