論文の概要: PipeFlow: Pipelined Processing and Motion-Aware Frame Selection for Long-Form Video Editing
- arxiv url: http://arxiv.org/abs/2512.24026v1
- Date: Tue, 30 Dec 2025 06:54:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.307083
- Title: PipeFlow: Pipelined Processing and Motion-Aware Frame Selection for Long-Form Video Editing
- Title(参考訳): PipeFlow: 長期ビデオ編集のためのパイプライン処理とモーション対応フレーム選択
- Authors: Mustafa Munir, Md Mostafijur Rahman, Kartikeya Bhardwaj, Paul Whatmough, Radu Marculescu,
- Abstract要約: スケーラブルでパイプライン化されたビデオ編集手法であるPipeFlowを提案する。
動作解析に基づき,低速度フレームの編集を省略することを提案する。
提案手法は,より小さなセグメントに分割することで,より長いビデオに一意にスケールする。
- 参考スコア(独自算出の注目度): 29.552187111796403
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Long-form video editing poses unique challenges due to the exponential increase in the computational cost from joint editing and Denoising Diffusion Implicit Models (DDIM) inversion across extended sequences. To address these limitations, we propose PipeFlow, a scalable, pipelined video editing method that introduces three key innovations: First, based on a motion analysis using Structural Similarity Index Measure (SSIM) and Optical Flow, we identify and propose to skip editing of frames with low motion. Second, we propose a pipelined task scheduling algorithm that splits a video into multiple segments and performs DDIM inversion and joint editing in parallel based on available GPU memory. Lastly, we leverage a neural network-based interpolation technique to smooth out the border frames between segments and interpolate the previously skipped frames. Our method uniquely scales to longer videos by dividing them into smaller segments, allowing PipeFlow's editing time to increase linearly with video length. In principle, this enables editing of infinitely long videos without the growing per-frame computational overhead encountered by other methods. PipeFlow achieves up to a 9.6X speedup compared to TokenFlow and a 31.7X speedup over Diffusion Motion Transfer (DMT).
- Abstract(参考訳): 長大なビデオ編集は、共同編集とDiffusion Implicit Models(DDIM)のインバージョンによる計算コストの指数関数的増加により、ユニークな課題を生んでいる。
まず,構造類似度指数測定(SSIM)と光フローを用いた動作解析に基づいて,低モーションでフレームの編集を省略する手法を提案する。
第2に,映像を複数のセグメントに分割し,利用可能なGPUメモリに基づいてDDIMのインバージョンと共同編集を並列に行うパイプライン化されたタスクスケジューリングアルゴリズムを提案する。
最後に、ニューラルネットワークに基づく補間技術を用いて、セグメント間の境界フレームを滑らかにし、以前スキップされたフレームを補間する。
提案手法は,より小さなセグメントに分割することで,より長いビデオに一意にスケールする。
原則として、他の方法で遭遇するフレーム単位の計算オーバーヘッドを増大させることなく、無限に長いビデオの編集を可能にする。
PipeFlowはTokenFlowと比較して最大9.6倍のスピードアップを実現し、Diffusion Motion Transfer (DMT)よりも31.7倍のスピードアップを実現している。
関連論文リスト
- PipeDiT: Accelerating Diffusion Transformers in Video Generation with Task Pipelining and Model Decoupling [18.079843329153412]
拡散トランス (DiT) ベースのモデルでは、マーク可能な能力が実証されている。
しかし、彼らの実践的なデプロイメントは、推論速度の遅いことと、メモリ消費の増大によって妨げられている。
ビデオ生成を高速化するために,PipeDiTという新しいパイプラインフレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-15T06:46:40Z) - ViBiDSampler: Enhancing Video Interpolation Using Bidirectional Diffusion Sampler [53.98558445900626]
現在の画像とビデオの拡散モデルは、単一のフレームからビデオを生成するのに強力だが、2フレーム条件付き生成に適応する必要がある。
我々は,これらのオフマンド問題に対処するために,広範囲な再ノイズや微調整を必要とせずに,新しい双方向サンプリング戦略を導入する。
提案手法では,それぞれ開始フレームと終了フレームに条件付き前方経路と後方経路の両方に沿って逐次サンプリングを行い,中間フレームの整合性を確保した。
論文 参考訳(メタデータ) (2024-10-08T03:01:54Z) - A Simple Recipe for Contrastively Pre-training Video-First Encoders Beyond 16 Frames [57.758863967770594]
我々は,大規模な画像テキストモデルを浅部時間融合によりビデオに転送する共通パラダイムを構築した。
1)標準ビデオデータセットにおけるビデオ言語アライメントの低下による空間能力の低下と,(2)処理可能なフレーム数のボトルネックとなるメモリ消費の増大である。
論文 参考訳(メタデータ) (2023-12-12T16:10:19Z) - LOVECon: Text-driven Training-Free Long Video Editing with ControlNet [9.762680144118061]
本稿では,このギャップを埋めることを目的として,学習自由拡散モデルに基づく長大ビデオ編集のための,シンプルで効果的なベースラインを確立する。
ControlNet上にパイプラインを構築し、テキストプロンプトに基づいて様々な画像編集タスクを抽出する。
本手法は,ユーザの要求に応じて数百フレームの動画を編集する。
論文 参考訳(メタデータ) (2023-10-15T02:39:25Z) - Neighbor Correspondence Matching for Flow-based Video Frame Synthesis [90.14161060260012]
フローベースフレーム合成のための近傍対応マッチング(NCM)アルゴリズムを提案する。
NCMは現在のフレームに依存しない方法で実行され、各ピクセルの時空間近傍でマルチスケールの対応を確立する。
粗いスケールのモジュールは、近隣の対応を利用して大きな動きを捉えるように設計されている。
論文 参考訳(メタデータ) (2022-07-14T09:17:00Z) - FastRIFE: Optimization of Real-Time Intermediate Flow Estimation for
Video Frame Interpolation [0.0]
本稿では,RIFE(Real-Time Intermediate Flow Estimation)モデルの高速化を目的としたFastRIFEアルゴリズムを提案する。
すべてのソースコードはhttps://gitlab.com/malwinq/interpolation-of-images-for-slow-motion-videosで公開されている。
論文 参考訳(メタデータ) (2021-05-27T22:31:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。