論文の概要: PipeFlow: Pipelined Processing and Motion-Aware Frame Selection for Long-Form Video Editing
- arxiv url: http://arxiv.org/abs/2512.24026v1
- Date: Tue, 30 Dec 2025 06:54:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.307083
- Title: PipeFlow: Pipelined Processing and Motion-Aware Frame Selection for Long-Form Video Editing
- Title(参考訳): PipeFlow: 長期ビデオ編集のためのパイプライン処理とモーション対応フレーム選択
- Authors: Mustafa Munir, Md Mostafijur Rahman, Kartikeya Bhardwaj, Paul Whatmough, Radu Marculescu,
- Abstract要約: スケーラブルでパイプライン化されたビデオ編集手法であるPipeFlowを提案する。
動作解析に基づき,低速度フレームの編集を省略することを提案する。
提案手法は,より小さなセグメントに分割することで,より長いビデオに一意にスケールする。
- 参考スコア(独自算出の注目度): 29.552187111796403
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Long-form video editing poses unique challenges due to the exponential increase in the computational cost from joint editing and Denoising Diffusion Implicit Models (DDIM) inversion across extended sequences. To address these limitations, we propose PipeFlow, a scalable, pipelined video editing method that introduces three key innovations: First, based on a motion analysis using Structural Similarity Index Measure (SSIM) and Optical Flow, we identify and propose to skip editing of frames with low motion. Second, we propose a pipelined task scheduling algorithm that splits a video into multiple segments and performs DDIM inversion and joint editing in parallel based on available GPU memory. Lastly, we leverage a neural network-based interpolation technique to smooth out the border frames between segments and interpolate the previously skipped frames. Our method uniquely scales to longer videos by dividing them into smaller segments, allowing PipeFlow's editing time to increase linearly with video length. In principle, this enables editing of infinitely long videos without the growing per-frame computational overhead encountered by other methods. PipeFlow achieves up to a 9.6X speedup compared to TokenFlow and a 31.7X speedup over Diffusion Motion Transfer (DMT).
- Abstract(参考訳): 長大なビデオ編集は、共同編集とDiffusion Implicit Models(DDIM)のインバージョンによる計算コストの指数関数的増加により、ユニークな課題を生んでいる。
まず,構造類似度指数測定(SSIM)と光フローを用いた動作解析に基づいて,低モーションでフレームの編集を省略する手法を提案する。
第2に,映像を複数のセグメントに分割し,利用可能なGPUメモリに基づいてDDIMのインバージョンと共同編集を並列に行うパイプライン化されたタスクスケジューリングアルゴリズムを提案する。
最後に、ニューラルネットワークに基づく補間技術を用いて、セグメント間の境界フレームを滑らかにし、以前スキップされたフレームを補間する。
提案手法は,より小さなセグメントに分割することで,より長いビデオに一意にスケールする。
原則として、他の方法で遭遇するフレーム単位の計算オーバーヘッドを増大させることなく、無限に長いビデオの編集を可能にする。
PipeFlowはTokenFlowと比較して最大9.6倍のスピードアップを実現し、Diffusion Motion Transfer (DMT)よりも31.7倍のスピードアップを実現している。
関連論文リスト
- RFDM: Residual Flow Diffusion Model for Efficient Causal Video Editing [15.876564621196684]
本稿では,フレーム単位で可変長ビデオフレームを編集する因果的,効率的なビデオ編集モデルを提案する。
効率を上げるために、2次元画像画像画像(I2I)拡散モデルから始め、V2V(V2V)編集に適応させる。
我々はこの残留流拡散モデル(Residual Flow Diffusion Model, RFDM)と呼ぶ。
論文 参考訳(メタデータ) (2026-02-06T16:56:30Z) - PipeDiT: Accelerating Diffusion Transformers in Video Generation with Task Pipelining and Model Decoupling [18.079843329153412]
拡散トランス (DiT) ベースのモデルでは、マーク可能な能力が実証されている。
しかし、彼らの実践的なデプロイメントは、推論速度の遅いことと、メモリ消費の増大によって妨げられている。
ビデオ生成を高速化するために,PipeDiTという新しいパイプラインフレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-15T06:46:40Z) - An LMM for Efficient Video Understanding via Reinforced Compression of Video Cubes [85.00111442236499]
本稿では,非時間密度の動画をGumbel Softmax を用いて様々な立方体に分割する新しい知覚パラダイムを持つ LMM である textbfQuicksviewer を提案する。
言語バックボーンから3段階のプログレッシブステージを通じてモデルをトレーニングし、それぞれが知覚効率によって平均420s/1fpsの長大なビデオを組み込む。
トレーニング用ビデオテキストサンプルは0.8Mに過ぎず, 精度が最大8.72倍に向上した。
論文 参考訳(メタデータ) (2025-04-21T17:57:21Z) - Generating, Fast and Slow: Scalable Parallel Video Generation with Video Interface Networks [21.710127132217526]
本稿では,ビデオ・インタフェース・ネットワーク (VIN) と呼ばれる新しいパラダイムを導入し,ビデオ・チャンクの並列推論を可能にする抽象化モジュールでDiTを拡張した。
VINは局所チャンクのノイズの多い入力と符号化された表現からグローバルセマンティクスをエンコードする。
フルジェネレーションよりも25~40%少ないFLOPを用いて,最先端動作のスムーズさを実現する。
論文 参考訳(メタデータ) (2025-03-21T21:13:02Z) - Look Every Frame All at Once: Video-Ma$^2$mba for Efficient Long-form Video Understanding with Multi-Axis Gradient Checkpointing [52.050036778325094]
Video-Ma$2$mbaは、Mamba-2フレームワークにステートスペースモデル(SSM)を組み込んだ新しいアーキテクチャである。
本手法は,標準勾配チェックポイントに比べてメモリフットプリントを大幅に削減する。
時間的ダイナミクスの詳細なキャプチャーを維持することで、長いビデオ理解タスクにおける応答の精度と関連性を改善することができる。
論文 参考訳(メタデータ) (2024-11-29T04:12:13Z) - ViBiDSampler: Enhancing Video Interpolation Using Bidirectional Diffusion Sampler [53.98558445900626]
現在の画像とビデオの拡散モデルは、単一のフレームからビデオを生成するのに強力だが、2フレーム条件付き生成に適応する必要がある。
我々は,これらのオフマンド問題に対処するために,広範囲な再ノイズや微調整を必要とせずに,新しい双方向サンプリング戦略を導入する。
提案手法では,それぞれ開始フレームと終了フレームに条件付き前方経路と後方経路の両方に沿って逐次サンプリングを行い,中間フレームの整合性を確保した。
論文 参考訳(メタデータ) (2024-10-08T03:01:54Z) - A Simple Recipe for Contrastively Pre-training Video-First Encoders Beyond 16 Frames [57.758863967770594]
我々は,大規模な画像テキストモデルを浅部時間融合によりビデオに転送する共通パラダイムを構築した。
1)標準ビデオデータセットにおけるビデオ言語アライメントの低下による空間能力の低下と,(2)処理可能なフレーム数のボトルネックとなるメモリ消費の増大である。
論文 参考訳(メタデータ) (2023-12-12T16:10:19Z) - LOVECon: Text-driven Training-Free Long Video Editing with ControlNet [9.762680144118061]
本稿では,このギャップを埋めることを目的として,学習自由拡散モデルに基づく長大ビデオ編集のための,シンプルで効果的なベースラインを確立する。
ControlNet上にパイプラインを構築し、テキストプロンプトに基づいて様々な画像編集タスクを抽出する。
本手法は,ユーザの要求に応じて数百フレームの動画を編集する。
論文 参考訳(メタデータ) (2023-10-15T02:39:25Z) - Neighbor Correspondence Matching for Flow-based Video Frame Synthesis [90.14161060260012]
フローベースフレーム合成のための近傍対応マッチング(NCM)アルゴリズムを提案する。
NCMは現在のフレームに依存しない方法で実行され、各ピクセルの時空間近傍でマルチスケールの対応を確立する。
粗いスケールのモジュールは、近隣の対応を利用して大きな動きを捉えるように設計されている。
論文 参考訳(メタデータ) (2022-07-14T09:17:00Z) - Efficient Video Segmentation Models with Per-frame Inference [117.97423110566963]
推論のオーバーヘッドを導入することなく、時間的一貫性を改善することに注力する。
本稿では,時間的一貫性の喪失やオンライン/オフラインの知識蒸留手法など,ビデオシーケンスから学ぶためのいくつかの手法を提案する。
論文 参考訳(メタデータ) (2022-02-24T23:51:36Z) - FastRIFE: Optimization of Real-Time Intermediate Flow Estimation for
Video Frame Interpolation [0.0]
本稿では,RIFE(Real-Time Intermediate Flow Estimation)モデルの高速化を目的としたFastRIFEアルゴリズムを提案する。
すべてのソースコードはhttps://gitlab.com/malwinq/interpolation-of-images-for-slow-motion-videosで公開されている。
論文 参考訳(メタデータ) (2021-05-27T22:31:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。