論文の概要: Coherent Video Inpainting Using Optical Flow-Guided Efficient Diffusion
- arxiv url: http://arxiv.org/abs/2412.00857v3
- Date: Tue, 11 Mar 2025 13:13:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 19:16:46.296768
- Title: Coherent Video Inpainting Using Optical Flow-Guided Efficient Diffusion
- Title(参考訳): 光フロー誘導高効率拡散を用いたコヒーレントビデオインペインティング
- Authors: Bohai Gu, Hao Luo, Song Guo, Peiran Dong, Qihua Zhou,
- Abstract要約: 高速な映像コヒーレンスを実現するために,光フロー誘導効率拡散(FloED)を用いた新しい映像インペイントフレームワークを提案する。
FloEDはデュアルブランチアーキテクチャを採用しており、時間に依存しないフローブランチが最初に破損したフローを復元し、マルチスケールフローアダプタがメインの塗装ブランチにモーションガイダンスを提供する。
背景復元およびオブジェクト除去タスクの実験では、FloEDは最先端の拡散法よりも品質と効率の両方で優れていた。
- 参考スコア(独自算出の注目度): 15.188335671278024
- License:
- Abstract: The text-guided video inpainting technique has significantly improved the performance of content generation applications. A recent family for these improvements uses diffusion models, which have become essential for achieving high-quality video inpainting results, yet they still face performance bottlenecks in temporal consistency and computational efficiency. This motivates us to propose a new video inpainting framework using optical Flow-guided Efficient Diffusion (FloED) for higher video coherence. Specifically, FloED employs a dual-branch architecture, where the time-agnostic flow branch restores corrupted flow first, and the multi-scale flow adapters provide motion guidance to the main inpainting branch. Besides, a training-free latent interpolation method is proposed to accelerate the multi-step denoising process using flow warping. With the flow attention cache mechanism, FLoED efficiently reduces the computational cost of incorporating optical flow. Extensive experiments on background restoration and object removal tasks show that FloED outperforms state-of-the-art diffusion-based methods in both quality and efficiency. Our codes and models will be made publicly available.
- Abstract(参考訳): テキスト誘導型ビデオ塗装技術は,コンテンツ生成アプリケーションの性能を著しく向上させた。
これらの改善のための最近のファミリーでは拡散モデルが使われており、高品質なビデオインパインティングの結果を達成するのに欠かせないものとなっているが、時間的一貫性と計算効率においてパフォーマンス上のボトルネックに直面している。
これにより,光フロー誘導高能率拡散(FloED)を用いた高精細な映像コヒーレンスのための新しい映像インペイントフレームワークを提案する。
具体的には、FloEDは、時間に依存しないフローブランチが最初に破損したフローを復元するデュアルブランチアーキテクチャを採用し、マルチスケールフローアダプタはメインの塗装ブランチにモーションガイダンスを提供する。
また,フローワープを用いた多段階除音プロセスの高速化を目的として,トレーニングフリーの潜水補間法を提案する。
フローアテンションキャッシュ機構により、FLoEDは光学フローを組み込む際の計算コストを効率的に削減する。
背景復元とオブジェクト除去タスクに関する大規模な実験により、FloEDは最先端の拡散法よりも品質と効率の両面で優れていることが示された。
私たちのコードとモデルは公開されます。
関連論文リスト
- Efficient Diffusion as Low Light Enhancer [63.789138528062225]
RATR(Reflectance-Aware Trajectory Refinement)は、イメージの反射成分を用いて教師の軌跡を洗練するための、シンプルで効果的なモジュールである。
textbfReDDiT (textbfDistilled textbfTrajectory) は低照度画像強調(LLIE)に適した効率的で柔軟な蒸留フレームワークである。
論文 参考訳(メタデータ) (2024-10-16T08:07:18Z) - FlowIE: Efficient Image Enhancement via Rectified Flow [71.6345505427213]
FlowIEはフローベースのフレームワークであり、基本的な分布から高品質な画像への直線パスを推定する。
私たちのコントリビューションは、合成および実世界のデータセットに関する包括的な実験を通じて、厳密に検証されています。
論文 参考訳(メタデータ) (2024-06-01T17:29:29Z) - Rethink Predicting the Optical Flow with the Kinetics Perspective [1.7901503554839604]
光フロー推定は、低レベルコンピュータビジョンにおける基本的なタスクの1つである。
見かけ上は、連続したフレーム内の画素間の相関として光学フローを見ることができる。
本稿では,このモチベーションから明らかな情報と運動学情報を組み合わせる手法を提案する。
論文 参考訳(メタデータ) (2024-05-21T05:47:42Z) - Efficient Diffusion Model for Image Restoration by Residual Shifting [63.02725947015132]
本研究では,画像復元のための新しい,効率的な拡散モデルを提案する。
提案手法は,推論中の後処理の高速化を回避し,関連する性能劣化を回避する。
提案手法は,3つの古典的IRタスクにおける現在の最先端手法よりも優れた,あるいは同等の性能を実現する。
論文 参考訳(メタデータ) (2024-03-12T05:06:07Z) - Motion-Aware Video Frame Interpolation [49.49668436390514]
我々は、連続するフレームから中間光の流れを直接推定する動き対応ビデオフレーム補間(MA-VFI)ネットワークを導入する。
受容場が異なる入力フレームからグローバルな意味関係と空間的詳細を抽出するだけでなく、必要な計算コストと複雑さを効果的に削減する。
論文 参考訳(メタデータ) (2024-02-05T11:00:14Z) - StreamFlow: Streamlined Multi-Frame Optical Flow Estimation for Video
Sequences [31.210626775505407]
連続するフレーム間のオクルージョンは、長い間、光学的フロー推定において重要な課題を提起してきた。
本稿では,ビデオ入力に適したストリーム・イン・バッチ・マルチフレーム(SIM)パイプラインを提案する。
StreamFlowは、挑戦的なKITTIとSintelデータセットのパフォーマンスだけでなく、排他的領域でも特に改善されている。
論文 参考訳(メタデータ) (2023-11-28T07:53:51Z) - Flow-Guided Diffusion for Video Inpainting [14.168532703086672]
ビデオのインペイントは、大きな動きや低照度条件のような複雑なシナリオによって挑戦されてきた。
新たな拡散モデルを含む現在の手法は、品質と効率の限界に直面している。
本稿では、時間的一貫性と塗装品質を大幅に向上させる新しい手法であるFGDVI(Flow-Guided Diffusion Model for Video Inpainting)を提案する。
論文 参考訳(メタデータ) (2023-11-26T17:48:48Z) - Learning Task-Oriented Flows to Mutually Guide Feature Alignment in
Synthesized and Real Video Denoising [137.5080784570804]
Video Denoisingは、クリーンなノイズを回復するためにビデオからノイズを取り除くことを目的としている。
既存の研究によっては、近辺のフレームから追加の空間的時間的手がかりを利用することで、光学的流れがノイズ発生の助けとなることが示されている。
本稿では,様々なノイズレベルに対してより堅牢なマルチスケール光フロー誘導型ビデオデノイング法を提案する。
論文 参考訳(メタデータ) (2022-08-25T00:09:18Z) - Towards An End-to-End Framework for Flow-Guided Video Inpainting [68.71844500391023]
フローガイド型ビデオインペインティングのためのエンドツーエンドフレームワーク(E$2$FGVI)を提案する。
提案手法は定性的かつ定量的に最先端の手法より優れている。
論文 参考訳(メタデータ) (2022-04-06T08:24:47Z) - Unsupervised Motion Representation Enhanced Network for Action
Recognition [4.42249337449125]
連続するフレーム間の動きの表現は、ビデオの理解を大いに促進することが証明されている。
効果的な光フロー解決器であるTV-L1法は、抽出した光フローをキャッシュするために時間と費用がかかる。
UF-TSN(UF-TSN)は、軽量な非監視光フロー推定器を組み込んだ、エンドツーエンドのアクション認識手法です。
論文 参考訳(メタデータ) (2021-03-05T04:14:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。