論文の概要: Elevating Flow-Guided Video Inpainting with Reference Generation
- arxiv url: http://arxiv.org/abs/2412.08975v1
- Date: Thu, 12 Dec 2024 06:13:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-13 13:32:41.476362
- Title: Elevating Flow-Guided Video Inpainting with Reference Generation
- Title(参考訳): 参照生成によるフローガイド映像の高精細化
- Authors: Suhwan Cho, Seoung Wug Oh, Sangyoun Lee, Joon-Young Lee,
- Abstract要約: ビデオインパインティング(VI)は、フレーム間で観測可能なコンテンツを効果的に伝播させながら、オリジナルビデオに存在しない新しいコンテンツを同時に生成する必要がある課題である。
本稿では,より進んだ画素伝搬アルゴリズムと組み合わせて,参照生成のための大規模な生成モデルを活用する,堅牢で実用的なVIフレームワークを提案する。
提案手法は,オブジェクト削除のためのフレームレベルの品質を著しく向上するだけでなく,ユーザが提供するテキストプロンプトに基づいて,欠落した領域の新たなコンテンツを合成する。
- 参考スコア(独自算出の注目度): 50.03502211226332
- License:
- Abstract: Video inpainting (VI) is a challenging task that requires effective propagation of observable content across frames while simultaneously generating new content not present in the original video. In this study, we propose a robust and practical VI framework that leverages a large generative model for reference generation in combination with an advanced pixel propagation algorithm. Powered by a strong generative model, our method not only significantly enhances frame-level quality for object removal but also synthesizes new content in the missing areas based on user-provided text prompts. For pixel propagation, we introduce a one-shot pixel pulling method that effectively avoids error accumulation from repeated sampling while maintaining sub-pixel precision. To evaluate various VI methods in realistic scenarios, we also propose a high-quality VI benchmark, HQVI, comprising carefully generated videos using alpha matte composition. On public benchmarks and the HQVI dataset, our method demonstrates significantly higher visual quality and metric scores compared to existing solutions. Furthermore, it can process high-resolution videos exceeding 2K resolution with ease, underscoring its superiority for real-world applications.
- Abstract(参考訳): ビデオインパインティング(VI)は、フレーム間で観測可能なコンテンツを効果的に伝播させながら、オリジナルビデオに存在しない新しいコンテンツを同時に生成する必要がある課題である。
本研究では,より進んだ画素伝搬アルゴリズムと組み合わせて,参照生成のための大規模な生成モデルを活用する,堅牢で実用的なVIフレームワークを提案する。
強力な生成モデルにより、本手法はオブジェクト除去のためのフレームレベルの品質を著しく向上するだけでなく、ユーザが提供するテキストプロンプトに基づいて、欠落した領域の新たなコンテンツを合成する。
画素伝播のために,サブピクセル精度を維持しつつ,繰り返しサンプリングによるエラーの蓄積を効果的に回避するワンショットピクセル抽出手法を提案する。
現実的なシナリオで様々なVI手法を評価するために,アルファマット合成を用いて注意深く生成されたビデオからなる高品質なVIベンチマークHQVIを提案する。
公開ベンチマークとHQVIデータセットでは,既存の手法に比べて視覚的品質と測定スコアが有意に高いことを示す。
さらに、2K解像度を超える高解像度動画の処理も容易で、現実世界のアプリケーションでは優位性を示している。
関連論文リスト
- CoordFlow: Coordinate Flow for Pixel-wise Neural Video Representation [11.364753833652182]
Implicit Neural Representation (INR)は、従来の変換ベースの手法に代わる有望な代替手段である。
ビデオ圧縮のための新しいピクセルワイドINRであるCoordFlowを紹介する。
他のピクセルワイドINRと比較すると、最先端のフレームワイド技術と比較すると、オンパー性能が向上する。
論文 参考訳(メタデータ) (2025-01-01T22:58:06Z) - HyViLM: Enhancing Fine-Grained Recognition with a Hybrid Encoder for Vision-Language Models [15.128058747088222]
HyViLMは、エンコーディング中に全体のコンテキストを保持しながら、任意の解像度の画像を処理するように設計されている。
同じ条件下での最先端のMLLMと比較して、HyViLMは既存のMLLMを10タスク中9タスクで上回ります。
論文 参考訳(メタデータ) (2024-12-11T13:41:21Z) - VISION-XL: High Definition Video Inverse Problem Solver using Latent Image Diffusion Models [58.464465016269614]
本稿では,遅延画像拡散モデルを用いて高精細ビデオ逆問題を解決するためのフレームワークを提案する。
提案手法は遅延空間拡散モデルを用いて,映像品質と解像度の向上を実現する。
従来の手法とは異なり,本手法では複数のアスペクト比をサポートし,1つのGPU上で2.5分以内でHD解像度の再構成を行う。
論文 参考訳(メタデータ) (2024-11-29T08:10:49Z) - Video Interpolation with Diffusion Models [54.06746595879689]
本稿では,ビデオ生成モデルであるVIDIMについて述べる。
VIDIMはカスケード拡散モデルを用いて、まず低解像度でターゲット映像を生成し、次に低解像度で生成されたビデオに条件付けされた高解像度映像を生成する。
論文 参考訳(メタデータ) (2024-04-01T15:59:32Z) - Inflation with Diffusion: Efficient Temporal Adaptation for
Text-to-Video Super-Resolution [19.748048455806305]
本稿では,効率的な拡散型テキスト・ビデオ・スーパーレゾリューション(SR)チューニング手法を提案する。
本稿では,我々の拡張アーキテクチャに基づく異なるチューニング手法について検討し,計算コストと超解像品質のトレードオフを報告する。
論文 参考訳(メタデータ) (2024-01-18T22:25:16Z) - VideoGen: A Reference-Guided Latent Diffusion Approach for High
Definition Text-to-Video Generation [73.54366331493007]
VideoGenはテキスト・ツー・ビデオ生成方式であり、フレームの忠実度が高く、時間的一貫性の強い高精細なビデオを生成することができる。
我々は,テキストプロンプトから高品質な画像を生成するために,既製のテキスト画像生成モデル,例えば,安定拡散(Stable Diffusion)を利用する。
論文 参考訳(メタデータ) (2023-09-01T11:14:43Z) - In-N-Out Generative Learning for Dense Unsupervised Video Segmentation [89.21483504654282]
本稿では,ラベルなしビデオから視覚的対応を学習する,教師なしビデオオブジェクト(VOS)タスクに焦点を当てる。
In-aNd-Out(INO)生成学習を純粋に生成的観点から提案する。
我々のINOは、最先端の手法をかなりのマージンで上回っている。
論文 参考訳(メタデータ) (2022-03-29T07:56:21Z) - High Fidelity Interactive Video Segmentation Using Tensor Decomposition
Boundary Loss Convolutional Tessellations and Context Aware Skip Connections [0.0]
対話型ビデオセグメンテーションタスクのための高忠実度ディープラーニングアルゴリズム(HyperSeg)を提供する。
我々のモデルは、ダウンサンプリングやプールの手順を使わずに、すべての画像特徴を高解像度で処理し、レンダリングする。
私たちの作業は、VFXパイプラインや医療画像の規律など、幅広いアプリケーション領域で使用することができます。
論文 参考訳(メタデータ) (2020-11-23T18:21:42Z) - Enhanced Quadratic Video Interpolation [56.54662568085176]
より複雑なシーンや動きパターンを扱うために,拡張された2次ビデオ(EQVI)モデルを提案する。
さらなる性能向上のために,学習可能な拡張プロセスと見なせる新しいマルチスケール核融合ネットワーク(MS-Fusion)を考案した。
提案されたEQVIモデルは、AIM 2020 Video Temporal Super-Resolution Challengeで優勝した。
論文 参考訳(メタデータ) (2020-09-10T02:31:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。