Fugu-MT 論文翻訳(概要): Be-Your-Outpainter: Mastering Video Outpainting through Input-Specific Adaptation

論文の概要: Be-Your-Outpainter: Mastering Video Outpainting through Input-Specific Adaptation

arxiv url: http://arxiv.org/abs/2403.13745v1
Date: Wed, 20 Mar 2024 16:53:45 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-21 16:08:57.397550
Title: Be-Your-Outpainter: Mastering Video Outpainting through Input-Specific Adaptation
Title（参考訳）: Be-Your-Outpainter: 入力特化適応によるビデオ出力のマスタリング
Authors: Fu-Yun Wang, Xiaoshi Wu, Zhaoyang Huang, Xiaoyu Shi, Dazhong Shen, Guanglu Song, Yu Liu, Hongsheng Li,
Abstract要約: ビデオのアウトペイントは、入力されたビデオのビューポートの外でビデオコンテンツを生成することを目的とした、難しい作業である。入力特化適応によるMOTIAマスタリングビデオアウトペイントについて紹介する。 MoTIAは入力特異的適応とパターン認識の露呈という2つの主要なフェーズから構成される。
参考スコア（独自算出の注目度）: 44.92712228326116
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Video outpainting is a challenging task, aiming at generating video content outside the viewport of the input video while maintaining inter-frame and intra-frame consistency. Existing methods fall short in either generation quality or flexibility. We introduce MOTIA Mastering Video Outpainting Through Input-Specific Adaptation, a diffusion-based pipeline that leverages both the intrinsic data-specific patterns of the source video and the image/video generative prior for effective outpainting. MOTIA comprises two main phases: input-specific adaptation and pattern-aware outpainting. The input-specific adaptation phase involves conducting efficient and effective pseudo outpainting learning on the single-shot source video. This process encourages the model to identify and learn patterns within the source video, as well as bridging the gap between standard generative processes and outpainting. The subsequent phase, pattern-aware outpainting, is dedicated to the generalization of these learned patterns to generate outpainting outcomes. Additional strategies including spatial-aware insertion and noise travel are proposed to better leverage the diffusion model's generative prior and the acquired video patterns from source videos. Extensive evaluations underscore MOTIA's superiority, outperforming existing state-of-the-art methods in widely recognized benchmarks. Notably, these advancements are achieved without necessitating extensive, task-specific tuning.
Abstract（参考訳）: フレーム間の一貫性とフレーム内一貫性を維持しながら、入力ビデオのビューポート外でビデオコンテンツを生成することを目的としている。既存のメソッドは、生成品質または柔軟性のいずれかで不足する。入力-特定適応を通したMOTIAマスタリングビデオアウトペイントについて紹介する。これは拡散に基づくパイプラインで、ソースビデオの固有のデータ固有のパターンと、効果的なアウトペイントに先立つ画像/ビデオ生成の両方を活用する。 MOTIAは入力特異的適応とパターン認識の露呈という2つの主要なフェーズから構成される。入力固有の適応フェーズは、ワンショットソースビデオ上で、効率的で効果的な擬似露光学習を行う。このプロセスは、モデルにソースビデオ内のパターンを特定し、学習させ、標準生成プロセスとアウトペイントの間のギャップを埋める。その後のフェーズであるパターン認識のアウトパインティングは、これらの学習パターンの一般化に特化して、アウトパインティング結果を生成する。空間認識挿入やノイズトラベルなどの追加戦略が提案され、拡散モデルの生成前とソースビデオから取得したビデオパターンをよりよく活用する。大規模な評価はMOTIAの優位性を強調し、広く認識されているベンチマークにおいて既存の最先端の手法よりも優れている。特に、これらの進歩はタスク固有の広範囲なチューニングを必要とせずに達成される。

関連論文リスト

Subject-driven Video Generation via Disentangled Identity and Motion [52.54835936914813]
本稿では,ゼロショットにおける時間的ダイナミクスから被験者固有の学習を分離し,追加のチューニングを伴わずに,主題駆動のカスタマイズビデオ生成モデルを訓練することを提案する。提案手法は、ゼロショット設定で既存のビデオカスタマイズモデルよりも優れた、強力な被写体整合性とスケーラビリティを実現する。
論文参考訳（メタデータ） (2025-04-23T06:48:31Z)
VideoPainter: Any-length Video Inpainting and Editing with Plug-and-Play Context Control [47.34885131252508]
ビデオのインペイントは、腐敗したビデオコンテンツを復元することを目的としている。マスク付きビデオを処理するための新しいデュアルストリームパラダイムVideoPainterを提案する。また,任意の長さの映像を描ける新しいターゲット領域ID再サンプリング手法も導入する。
論文参考訳（メタデータ） (2025-03-07T17:59:46Z)
VipDiff: Towards Coherent and Diverse Video Inpainting via Training-free Denoising Diffusion Models [21.584843961386888]
VipDiffは、時間的コヒーレントな塗装結果を生成するために、逆拡散過程に拡散モデルを条件付けるためのフレームワークである。この手法は、空間的時間的コヒーレンスと忠実度の両方の観点から、最先端の映像塗装法よりも優れている。
論文参考訳（メタデータ） (2025-01-21T16:39:09Z)
DiffuEraser: A Diffusion Model for Video Inpainting [13.292164408616257]
安定拡散に基づく映像インペイントモデルであるDiffuEraserを導入し,より詳細な情報とコヒーレントな構造でマスクされた領域を埋める。また,従来のモデルとDiffuEraserの両方の時間的受容領域を拡張し,ビデオ拡散モデルの時間的平滑化特性を活用して一貫性を高める。
論文参考訳（メタデータ） (2025-01-17T08:03:02Z)
Optical-Flow Guided Prompt Optimization for Coherent Video Generation [51.430833518070145]
我々は,光フローによる映像生成プロセスをガイドするMotionPromptというフレームワークを提案する。ランダムフレーム対に適用した訓練された識別器の勾配を用いて,逆サンプリングステップにおける学習可能なトークン埋め込みを最適化する。提案手法により,生成したコンテンツの忠実さを損なうことなく,自然な動きのダイナミクスを忠実に反映した視覚的コヒーレントな映像シーケンスを生成することができる。
論文参考訳（メタデータ） (2024-11-23T12:26:52Z)
LVCD: Reference-based Lineart Video Colorization with Diffusion Models [18.0983825973013]
参照型リニアトビデオのカラー化のための第1のビデオ拡散フレームワークを提案する。我々は、大規模な事前学習ビデオ拡散モデルを利用して、カラー化されたアニメーションビデオを生成する。提案手法は高品質で長時間の時間一貫性のあるアニメーションビデオを生成することができる。
論文参考訳（メタデータ） (2024-09-19T17:59:48Z)
Video Diffusion Models are Strong Video Inpainter [14.402778136825642]
本稿では,FFF-VDI (First Frame Filling Video Diffusion Inpainting Model) を提案する。我々は、将来のフレームのノイズ潜時情報を伝播して、第1フレームのノイズ潜時符号のマスク領域を埋める。次に,事前学習した画像間拡散モデルを微調整し,インペイント映像を生成する。
論文参考訳（メタデータ） (2024-08-21T08:01:00Z)
Semantically Consistent Video Inpainting with Conditional Diffusion Models [16.42354856518832]
本稿では,条件付きビデオ拡散モデルを用いた問題解決フレームワークを提案する。我々は,コンテキストにおける重要な長距離依存関係をキャプチャする塗装特化サンプリングスキームを導入する。不完全フレーム中の既知の画素を条件付けするための新しい手法を考案する。
論文参考訳（メタデータ） (2024-04-30T23:49:26Z)
Raformer: Redundancy-Aware Transformer for Video Wire Inpainting [77.41727407673066]
Video Wire Inpainting (VWI)は、映画やテレビシリーズのワイヤーを完璧に除去することを目的とした、ビデオ塗装における顕著な応用である。ワイヤーの取り外しは、一般的なビデオの塗布作業で通常対象とするものよりも長く、細くなっているため、大きな課題となる。 WRV2 と Pseudo Wire-Shaped (PWS) Masks という新しいマスク生成戦略を備えた新しい VWI データセットを提案する。 WRV2データセットは、平均80フレームの4,000本以上のビデオで構成され、インペイントモデルの開発と有効性を促進するように設計されている。
論文参考訳（メタデータ） (2024-04-24T11:02:13Z)
DreamVideo: High-Fidelity Image-to-Video Generation with Image Retention and Text Guidance [69.0740091741732]
本研究では,DreamVideo という名前の事前学習ビデオ拡散モデルに基づくフレーム保持分岐を考案し,高忠実度映像生成手法を提案する。我々のモデルには強力な画像保持能力があり、我々の知る限り、他の画像-映像モデルと比較して、UCF101で最高の結果をもたらす。
論文参考訳（メタデータ） (2023-12-05T03:16:31Z)
Flow-Guided Diffusion for Video Inpainting [15.478104117672803]
ビデオのインペイントは、大きな動きや低照度条件のような複雑なシナリオによって挑戦されてきた。新たな拡散モデルを含む現在の手法は、品質と効率の限界に直面している。本稿では、時間的一貫性と塗装品質を大幅に向上させる新しい手法であるFGDVI(Flow-Guided Diffusion Model for Video Inpainting)を提案する。
論文参考訳（メタデータ） (2023-11-26T17:48:48Z)
MoVideo: Motion-Aware Video Generation with Diffusion Models [97.03352319694795]
本稿では,映像深度と光フローの2つの側面から動きを考慮に入れたモーションアウェア・ジェネレーション(MoVideo)フレームワークを提案する。 MoVideoは、テキスト・トゥ・ビデオと画像・トゥ・ビデオ生成の両方で最先端の結果を達成し、期待できる即時一貫性、フレームの整合性、視覚的品質を示す。
論文参考訳（メタデータ） (2023-11-19T13:36:03Z)
Style-A-Video: Agile Diffusion for Arbitrary Text-based Video Style Transfer [13.098901971644656]
本稿では,Style-A-Video というゼロショットビデオスタイリング手法を提案する。画像遅延拡散モデルを用いた生成事前学習型トランスフォーマーを用いて、簡潔なテキスト制御ビデオスタイリングを実現する。テストの結果,従来のソリューションよりも少ない使用量で,優れたコンテンツ保存とスタイリスティックな性能が得られることがわかった。
論文参考訳（メタデータ） (2023-05-09T14:03:27Z)
Deep Video Prior for Video Consistency and Propagation [58.250209011891904]
視覚的ビデオの時間的整合性に対する新規で一般的なアプローチを提案する。提案手法は,大規模なデータセットではなく,オリジナルビデオとプロセッシングビデオのペアでのみ訓練される。我々は、Deep Video Priorでビデオ上で畳み込みニューラルネットワークをトレーニングすることで、時間的一貫性を実現することができることを示す。
論文参考訳（メタデータ） (2022-01-27T16:38:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。