論文の概要: Follow-Your-Canvas: Higher-Resolution Video Outpainting with Extensive Content Generation
- arxiv url: http://arxiv.org/abs/2409.01055v1
- Date: Mon, 2 Sep 2024 08:28:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 07:49:16.441251
- Title: Follow-Your-Canvas: Higher-Resolution Video Outpainting with Extensive Content Generation
- Title(参考訳): Follow-Your-Canvas: 大規模コンテンツ生成による高分解能ビデオ露光
- Authors: Qihua Chen, Yue Ma, Hongfa Wang, Junkun Yuan, Wenzhe Zhao, Qi Tian, Hongmei Wang, Shaobo Min, Qifeng Chen, Wei Liu,
- Abstract要約: 本稿では,大規模なコンテンツ生成による高精細映像の画質向上について検討する。
まず、"単発"のアウトペイントという一般的なプラクティスを使わずに、タスクを空間的なウィンドウに分散し、シームレスにマージする、という2つのコア設計に基づいています。
512X512 から 1152X2048 (9X) のような大規模なビデオの露光に優れ、高品質で美的な結果をもたらす。
- 参考スコア(独自算出の注目度): 85.0621793883408
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper explores higher-resolution video outpainting with extensive content generation. We point out common issues faced by existing methods when attempting to largely outpaint videos: the generation of low-quality content and limitations imposed by GPU memory. To address these challenges, we propose a diffusion-based method called \textit{Follow-Your-Canvas}. It builds upon two core designs. First, instead of employing the common practice of "single-shot" outpainting, we distribute the task across spatial windows and seamlessly merge them. It allows us to outpaint videos of any size and resolution without being constrained by GPU memory. Second, the source video and its relative positional relation are injected into the generation process of each window. It makes the generated spatial layout within each window harmonize with the source video. Coupling with these two designs enables us to generate higher-resolution outpainting videos with rich content while keeping spatial and temporal consistency. Follow-Your-Canvas excels in large-scale video outpainting, e.g., from 512X512 to 1152X2048 (9X), while producing high-quality and aesthetically pleasing results. It achieves the best quantitative results across various resolution and scale setups. The code is released on https://github.com/mayuelala/FollowYourCanvas
- Abstract(参考訳): 本稿では,大規模なコンテンツ生成による高精細映像の画質向上について検討する。
我々は、ビデオに大きく勝とうとする既存の手法が直面する一般的な問題として、低品質なコンテンツの生成とGPUメモリによる制限を挙げている。
これらの課題に対処するため,<textit{Follow-Your-Canvas} という拡散型手法を提案する。
基本設計は2つある。
まず,「単発」のアウトペイントという一般的な手法を使わずに,タスクを空間的ウィンドウに分散し,シームレスにマージする。
これにより、GPUメモリに制約されることなく、どんなサイズや解像度の動画にも勝ることができます。
次に、ソース映像とその相対位置関係を各ウィンドウの生成工程に注入する。
これにより、各ウィンドウ内の生成された空間レイアウトが、ソースビデオと調和する。
これら2つの設計と組み合わせることで、空間的・時間的整合性を維持しつつ、リッチなコンテンツで高解像度の露光映像を生成することができる。
Follow-Your-Canvas は 512X512 から 1152X2048 (9X) までの大規模なビデオ撮影で優れており、高品質で美的な結果が得られる。
様々な解像度とスケールのセットアップで最高の定量的結果が得られる。
コードはhttps://github.com/mayuelala/FollowYourCanvasで公開されている。
関連論文リスト
- Representing Long Volumetric Video with Temporal Gaussian Hierarchy [80.51373034419379]
本稿では,多視点RGBビデオから長いボリューム映像を再構成することの課題を解決することを目的とする。
本稿では,テンポラルガウス階層(Temporal Gaussian Hierarchy)と呼ばれる新しい4次元表現を提案する。
この研究は、最先端のレンダリング品質を維持しながら、ボリュームビデオデータの分を効率的に処理できる最初のアプローチである。
論文 参考訳(メタデータ) (2024-12-12T18:59:34Z) - UniPaint: Unified Space-time Video Inpainting via Mixture-of-Experts [20.955898491009656]
UniPaintは、空間的時間的インパインティングを可能にする生成時空間ビデオインパインティングフレームワークである。
UniPaintは高品質で美的な結果をもたらし、さまざまなタスクにまたがって最高の結果とスケール設定を実現している。
論文 参考訳(メタデータ) (2024-12-09T09:45:14Z) - CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer [55.515836117658985]
拡散トランスを用いた大規模テキスト・ビデオ生成モデルであるCogVideoXを提案する。
フレームレートは16fps、解像度は768×1360ピクセル。
論文 参考訳(メタデータ) (2024-08-12T11:47:11Z) - AVID: Any-Length Video Inpainting with Diffusion Model [30.860927136236374]
拡散モデルを用いたAVID(Any-Length Video Inpainting with Diffusion Model)を提案する。
本モデルは,固定長映像の描画に有効な動作モジュールと調整可能な構造ガイダンスを備える。
実験により,映像の持続時間帯の異なる様々なインパインティングタイプを,高品質で頑健に扱うことが可能であることが確認された。
論文 参考訳(メタデータ) (2023-12-06T18:56:14Z) - Hierarchical Masked 3D Diffusion Model for Video Outpainting [20.738731220322176]
映像出力のためのマスク付き3次元拡散モデルを提案する。
これにより、複数のビデオクリップ推論の結果を接続するために、複数のガイドフレームを使用することができます。
また, アーティファクトの蓄積問題を緩和するために, 粗大から粗大の推論パイプラインも導入する。
論文 参考訳(メタデータ) (2023-09-05T10:52:21Z) - CoordFill: Efficient High-Resolution Image Inpainting via Parameterized
Coordinate Querying [52.91778151771145]
本稿では,近年の連続的暗黙表現の発達により,その限界を初めて破ろうとする。
実験の結果,提案手法はGTX 2080 Ti GPUを用いて2048$times$2048の画像をリアルタイムに処理できることがわかった。
論文 参考訳(メタデータ) (2023-03-15T11:13:51Z) - A Good Image Generator Is What You Need for High-Resolution Video
Synthesis [73.82857768949651]
現代画像生成装置を用いて高解像度映像のレンダリングを行うフレームワークを提案する。
我々は,映像合成問題を,予め訓練された固定された画像生成装置の潜時空間における軌跡の発見とみなす。
本稿では,コンテンツや動きが絡み合っている所望の軌跡を検出するモーションジェネレータを提案する。
論文 参考訳(メタデータ) (2021-04-30T15:38:41Z) - Deep Two-Stage High-Resolution Image Inpainting [0.0]
本稿では,任意の大きさの画像をペイントする問題を解決する手法を提案する。
そこで本稿では, 隣接画素からの情報を, 原像を4方向へ移動させることで利用することを提案する。
このアプローチは既存のインペイントモデルで動作可能で、再トレーニングを必要とせずにほぼ独立している。
論文 参考訳(メタデータ) (2021-04-27T20:32:21Z) - DVI: Depth Guided Video Inpainting for Autonomous Driving [35.94330601020169]
本稿では,ビデオからトラヒックエージェントを除去する自動インペイントアルゴリズムを提案する。
縫合された点雲から密集した3Dマップを構築することで、ビデオ内のフレームは幾何学的に相関する。
われわれは、ビデオのインペイントのために複数のビデオを融合した最初の人物だ。
論文 参考訳(メタデータ) (2020-07-17T09:29:53Z) - Very Long Natural Scenery Image Prediction by Outpainting [96.8509015981031]
アウトペイントには2つの課題があるため、あまり注意を払わない。
第一の課題は、生成された画像と元の入力の間の空間的および内容的整合性を維持する方法である。
第2の課題は、生成した結果の高品質を維持する方法です。
論文 参考訳(メタデータ) (2019-12-29T16:29:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。