Fugu-MT 論文翻訳(概要): Follow-Your-Creation: Empowering 4D Creation through Video Inpainting

論文の概要: Follow-Your-Creation: Empowering 4D Creation through Video Inpainting

arxiv url: http://arxiv.org/abs/2506.04590v1
Date: Thu, 05 Jun 2025 03:11:48 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-06 21:53:49.507241
Title: Follow-Your-Creation: Empowering 4D Creation through Video Inpainting
Title（参考訳）: Follow-Your-Creation: ビデオインペインティングによる4D創造の強化
Authors: Yue Ma, Kunyu Feng, Xinhua Zhang, Hongyu Liu, David Junhao Zhang, Jinbo Xing, Yinhan Zhang, Ayden Yang, Zeyu Wang, Qifeng Chen,
Abstract要約: Follow-Your-Creationは、単一のモノクロビデオ入力から4Dコンテンツを生成および編集できるフレームワークである。映像インパインティング基礎モデルを生成先行として活用することにより、4次元映像作成を映像インパインティングタスクとして再構成する。
参考スコア（独自算出の注目度）: 47.08187788419001
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We introduce Follow-Your-Creation, a novel 4D video creation framework capable of both generating and editing 4D content from a single monocular video input. By leveraging a powerful video inpainting foundation model as a generative prior, we reformulate 4D video creation as a video inpainting task, enabling the model to fill in missing content caused by camera trajectory changes or user edits. To facilitate this, we generate composite masked inpainting video data to effectively fine-tune the model for 4D video generation. Given an input video and its associated camera trajectory, we first perform depth-based point cloud rendering to obtain invisibility masks that indicate the regions that should be completed. Simultaneously, editing masks are introduced to specify user-defined modifications, and these are combined with the invisibility masks to create a composite masks dataset. During training, we randomly sample different types of masks to construct diverse and challenging inpainting scenarios, enhancing the model's generalization and robustness in various 4D editing and generation tasks. To handle temporal consistency under large camera motion, we design a self-iterative tuning strategy that gradually increases the viewing angles during training, where the model is used to generate the next-stage training data after each fine-tuning iteration. Moreover, we introduce a temporal packaging module during inference to enhance generation quality. Our method effectively leverages the prior knowledge of the base model without degrading its original performance, enabling the generation of 4D videos with consistent multi-view coherence. In addition, our approach supports prompt-based content editing, demonstrating strong flexibility and significantly outperforming state-of-the-art methods in both quality and versatility.
Abstract（参考訳）: Follow-Your-Creationは、単一のモノクロビデオ入力から4Dコンテンツを生成・編集できる新しい4Dビデオ作成フレームワークである。本研究は、4Dビデオ作成を映像化タスクとして再構成し、カメラの軌跡変更やユーザ編集による欠落内容の補充を可能にする。これを容易にするために、合成マスク付き塗布映像データを生成し、4Dビデオ生成のためのモデルを効果的に微調整する。入力ビデオとそのカメラ軌跡が与えられた場合、まず奥行きベースのポイントクラウドレンダリングを行い、完了すべき領域を示す可視マスクを得る。同時に、ユーザ定義の修正を指定するために編集マスクが導入され、これらと可視マスクを組み合わせて複合マスクデータセットを生成する。トレーニング中、さまざまな種類のマスクをランダムにサンプリングし、多様で困難な塗装シナリオを構築し、様々な4D編集および生成タスクにおけるモデルの一般化と堅牢性を高める。大規模なカメラ動作下での時間的整合性に対処するため、トレーニング中の視角を徐々に高める自己刺激的チューニング戦略を設計し、モデルを用いて各微調整反復後の次段トレーニングデータを生成する。さらに,生成品質を向上させるため,推論中に時間的パッケージングモジュールを導入する。提案手法は,基本モデルの先行知識を本来の性能を劣化させることなく有効に活用し,一貫した多視点コヒーレンスを持つ4Dビデオの生成を可能にする。さらに,本手法は,プロンプトベースのコンテンツ編集をサポートし,高い柔軟性を示し,品質と汎用性の両方において最先端の手法を大幅に向上させる。

関連論文リスト

Zero4D: Training-Free 4D Video Generation From Single Video Using Off-the-Shelf Video Diffusion [52.0192865857058]
そこで,本研究では,市販ビデオ拡散モデルを利用して,単一入力ビデオから多視点ビデオを生成する4Dビデオ生成手法を提案する。本手法はトレーニング不要で,市販のビデオ拡散モデルを完全に活用し,マルチビュービデオ生成のための実用的で効果的なソリューションを提供する。
論文参考訳（メタデータ） (2025-03-28T17:14:48Z)
VideoPainter: Any-length Video Inpainting and Editing with Plug-and-Play Context Control [47.34885131252508]
ビデオのインペイントは、腐敗したビデオコンテンツを復元することを目的としている。マスク付きビデオを処理するための新しいデュアルストリームパラダイムVideoPainterを提案する。また,任意の長さの映像を描ける新しいターゲット領域ID再サンプリング手法も導入する。
論文参考訳（メタデータ） (2025-03-07T17:59:46Z)
MVTokenFlow: High-quality 4D Content Generation using Multiview Token Flow [15.155484662231508]
モノクロビデオから高品質な4Dコンテンツを作成するためのMVTokenFlowを提案する。マルチビュー拡散モデルを用いて、異なる時間ステップでマルチビュー画像を生成する。 MVTokenFlowはさらに、レンダリングされた2Dフローをガイダンスとして、すべてのマルチビュー画像を再生する。
論文参考訳（メタデータ） (2025-02-17T11:34:58Z)
Tex4D: Zero-shot 4D Scene Texturing with Video Diffusion Models [54.35214051961381]
3Dメッシュはコンピュータビジョンとグラフィックスにおいて、アニメーションの効率と映画、ゲーム、AR、VRにおける最小限のメモリ使用のために広く利用されている。しかし、メッシュのための時間的一貫性と現実的なテクスチャを作成することは、プロのアーティストにとって労働集約的だ。本稿では、メッシュ配列から固有の幾何学とビデオ拡散モデルを統合することで、一貫したテクスチャを生成する3Dテクスチャシーケンスを提案する。
論文参考訳（メタデータ） (2024-10-14T17:59:59Z)
Replace Anyone in Videos [82.37852750357331]
ReplaceAnyoneフレームワークは、複雑な背景を特徴とする、局所的な人間の置換と挿入に焦点を当てたフレームワークである。我々は,このタスクを,一貫したエンド・ツー・エンドビデオ拡散アーキテクチャを用いて,ポーズガイダンスを用いた画像条件付きビデオ塗装パラダイムとして定式化する。提案されたReplaceAnyoneは従来の3D-UNetベースモデルだけでなく、Wan2.1のようなDiTベースのビデオモデルにもシームレスに適用できる。
論文参考訳（メタデータ） (2024-09-30T03:27:33Z)
Blended Latent Diffusion under Attention Control for Real-World Video Editing [5.659933808910005]
本稿では,局所的なビデオ編集作業を行うために,画像レベルのブレンド潜在拡散モデルを適用することを提案する。具体的には、DDIMのインバージョンを利用して、ランダムにノイズのあるものではなく、背景の潜伏者として潜伏者を取得する。また,拡散段階におけるクロスアテンションマップから導かれる自律マスク製造機構を導入する。
論文参考訳（メタデータ） (2024-09-05T13:23:52Z)
CT4D: Consistent Text-to-4D Generation with Animatable Meshes [53.897244823604346]
我々は,任意のユーザ供給プロンプトから一貫した4Dコンテンツを生成するために,アニマタブルメッシュを直接操作するCT4Dという新しいフレームワークを提案する。我々のフレームワークは、テキスト整列メッシュの作成を強化するために、ユニークなGenerate-Refine-Animate (GRA)アルゴリズムを組み込んでいる。定性的かつ定量的な実験結果から,我々のCT4Dフレームワークは,フレーム間の整合性の維持とグローバルジオメトリの保存において,既存のテキスト・ツー・4D技術を超えていることが示された。
論文参考訳（メタデータ） (2024-08-15T14:41:34Z)
Generative Rendering: Controllable 4D-Guided Video Generation with 2D Diffusion Models [40.71940056121056]
本稿では,動的3次元メッシュの制御可能性と,新しい拡散モデルの表現性と編集性を組み合わせた新しいアプローチを提案する。本手法は,トリグアセットのアニメーションやカメラパスの変更によって,動きを得られる様々な例について実証する。
論文参考訳（メタデータ） (2023-12-03T14:17:11Z)
Make-It-4D: Synthesizing a Consistent Long-Term Dynamic Scene Video from a Single Image [59.18564636990079]
本研究では,1枚の画像のみから長期ダイナミック映像を合成する問題について検討する。既存の方法は、一貫性のない永遠の視点を幻覚させるか、長いカメラの軌跡に苦しむかのいずれかである。一つの画像から一貫した長期動画像を生成する新しい方法であるMake-It-4Dを提案する。
論文参考訳（メタデータ） (2023-08-20T12:53:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。