論文の概要: Generative Video Propagation
- arxiv url: http://arxiv.org/abs/2412.19761v1
- Date: Fri, 27 Dec 2024 17:42:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 17:26:00.856685
- Title: Generative Video Propagation
- Title(参考訳): 生成的ビデオ伝搬
- Authors: Shaoteng Liu, Tianyu Wang, Jui-Hsien Wang, Qing Liu, Zhifei Zhang, Joon-Young Lee, Yijun Li, Bei Yu, Zhe Lin, Soo Ye Kim, Jiaya Jia,
- Abstract要約: 我々のフレームワークであるGenPropは、オリジナルビデオを選択コンテンツエンコーダでエンコードし、画像から映像への生成モデルを用いて第1フレームに変更を伝達する。
実験結果は,様々なビデオタスクにおいて,我々のモデルが先行する性能を示す。
- 参考スコア(独自算出の注目度): 87.15843701018099
- License:
- Abstract: Large-scale video generation models have the inherent ability to realistically model natural scenes. In this paper, we demonstrate that through a careful design of a generative video propagation framework, various video tasks can be addressed in a unified way by leveraging the generative power of such models. Specifically, our framework, GenProp, encodes the original video with a selective content encoder and propagates the changes made to the first frame using an image-to-video generation model. We propose a data generation scheme to cover multiple video tasks based on instance-level video segmentation datasets. Our model is trained by incorporating a mask prediction decoder head and optimizing a region-aware loss to aid the encoder to preserve the original content while the generation model propagates the modified region. This novel design opens up new possibilities: In editing scenarios, GenProp allows substantial changes to an object's shape; for insertion, the inserted objects can exhibit independent motion; for removal, GenProp effectively removes effects like shadows and reflections from the whole video; for tracking, GenProp is capable of tracking objects and their associated effects together. Experiment results demonstrate the leading performance of our model in various video tasks, and we further provide in-depth analyses of the proposed framework.
- Abstract(参考訳): 大規模ビデオ生成モデルは、自然のシーンを現実的にモデル化する固有の能力を持っている。
本稿では、生成的映像伝搬フレームワークの注意深い設計により、このようなモデルの生成力を活用して、様々な映像タスクを統一的に処理できることを実証する。
具体的には、我々のフレームワークであるGenPropは、オリジナルビデオを選択コンテンツエンコーダでエンコードし、画像から映像への生成モデルを用いて第1フレームに変更を伝達する。
本稿では,インスタンスレベルのビデオセグメンテーションデータセットに基づいて,複数のビデオタスクをカバーするデータ生成手法を提案する。
本モデルでは、マスク予測デコーダヘッドを組み込んだ領域認識損失を最適化し、生成モデルが修正された領域を伝搬している間に、エンコーダが元のコンテンツを保存するのに役立つように訓練する。
GenPropは、ビデオ全体から影や反射などの効果を効果的に除去する。トラッキングのために、GenPropはオブジェクトと関連する効果を一緒に追跡することができる。
実験により,様々なビデオタスクにおけるモデルの性能を実証し,提案するフレームワークの詳細な分析を行う。
関連論文リスト
- VideoAuteur: Towards Long Narrative Video Generation [22.915448471769384]
本稿では,調理領域における長めの物語生成を促進するために,大規模な調理ビデオデータセットを提案する。
生成ビデオにおける視覚的・意味的コヒーレンスを高めるために,Long Narrative Video Directorを導入する。
本手法は,視覚的細部および意味的整合性の生成における大幅な改善を示す。
論文 参考訳(メタデータ) (2025-01-10T18:52:11Z) - VGMShield: Mitigating Misuse of Video Generative Models [7.963591895964269]
VGMShieldは、フェイクビデオ生成のライフサイクルを通じて、単純だが先駆的な3つの緩和セットである。
まず、生成されたビデオにユニークさがあるかどうか、そしてそれらを実際のビデオと区別できるかどうかを理解する。
そこで本研究では,偽動画を生成モデルにマッピングするテクトニクス問題について検討する。
論文 参考訳(メタデータ) (2024-02-20T16:39:23Z) - SEINE: Short-to-Long Video Diffusion Model for Generative Transition and
Prediction [93.26613503521664]
本稿では、生成遷移と予測に焦点をあてた、短時間から長期のビデオ拡散モデルSEINEを提案する。
テキスト記述に基づく遷移を自動的に生成するランダムマスクビデオ拡散モデルを提案する。
我々のモデルは、コヒーレンスと視覚的品質を保証するトランジションビデオを生成する。
論文 参考訳(メタデータ) (2023-10-31T17:58:17Z) - Probabilistic Adaptation of Text-to-Video Models [181.84311524681536]
Video Adapterは、タスク固有の小さなビデオモデルに、幅広い知識を取り入れ、大きな事前訓練されたビデオモデルの忠実度を維持することができる。
Video Adapterは、アニメーション、エゴセントリックなモデリング、シミュレートされた実世界のロボティクスデータのモデリングなど、さまざまなタスクで高品質で特殊なビデオを生成することができる。
論文 参考訳(メタデータ) (2023-06-02T19:00:17Z) - Multi-object Video Generation from Single Frame Layouts [84.55806837855846]
本研究では,グローバルシーンを局所オブジェクトに合成するビデオ生成フレームワークを提案する。
我々のフレームワークは、画像生成手法からの非自明な適応であり、この分野では新しくなっています。
本モデルは広範に使用されている2つのビデオ認識ベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-05-06T09:07:01Z) - Patch-based Object-centric Transformers for Efficient Video Generation [71.55412580325743]
本稿では,新しい領域ベースビデオ生成アーキテクチャであるPatch-based Object-centric Video Transformer(POVT)を提案する。
圧縮ビデオの離散遅延空間上の自己回帰変換器を用いて、ビデオ予測における先行作業を構築した。
オブジェクト中心表現の圧縮性の向上により、より長い水平時間情報に対してオブジェクト情報のみにアクセスできるようにすることで、トレーニング効率を向上させることができる。
論文 参考訳(メタデータ) (2022-06-08T16:29:59Z) - Video Content Swapping Using GAN [1.2300363114433952]
この作業では、ビデオの任意のフレームをコンテンツとポーズに分解します。
まず、事前訓練された人間のポーズ検出を用いて映像からポーズ情報を抽出し、生成モデルを用いてコンテンツコードに基づいて映像を合成し、コードを合成する。
論文 参考訳(メタデータ) (2021-11-21T23:01:58Z) - A Good Image Generator Is What You Need for High-Resolution Video
Synthesis [73.82857768949651]
現代画像生成装置を用いて高解像度映像のレンダリングを行うフレームワークを提案する。
我々は,映像合成問題を,予め訓練された固定された画像生成装置の潜時空間における軌跡の発見とみなす。
本稿では,コンテンツや動きが絡み合っている所望の軌跡を検出するモーションジェネレータを提案する。
論文 参考訳(メタデータ) (2021-04-30T15:38:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。