論文の概要: Layer-Aware Video Composition via Split-then-Merge
- arxiv url: http://arxiv.org/abs/2511.20809v1
- Date: Tue, 25 Nov 2025 19:53:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:58.83775
- Title: Layer-Aware Video Composition via Split-then-Merge
- Title(参考訳): Split-then-Mergeによる層認識ビデオ合成
- Authors: Ozgur Kara, Yujia Chen, Ming-Hsuan Yang, James M. Rehg, Wen-Sheng Chu, Du Tran,
- Abstract要約: Split-then-Merge (StM) は、生成ビデオ合成の制御を強化するために設計されたフレームワークである。
StMは、ラベルなしのビデオの大規模なコーパスを、ダイナミックな前景と背景の層に分割し、それらを自己構成して、ダイナミックな被写体が多様なシーンとどのように相互作用するかを学習する。
- 参考スコア(独自算出の注目度): 55.12521724893102
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We present Split-then-Merge (StM), a novel framework designed to enhance control in generative video composition and address its data scarcity problem. Unlike conventional methods relying on annotated datasets or handcrafted rules, StM splits a large corpus of unlabeled videos into dynamic foreground and background layers, then self-composes them to learn how dynamic subjects interact with diverse scenes. This process enables the model to learn the complex compositional dynamics required for realistic video generation. StM introduces a novel transformation-aware training pipeline that utilizes a multi-layer fusion and augmentation to achieve affordance-aware composition, alongside an identity-preservation loss that maintains foreground fidelity during blending. Experiments show StM outperforms SoTA methods in both quantitative benchmarks and in humans/VLLM-based qualitative evaluations. More details are available at our project page: https://split-then-merge.github.io
- Abstract(参考訳): スプリット・テン・マージ(StM)は、生成ビデオ合成の制御を強化し、そのデータ不足問題に対処するために設計された新しいフレームワークである。
注釈付きデータセットや手作りルールを頼りにする従来の方法とは異なり、StMはラベルなしビデオの大きなコーパスを動的フォアグラウンドと背景層に分割し、動的被写体が多様なシーンとどのように相互作用するかを自己構成する。
このプロセスにより、モデルはリアルなビデオ生成に必要な複雑な構成力学を学習することができる。
StMは、多層核融合と拡張を利用した新しいトランスフォーメーション・アウェア・トレーニング・パイプラインを導入し、ブレンディング中に前景の忠実さを維持するアイデンティティ保存損失と並行して、アベイランス・アウェア・コンポジションを実現する。
StMは定量的ベンチマークと人間/VLLMに基づく定性評価の両方において,SoTA法よりも優れていた。
詳細はプロジェクトのページで確認できます。
関連論文リスト
- BindWeave: Subject-Consistent Video Generation via Cross-Modal Integration [56.98981194478512]
本稿では,幅広いテーマ・ツー・ビデオシナリオを扱う統一フレームワークを提案する。
MLLM-DiTフレームワークは,事前訓練されたマルチモーダルな大規模言語モデルで,基底エンティティに対して深い相互モーダル推論を行う。
OpenS2Vベンチマークの実験により、本手法は、生成ビデオにおける主観的整合性、自然性、テキスト関連性において優れた性能を実現することを示した。
論文 参考訳(メタデータ) (2025-10-01T02:41:11Z) - GenCompositor: Generative Video Compositing with Diffusion Transformer [68.00271033575736]
伝統的なパイプラインは、労働力の集中と専門家の協力を必要とし、生産サイクルが長くなり、高い人的コストがかかる。
本課題は, 対象映像に対して, 前景映像の同一性や動作情報を対話的に注入することである。
実験により,本手法は生成ビデオ合成を効果的に実現し,忠実度と一貫性の既存のソリューションよりも優れることが示された。
論文 参考訳(メタデータ) (2025-09-02T16:10:13Z) - OmniVCus: Feedforward Subject-driven Video Customization with Multimodal Control Conditions [77.04071342405055]
本研究では、画像編集データを用いた画像-動画移動混合(IVTM)訓練を開発し、カスタマイズされたビデオにおける被写体に対するインストラクティブな編集を可能にする。
また,2つの埋め込み機構を持つ拡散トランスフォーマーフレームワークであるOmniVCusを提案し,Luttery Embedding (LE) とTemporally Aligned Embedding (TAE) を提案する。
本手法は定量評価と定性評価の両方において最先端の手法を大幅に超えている。
論文 参考訳(メタデータ) (2025-06-29T18:43:00Z) - MAGREF: Masked Guidance for Any-Reference Video Generation with Subject Disentanglement [47.064467920954776]
我々は、任意の参照ビデオ生成のための統一的で効果的なフレームワークであるMAGREFを紹介する。
提案手法は,マスキング誘導と主観的ゆがみ機構を取り入れたものである。
包括的なベンチマークの実験は、MAGREFが既存の最先端のアプローチを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2025-05-29T17:58:15Z) - Video Decomposition Prior: A Methodology to Decompose Videos into Layers [74.36790196133505]
本稿では,プロのビデオ編集の実践からインスピレーションを得た,VDP以前の新しいビデオ分解手法を提案する。
VDPフレームワークは、ビデオシーケンスを複数のRGBレイヤと関連する不透明度レベルに分解する。
ビデオオブジェクトのセグメンテーション、デハジング、リライティングといったタスクに対処する。
論文 参考訳(メタデータ) (2024-12-06T10:35:45Z) - Multi-entity Video Transformers for Fine-Grained Video Representation Learning [34.26732761916984]
ビデオ表現学習のためのトランスフォーマーアーキテクチャの設計を再検討する。
このアプローチの重要な側面は、時間パイプラインにおけるシーン情報の共有の改善です。
我々のMV-Former(Multi-entity Video Transformer)は、フレームを時間にわたってリンクされたトークンとして表現されたエンティティのグループとして処理します。
論文 参考訳(メタデータ) (2023-11-17T21:23:12Z) - WALDO: Future Video Synthesis using Object Layer Decomposition and
Parametric Flow Prediction [82.79642869586587]
WALDOは、過去のビデオフレームを予測するための新しいアプローチである。
個々の画像は、オブジェクトマスクと小さなコントロールポイントのセットを組み合わせた複数の層に分解される。
レイヤ構造は、各ビデオ内のすべてのフレーム間で共有され、フレーム間の密接な接続を構築する。
論文 参考訳(メタデータ) (2022-11-25T18:59:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。