論文の概要: Over++: Generative Video Compositing for Layer Interaction Effects
- arxiv url: http://arxiv.org/abs/2512.19661v1
- Date: Mon, 22 Dec 2025 18:39:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.881303
- Title: Over++: Generative Video Compositing for Layer Interaction Effects
- Title(参考訳): Over++: レイヤインタラクション効果のための生成ビデオコンポジション
- Authors: Luchao Qi, Jiaye Wu, Jun Myeong Choi, Cary Phillips, Roni Sengupta, Dan B Goldman,
- Abstract要約: We present Over++, a video effect generation framework that makes no assumptions about camera pose, scene stationarity, or depth supervision。
限られたデータでのトレーニングにもかかわらず、Over++は多様な現実的な環境効果を生み出し、エフェクト生成やシーン保存において既存のベースラインを上回っている。
- 参考スコア(独自算出の注目度): 9.071187452755206
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In professional video compositing workflows, artists must manually create environmental interactions-such as shadows, reflections, dust, and splashes-between foreground subjects and background layers. Existing video generative models struggle to preserve the input video while adding such effects, and current video inpainting methods either require costly per-frame masks or yield implausible results. We introduce augmented compositing, a new task that synthesizes realistic, semi-transparent environmental effects conditioned on text prompts and input video layers, while preserving the original scene. To address this task, we present Over++, a video effect generation framework that makes no assumptions about camera pose, scene stationarity, or depth supervision. We construct a paired effect dataset tailored for this task and introduce an unpaired augmentation strategy that preserves text-driven editability. Our method also supports optional mask control and keyframe guidance without requiring dense annotations. Despite training on limited data, Over++ produces diverse and realistic environmental effects and outperforms existing baselines in both effect generation and scene preservation.
- Abstract(参考訳): プロのビデオ合成ワークフローでは、アーティストは手動で環境相互作用(影、反射、ほこり、水しぶきなど)を作成する必要がある。
既存のビデオ生成モデルは、そのような効果を加えながら、入力ビデオを保存するのに苦労し、現在のビデオの塗装法は、フレームごとのマスクに費用がかかるか、あるいは不明瞭な結果をもたらすかのいずれかを必要とする。
本稿では,テキストプロンプトと入力ビデオ層に条件付けされたリアルで半透明な環境効果を合成し,元のシーンを保存しながら,拡張合成を導入する。
この課題に対処するために、カメラのポーズ、シーンの静止度、深さの監督について仮定しないビデオエフェクト生成フレームワークであるOver++を紹介した。
このタスクに適したペア効果データセットを構築し、テキスト駆動編集性を維持するアンペア拡張戦略を導入する。
提案手法は,高密度アノテーションを必要とせず,マスク制御とキーフレーム誘導もサポートしている。
限られたデータでのトレーニングにもかかわらず、Over++は多様な現実的な環境効果を生み出し、エフェクト生成とシーン保存の両方において既存のベースラインを上回っている。
関連論文リスト
- IC-Effect: Precise and Efficient Video Effects Editing via In-Context Learning [13.89445714667069]
IC-Effectは、数ショットビデオVFX編集のための命令誘導計算フレームワークである。
空間的および時間的一貫性を維持しながら複雑な効果を合成する。
一般的な編集適応と効果特化学習からなる2段階の学習戦略は、強い指導と堅牢な効果モデリングを保証する。
論文 参考訳(メタデータ) (2025-12-17T17:47:18Z) - GenCompositor: Generative Video Compositing with Diffusion Transformer [68.00271033575736]
伝統的なパイプラインは、労働力の集中と専門家の協力を必要とし、生産サイクルが長くなり、高い人的コストがかかる。
本課題は, 対象映像に対して, 前景映像の同一性や動作情報を対話的に注入することである。
実験により,本手法は生成ビデオ合成を効果的に実現し,忠実度と一貫性の既存のソリューションよりも優れることが示された。
論文 参考訳(メタデータ) (2025-09-02T16:10:13Z) - FramePainter: Endowing Interactive Image Editing with Video Diffusion Priors [64.54220123913154]
本稿では,画像から映像への効率のよい生成問題としてFramePainterを紹介した。
軽量のスパース制御エンコーダのみを使用して編集信号を注入する。
従来の最先端の手法をはるかに少ないトレーニングデータで上回ります。
論文 参考訳(メタデータ) (2025-01-14T16:09:16Z) - Generative Image Layer Decomposition with Visual Effects [49.75021036203426]
LayerDecompは、イメージ層分解のための生成フレームワークである。
清潔な背景と、忠実に保存された視覚効果を持つ高品質な透明な前景を作り出す。
本手法は,オブジェクト除去や空間編集作業において,既存の手法よりも優れた分解特性を実現する。
論文 参考訳(メタデータ) (2024-11-26T20:26:49Z) - Generative Omnimatte: Learning to Decompose Video into Layers [29.098471541412113]
本報告では,全方位問題に対処する新しい生成階層化ビデオ分解フレームワークを提案する。
私たちの中核となる考え方は、特定の物体によって引き起こされるシーン効果を識別し除去するために、ビデオ拡散モデルを訓練することです。
我々は,このモデルを,小さく,慎重にキュレートしたデータセットを用いて,既存のビデオインペイントモデルから微調整できることを示す。
論文 参考訳(メタデータ) (2024-11-25T18:59:57Z) - ActAnywhere: Subject-Aware Video Background Generation [62.57759679425924]
映画産業や視覚効果のコミュニティにとって,前景運動に合わせた映像背景の生成は重要な課題である。
この課題は、前景の主題の動きと外観と整合する背景と、芸術家の創造的な意図に合致する。
私たちは、伝統的に面倒な手作業を必要とするこのプロセスを自動化する生成モデルであるActAnywhereを紹介します。
論文 参考訳(メタデータ) (2024-01-19T17:16:16Z) - WALDO: Future Video Synthesis using Object Layer Decomposition and
Parametric Flow Prediction [82.79642869586587]
WALDOは、過去のビデオフレームを予測するための新しいアプローチである。
個々の画像は、オブジェクトマスクと小さなコントロールポイントのセットを組み合わせた複数の層に分解される。
レイヤ構造は、各ビデオ内のすべてのフレーム間で共有され、フレーム間の密接な接続を構築する。
論文 参考訳(メタデータ) (2022-11-25T18:59:46Z) - Text2LIVE: Text-Driven Layered Image and Video Editing [13.134513605107808]
自然画像やビデオにおけるゼロショット・テキスト駆動の外観操作法を提案する。
入力画像またはビデオとターゲットテキストプロンプトが与えられた場合、我々の目標は既存のオブジェクトの外観を編集することである。
さまざまなオブジェクトやシーンにまたがる高解像度の自然画像やビデオに対して,局所的でセマンティックな編集を実演する。
論文 参考訳(メタデータ) (2022-04-05T21:17:34Z) - Omnimatte: Associating Objects and Their Effects in Video [100.66205249649131]
映像内のオブジェクトに関連するシーン効果は通常、コンピュータビジョンによって見過ごされる。
本研究では,映像におけるオブジェクトとその効果を自動的に関連付ける,この新しい問題を解決するための一歩を踏み出す。
私達のモデルは手動ラベルなしで自己監督された方法で入力ビデオでだけ訓練され、ジェネリックです---任意目的およびいろいろな効果のためのオムニマトを自動的に作り出します。
論文 参考訳(メタデータ) (2021-05-14T17:57:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。