論文の概要: Tuning-free Visual Effect Transfer across Videos
- arxiv url: http://arxiv.org/abs/2601.07833v1
- Date: Mon, 12 Jan 2026 18:59:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.834332
- Title: Tuning-free Visual Effect Transfer across Videos
- Title(参考訳): ビデオ間のチューニング不要な視覚効果伝達
- Authors: Maxwell Jones, Rameen Abdal, Or Patashnik, Ruslan Salakhutdinov, Sergey Tulyakov, Jun-Yan Zhu, Kuan-Chieh Jackson Wang,
- Abstract要約: RefVFXは、参照ビデオからターゲットビデオや画像への複雑な時間効果をフィードフォワード形式で転送するフレームワークである。
本稿では,三重項の大規模データセットについて紹介する。各三重項は参照効果ビデオ,入力画像又はビデオ,転送効果を表す対応する出力ビデオから構成される。
実験結果から、RefVFXは視覚的に一貫した時間的コヒーレントな編集を生成し、目に見えない効果カテゴリにまたがって一般化し、量的指標と人的嗜好の両方において、プロンプトのみのベースラインを上回っていることが示された。
- 参考スコア(独自算出の注目度): 91.93897438317397
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present RefVFX, a new framework that transfers complex temporal effects from a reference video onto a target video or image in a feed-forward manner. While existing methods excel at prompt-based or keyframe-conditioned editing, they struggle with dynamic temporal effects such as dynamic lighting changes or character transformations, which are difficult to describe via text or static conditions. Transferring a video effect is challenging, as the model must integrate the new temporal dynamics with the input video's existing motion and appearance. % To address this, we introduce a large-scale dataset of triplets, where each triplet consists of a reference effect video, an input image or video, and a corresponding output video depicting the transferred effect. Creating this data is non-trivial, especially the video-to-video effect triplets, which do not exist naturally. To generate these, we propose a scalable automated pipeline that creates high-quality paired videos designed to preserve the input's motion and structure while transforming it based on some fixed, repeatable effect. We then augment this data with image-to-video effects derived from LoRA adapters and code-based temporal effects generated through programmatic composition. Building on our new dataset, we train our reference-conditioned model using recent text-to-video backbones. Experimental results demonstrate that RefVFX produces visually consistent and temporally coherent edits, generalizes across unseen effect categories, and outperforms prompt-only baselines in both quantitative metrics and human preference. See our website $\href{https://tuningfreevisualeffects-maker.github.io/Tuning-free-Visual-Effect-Transfer-across-Videos-Pro ject-Page/}{at\ this\ URL}$.
- Abstract(参考訳): 本稿では、参照ビデオからターゲットビデオや画像への複雑な時間効果をフィードフォワード方式で転送する新しいフレームワークであるRefVFXを提案する。
既存の手法はプロンプトベースやキーフレーム条件の編集では優れているが、動的照明や文字変換のような動的時間的効果に苦慮しており、テキストや静的な条件で記述することは困難である。
ビデオ効果の転送は、入力ビデオの既存の動きや外観と新しい時間的ダイナミクスを統合する必要があるため、困難である。
%) この問題に対処するため,三重項の大規模データセットを導入し,各三重項は参照効果ビデオ,入力画像又はビデオ,および転送効果を示す対応する出力ビデオからなる。
このデータを作成するのは簡単ではない。特に自然に存在しないビデオ対ビデオエフェクト三重奏曲はそうである。
これらを生成するために,ある固定された繰り返し可能な効果に基づいて変換しながら,入力の動作と構造を保ちながら高品質なペアビデオを生成する,スケーラブルな自動パイプラインを提案する。
次に、LoRAアダプタから得られる画像と映像のエフェクトと、プログラム合成によって生成されたコードに基づく時間効果を用いて、このデータを拡張する。
新しいデータセットに基づいて、最近のテキストからビデオまでのバックボーンを使用して、参照条件付きモデルをトレーニングします。
実験結果から、RefVFXは視覚的に一貫した時間的コヒーレントな編集を生成し、目に見えない効果カテゴリにまたがって一般化し、量的指標と人的嗜好の両方において、プロンプトのみのベースラインを上回っていることが示された。
当社のWebサイト $\href{https://tuningfreevisualeffects-maker.github.io/Tuning-free-Visual-Effect-Transfer-across-Videos-Pro ject-Page/}{at\ this\ URL}$
関連論文リスト
- Vectorized Video Representation with Easy Editing via Hierarchical Spatio-Temporally Consistent Proxy Embedding [45.593989778240655]
提案した表現はより少ないパラメータで高い映像再構成精度を実現する。
複雑なビデオ処理タスクをサポートし、ビデオのインペイントや時間的に一貫したビデオ編集を行う。
論文 参考訳(メタデータ) (2025-10-14T08:05:30Z) - GenCompositor: Generative Video Compositing with Diffusion Transformer [68.00271033575736]
伝統的なパイプラインは、労働力の集中と専門家の協力を必要とし、生産サイクルが長くなり、高い人的コストがかかる。
本課題は, 対象映像に対して, 前景映像の同一性や動作情報を対話的に注入することである。
実験により,本手法は生成ビデオ合成を効果的に実現し,忠実度と一貫性の既存のソリューションよりも優れることが示された。
論文 参考訳(メタデータ) (2025-09-02T16:10:13Z) - Tracktention: Leveraging Point Tracking to Attend Videos Faster and Better [61.381599921020175]
時間的一貫性は、出力が一貫性があり、アーティファクトがないことを保証するために、ビデオ予測において重要である。
時間的注意や3D畳み込みといった伝統的な手法は、重要な物体の動きに苦しむことがある。
本稿では,ポイントトラックを用いた動き情報を明示的に統合する新しいアーキテクチャコンポーネントであるトラックキート・レイヤを提案する。
論文 参考訳(メタデータ) (2025-03-25T17:58:48Z) - MotionAura: Generating High-Quality and Motion Consistent Videos using Discrete Diffusion [3.7270979204213446]
ビデオ処理の課題に対処するための4つの重要なコントリビューションを提示する。
まず,3次元逆ベクトル量子化バリエンコエンコオートコーダを紹介する。
次に,テキスト・ビデオ生成フレームワークであるMotionAuraを紹介する。
第3に,スペクトル変換器を用いたデノナイジングネットワークを提案する。
第4に,Sketch Guided Videopaintingのダウンストリームタスクを導入する。
論文 参考訳(メタデータ) (2024-10-10T07:07:56Z) - Data Collection-free Masked Video Modeling [6.641717260925999]
静的な画像を活用してコストを低減したビデオのための効果的な自己教師型学習フレームワークを提案する。
これらの擬似モーションビデオは、マスク付きビデオモデリングに活用される。
提案手法は合成画像にも適用可能であり,ビデオ学習をデータ収集から完全に解放することは,実際のデータに対する他の懸念も伴う。
論文 参考訳(メタデータ) (2024-09-10T17:34:07Z) - GenDeF: Learning Generative Deformation Field for Video Generation [89.49567113452396]
我々は1つの静止画像を生成変形場(GenDeF)でワープすることで映像をレンダリングすることを提案する。
このようなパイプラインには,魅力的なメリットが3つあります。
論文 参考訳(メタデータ) (2023-12-07T18:59:41Z) - You Can Ground Earlier than See: An Effective and Efficient Pipeline for
Temporal Sentence Grounding in Compressed Videos [56.676761067861236]
ビデオがトリミングされていない場合、時間的文のグラウンド化は、文問合せに従って目的のモーメントを意味的に見つけることを目的としている。
それまでの優れた作品は、かなり成功したが、それらはデコードされたフレームから抽出されたハイレベルな視覚的特徴にのみ焦点を当てている。
本稿では,圧縮された映像を直接視覚入力として利用する,圧縮された領域のTSGを提案する。
論文 参考訳(メタデータ) (2023-03-14T12:53:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。