論文の概要: Consistent Video-to-Video Transfer Using Synthetic Dataset
- arxiv url: http://arxiv.org/abs/2311.00213v3
- Date: Fri, 1 Dec 2023 11:41:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-04 11:40:49.342426
- Title: Consistent Video-to-Video Transfer Using Synthetic Dataset
- Title(参考訳): 合成データセットを用いた連続ビデオ間転送
- Authors: Jiaxin Cheng, Tianjun Xiao and Tong He
- Abstract要約: テキストベースのビデオ・ビデオ編集のための,新しい,効率的なアプローチを提案する。
私たちのアプローチの核心は、ビデオ間転送タスクに適した合成ペアビデオデータセットです。
Instruct Pix2Pix's image transfer by editing instruction, we adapt this paradigm to the video domain。
- 参考スコア(独自算出の注目度): 12.323784941805519
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a novel and efficient approach for text-based video-to-video
editing that eliminates the need for resource-intensive per-video-per-model
finetuning. At the core of our approach is a synthetic paired video dataset
tailored for video-to-video transfer tasks. Inspired by Instruct Pix2Pix's
image transfer via editing instruction, we adapt this paradigm to the video
domain. Extending the Prompt-to-Prompt to videos, we efficiently generate
paired samples, each with an input video and its edited counterpart. Alongside
this, we introduce the Long Video Sampling Correction during sampling, ensuring
consistent long videos across batches. Our method surpasses current methods
like Tune-A-Video, heralding substantial progress in text-based video-to-video
editing and suggesting exciting avenues for further exploration and deployment.
- Abstract(参考訳): 本稿では,テキストベースの動画編集において,資源集約型の動画単位の微調整を不要とする,新しい効率的な手法を提案する。
私たちのアプローチの核心は、ビデオ間転送タスクに適した合成ペアビデオデータセットです。
pix2pixの編集命令による画像転送の指示に触発されて,このパラダイムをビデオ領域に適用した。
Prompt-to-Promptをビデオに拡張することで、ペア化されたサンプルを効率よく生成します。
これと並行して,サンプリング中のロングビデオサンプリング補正を導入し,バッチ間で一貫したロングビデオを実現する。
提案手法はTune-A-Videoのような既存の手法を超越し,テキストベースの動画編集の大幅な進歩と,さらなる探索と展開のためのエキサイティングな道のりを示唆する。
関連論文リスト
- Step-Video-T2V Technical Report: The Practice, Challenges, and Future of Video Foundation Model [133.01510927611452]
我々は、30Bationalパラメータと最大204フレームの動画を生成する機能を備えた、テキストからビデオまでの事前トレーニングモデルであるStep-Video-T2Vを提案する。
Vari Autoencoder (Vari Autoencoder, Video-VAE) はビデオ生成タスク用に設計されており、16x16空間圧縮比と8x時間圧縮比を達成している。
Step-Video-T2Vのパフォーマンスは、新しいビデオ生成ベンチマークであるStep-Video-T2V-Evalで評価され、最先端のテキスト・ビデオの品質を示している。
論文 参考訳(メタデータ) (2025-02-14T15:58:10Z) - Text-to-Edit: Controllable End-to-End Video Ad Creation via Multimodal LLMs [6.300563383392837]
ショートビデオコンテンツの指数関数的成長は、ビデオ編集の効率的で自動化されたソリューションの必要性の高まりを浮き彫りにした。
本稿では,最終的な映像コンテンツ編集の正確な制御を実現する,革新的なエンドツーエンド基盤フレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-10T11:35:43Z) - Text-Video Multi-Grained Integration for Video Moment Montage [13.794791614348084]
ビデオモーメント・モンタージュ(VMM)と呼ばれる新しいタスクは、事前に提案されたナレーションテキストに基づいて、対応するビデオセグメントを正確に見つけることを目的としている。
我々は,スクリプトからテキスト機能を効率的に融合させる新しいテキストテキスト-ビデオ多言語統合手法 (TV-MGI) を提案する。
論文 参考訳(メタデータ) (2024-12-12T13:40:59Z) - CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer [55.515836117658985]
拡散トランスを用いた大規模テキスト・ビデオ生成モデルであるCogVideoXを提案する。
フレームレートは16fps、解像度は768×1360ピクセル。
論文 参考訳(メタデータ) (2024-08-12T11:47:11Z) - RACCooN: A Versatile Instructional Video Editing Framework with Auto-Generated Narratives [58.15403987979496]
本稿では,RACCooNを提案する。
ビデオ生成モデルは、自動生成された物語や指示を取り入れて、生成されたコンテンツの質と精度を高める。
提案フレームワークは,ビデオ・パラグラフ生成,映像コンテンツ編集において優れた多機能性を示し,さらに拡張するために他のSoTAビデオ生成モデルに組み込むことができる。
論文 参考訳(メタデータ) (2024-05-28T17:46:36Z) - FastVideoEdit: Leveraging Consistency Models for Efficient Text-to-Video Editing [8.907836546058086]
既存のビデオ編集における画像生成モデルへのアプローチは、ワンショットの微調整、追加条件抽出、DDIMの逆変換といった時間を要する。
我々は、一貫性モデル(CM)にインスパイアされた効率的なゼロショットビデオ編集手法であるFastVideoEditを提案する。
本手法は,特別な分散スケジュールを用いて,ソース映像からターゲット映像への直接マッピングを可能にする。
論文 参考訳(メタデータ) (2024-03-10T17:12:01Z) - Ground-A-Video: Zero-shot Grounded Video Editing using Text-to-image
Diffusion Models [65.268245109828]
Ground-A-Videoは、マルチ属性ビデオ編集のためのビデオからビデオへの変換フレームワークである。
トレーニング不要な方法で、時間的に一貫した入力ビデオの編集を可能にする。
実験と応用により、Ground-A-Videoのゼロショットキャパシティは、編集精度とフレームの整合性の観点から、他のベースライン手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-10-02T11:28:37Z) - Control-A-Video: Controllable Text-to-Video Diffusion Models with Motion Prior and Reward Feedback Learning [50.60891619269651]
Control-A-Videoは制御可能なT2V拡散モデルであり、テキストプロンプトやエッジや奥行きマップのような参照制御マップに条件付のビデオを生成することができる。
本稿では,拡散に基づく生成プロセスに,コンテンツの事前と動作を組み込む新しい手法を提案する。
我々のフレームワークは、制御可能なテキスト・ツー・ビデオ生成における既存の最先端手法と比較して、高品質で一貫性のあるビデオを生成する。
論文 参考訳(メタデータ) (2023-05-23T09:03:19Z) - InstructVid2Vid: Controllable Video Editing with Natural Language Instructions [97.17047888215284]
InstructVid2Vidは、人間の言語命令でガイドされたビデオ編集のためのエンドツーエンドの拡散ベースの方法論である。
我々のアプローチは、自然言語ディレクティブによって案内される映像操作を強化し、サンプルごとの微調整や逆変換の必要性を排除します。
論文 参考訳(メタデータ) (2023-05-21T03:28:13Z) - AutoTransition: Learning to Recommend Video Transition Effects [20.384463765702417]
自動ビデオ遷移レコメンデーション(VTR)の実施について紹介する。
VTRには生のビデオ撮影とオーディオが連続して提供され、隣接する2つのショットごとにビデオ遷移を推奨する。
本稿では,2つの部分からなる新しいマルチモーダルマッチングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-27T12:00:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。