論文の概要: VIVID-10M: A Dataset and Baseline for Versatile and Interactive Video Local Editing
- arxiv url: http://arxiv.org/abs/2411.15260v1
- Date: Fri, 22 Nov 2024 10:04:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:23:48.183864
- Title: VIVID-10M: A Dataset and Baseline for Versatile and Interactive Video Local Editing
- Title(参考訳): VIVID-10M:Versatile and Interactive Video Local Editingのためのデータセットとベースライン
- Authors: Jiahao Hu, Tianxiong Zhong, Xuebo Wang, Boyuan Jiang, Xingye Tian, Fei Yang, Pengfei Wan, Di Zhang,
- Abstract要約: 本稿では,データセットVIVID-10MとベースラインモデルVIVIDを紹介する。
VIVID-10Mは、最初の大規模ハイブリッド画像-ビデオローカル編集データセットである。
提案手法は,ビデオローカル編集における最先端性能を実現し,自動計測とユーザスタディの両方においてベースライン手法を超越した。
- 参考スコア(独自算出の注目度): 13.006616304789878
- License:
- Abstract: Diffusion-based image editing models have made remarkable progress in recent years. However, achieving high-quality video editing remains a significant challenge. One major hurdle is the absence of open-source, large-scale video editing datasets based on real-world data, as constructing such datasets is both time-consuming and costly. Moreover, video data requires a significantly larger number of tokens for representation, which substantially increases the training costs for video editing models. Lastly, current video editing models offer limited interactivity, often making it difficult for users to express their editing requirements effectively in a single attempt. To address these challenges, this paper introduces a dataset VIVID-10M and a baseline model VIVID. VIVID-10M is the first large-scale hybrid image-video local editing dataset aimed at reducing data construction and model training costs, which comprises 9.7M samples that encompass a wide range of video editing tasks. VIVID is a Versatile and Interactive VIdeo local eDiting model trained on VIVID-10M, which supports entity addition, modification, and deletion. At its core, a keyframe-guided interactive video editing mechanism is proposed, enabling users to iteratively edit keyframes and propagate it to other frames, thereby reducing latency in achieving desired outcomes. Extensive experimental evaluations show that our approach achieves state-of-the-art performance in video local editing, surpassing baseline methods in both automated metrics and user studies. The VIVID-10M dataset and the VIVID editing model will be available at \url{https://inkosizhong.github.io/VIVID/}.
- Abstract(参考訳): 拡散に基づく画像編集モデルは近年顕著な進歩を遂げている。
しかし、高品質なビデオ編集を実現することは依然として大きな課題である。
ひとつの大きなハードルは、実際のデータに基づくオープンソースの大規模ビデオ編集データセットがないことだ。
さらに、ビデオデータには表現のためのトークンが大幅に多く必要であり、ビデオ編集モデルのトレーニングコストを大幅に向上させる。
最後に、現在のビデオ編集モデルは限定的な対話性を提供しており、ユーザーは単一の試みで編集要求を効果的に表現することが困難になることが多い。
これらの課題に対処するために,データセットVIVID-10MとベースラインモデルVIVIDを提案する。
VIVID-10Mは、幅広いビデオ編集タスクを含む9.7Mサンプルを含むデータ構築とモデルトレーニングコストの削減を目的とした、最初の大規模なハイブリッド画像-ビデオローカル編集データセットである。
VIVIDはVIVID-10Mで訓練されたVersatileとInteractive VIdeoのローカルeDitingモデルで、エンティティの追加、修正、削除をサポートする。
キーフレームを用いたインタラクティブなビデオ編集機構が提案されており、ユーザーはキーフレームを反復的に編集し、他のフレームに伝播することで、望ましい結果を達成するためのレイテンシを低減することができる。
大規模な実験により,本手法はビデオ局所編集における最先端性能を実現し,自動計測とユーザスタディの両方においてベースライン法を超越していることが示された。
VIVID-10MデータセットとVIVID編集モデルは、 \url{https://inkosizhong.github.io/VIVID/} で利用可能である。
関連論文リスト
- Señorita-2M: A High-Quality Instruction-based Dataset for General Video Editing by Video Specialists [17.451911831989293]
高品質なビデオ編集データセットであるSenorita-2Mを紹介する。
高品質で特殊な4つのビデオ編集モデルを構築することで構築される。
編集が不十分なビデオペアを除去するためのフィルタリングパイプラインを提案する。
論文 参考訳(メタデータ) (2025-02-10T17:58:22Z) - MAKIMA: Tuning-free Multi-Attribute Open-domain Video Editing via Mask-Guided Attention Modulation [55.101611012677616]
拡散ベースのテキスト・トゥ・イメージ(T2I)モデルは,グローバルビデオ編集タスクにおいて顕著な結果を示した。
我々は、オープンドメインビデオ編集のための事前訓練されたT2Iモデル上に構築された、チューニング不要なMAEフレームワークであるMAKIMAを紹介する。
論文 参考訳(メタデータ) (2024-12-28T02:36:51Z) - DreamOmni: Unified Image Generation and Editing [51.45871494724542]
本稿では,画像生成と編集の統一モデルであるDream Omniを紹介する。
訓練のためにドリーム・オムニはT2I世代と下流のタスクを共同で訓練する。
このコラボレーションは、編集性能を大幅に向上させる。
論文 参考訳(メタデータ) (2024-12-22T17:17:28Z) - Video Decomposition Prior: A Methodology to Decompose Videos into Layers [74.36790196133505]
本稿では,プロのビデオ編集の実践からインスピレーションを得た,VDP以前の新しいビデオ分解手法を提案する。
VDPフレームワークは、ビデオシーケンスを複数のRGBレイヤと関連する不透明度レベルに分解する。
ビデオオブジェクトのセグメンテーション、デハジング、リライティングといったタスクに対処する。
論文 参考訳(メタデータ) (2024-12-06T10:35:45Z) - AnyV2V: A Tuning-Free Framework For Any Video-to-Video Editing Tasks [41.640692114423544]
我々はビデオ編集を簡単にするための新しいチューニング不要のパラダイムであるAnyV2Vを紹介する。
AnyV2Vは、既存の画像編集ツールを利用して、幅広いビデオ編集タスクをサポートすることができる。
評価の結果,AnyV2Vは他のベースライン法に匹敵するCLIPスコアが得られた。
論文 参考訳(メタデータ) (2024-03-21T15:15:00Z) - EffiVED:Efficient Video Editing via Text-instruction Diffusion Models [9.287394166165424]
EffiVEDは、命令誘導ビデオ編集をサポートする効率的な拡散ベースモデルである。
我々は、膨大な画像編集データセットとオープンワールドビデオを、EffiVEDをトレーニングするための高品質なデータセットに変換する。
論文 参考訳(メタデータ) (2024-03-18T08:42:08Z) - Neural Video Fields Editing [56.558490998753456]
NVEditは、メモリオーバーヘッドを軽減し、一貫性を向上させるために設計された、テキスト駆動のビデオ編集フレームワークである。
我々は、数百フレームの長いビデオのエンコーディングを可能にするために、三面体とスパースグリッドを用いたニューラルビデオフィールドを構築した。
次に、オフザシェルフテキスト・トゥ・イメージ(T2I)モデルを用いて、ビデオフィールドをテキスト駆動編集エフェクトに更新する。
論文 参考訳(メタデータ) (2023-12-12T14:48:48Z) - Ground-A-Video: Zero-shot Grounded Video Editing using Text-to-image
Diffusion Models [65.268245109828]
Ground-A-Videoは、マルチ属性ビデオ編集のためのビデオからビデオへの変換フレームワークである。
トレーニング不要な方法で、時間的に一貫した入力ビデオの編集を可能にする。
実験と応用により、Ground-A-Videoのゼロショットキャパシティは、編集精度とフレームの整合性の観点から、他のベースライン手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-10-02T11:28:37Z) - EVE: Efficient zero-shot text-based Video Editing with Depth Map
Guidance and Temporal Consistency Constraints [20.1875350156484]
現在のビデオ編集タスクは主に、高精細化コストと限られた生成能力との間のジレンマに悩まされている。
本研究では,堅牢で効率的なゼロショットビデオ編集手法であるEVEを提案する。
深度マップと時間的整合性制約のガイダンスの下で、EVEは良好なビデオ編集結果と安価な計算と時間コストを導出する。
論文 参考訳(メタデータ) (2023-08-21T11:36:46Z) - Frozen in Time: A Joint Video and Image Encoder for End-to-End Retrieval [80.7397409377659]
大規模画像と映像キャプションの両方のデータセットを利用した,エンドツーエンドのトレーニング可能なモデルを提案する。
私たちのモデルは柔軟で、画像とビデオの両方のテキストデータセットで、独立に、または同時にトレーニングできます。
この手法は,標準ダウンストリームビデオリトライバルベンチマークにおいて最先端の結果が得られることを示す。
論文 参考訳(メタデータ) (2021-04-01T17:48:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。