論文の概要: VIVID-10M: A Dataset and Baseline for Versatile and Interactive Video Local Editing
- arxiv url: http://arxiv.org/abs/2411.15260v1
- Date: Fri, 22 Nov 2024 10:04:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:23:48.183864
- Title: VIVID-10M: A Dataset and Baseline for Versatile and Interactive Video Local Editing
- Title(参考訳): VIVID-10M:Versatile and Interactive Video Local Editingのためのデータセットとベースライン
- Authors: Jiahao Hu, Tianxiong Zhong, Xuebo Wang, Boyuan Jiang, Xingye Tian, Fei Yang, Pengfei Wan, Di Zhang,
- Abstract要約: 本稿では,データセットVIVID-10MとベースラインモデルVIVIDを紹介する。
VIVID-10Mは、最初の大規模ハイブリッド画像-ビデオローカル編集データセットである。
提案手法は,ビデオローカル編集における最先端性能を実現し,自動計測とユーザスタディの両方においてベースライン手法を超越した。
- 参考スコア(独自算出の注目度): 13.006616304789878
- License:
- Abstract: Diffusion-based image editing models have made remarkable progress in recent years. However, achieving high-quality video editing remains a significant challenge. One major hurdle is the absence of open-source, large-scale video editing datasets based on real-world data, as constructing such datasets is both time-consuming and costly. Moreover, video data requires a significantly larger number of tokens for representation, which substantially increases the training costs for video editing models. Lastly, current video editing models offer limited interactivity, often making it difficult for users to express their editing requirements effectively in a single attempt. To address these challenges, this paper introduces a dataset VIVID-10M and a baseline model VIVID. VIVID-10M is the first large-scale hybrid image-video local editing dataset aimed at reducing data construction and model training costs, which comprises 9.7M samples that encompass a wide range of video editing tasks. VIVID is a Versatile and Interactive VIdeo local eDiting model trained on VIVID-10M, which supports entity addition, modification, and deletion. At its core, a keyframe-guided interactive video editing mechanism is proposed, enabling users to iteratively edit keyframes and propagate it to other frames, thereby reducing latency in achieving desired outcomes. Extensive experimental evaluations show that our approach achieves state-of-the-art performance in video local editing, surpassing baseline methods in both automated metrics and user studies. The VIVID-10M dataset and the VIVID editing model will be available at \url{https://inkosizhong.github.io/VIVID/}.
- Abstract(参考訳): 拡散に基づく画像編集モデルは近年顕著な進歩を遂げている。
しかし、高品質なビデオ編集を実現することは依然として大きな課題である。
ひとつの大きなハードルは、実際のデータに基づくオープンソースの大規模ビデオ編集データセットがないことだ。
さらに、ビデオデータには表現のためのトークンが大幅に多く必要であり、ビデオ編集モデルのトレーニングコストを大幅に向上させる。
最後に、現在のビデオ編集モデルは限定的な対話性を提供しており、ユーザーは単一の試みで編集要求を効果的に表現することが困難になることが多い。
これらの課題に対処するために,データセットVIVID-10MとベースラインモデルVIVIDを提案する。
VIVID-10Mは、幅広いビデオ編集タスクを含む9.7Mサンプルを含むデータ構築とモデルトレーニングコストの削減を目的とした、最初の大規模なハイブリッド画像-ビデオローカル編集データセットである。
VIVIDはVIVID-10Mで訓練されたVersatileとInteractive VIdeoのローカルeDitingモデルで、エンティティの追加、修正、削除をサポートする。
キーフレームを用いたインタラクティブなビデオ編集機構が提案されており、ユーザーはキーフレームを反復的に編集し、他のフレームに伝播することで、望ましい結果を達成するためのレイテンシを低減することができる。
大規模な実験により,本手法はビデオ局所編集における最先端性能を実現し,自動計測とユーザスタディの両方においてベースライン法を超越していることが示された。
VIVID-10MデータセットとVIVID編集モデルは、 \url{https://inkosizhong.github.io/VIVID/} で利用可能である。
関連論文リスト
- Video Instruction Tuning With Synthetic Data [84.64519990333406]
ビデオ命令追従のための高品質な合成データセット、すなわちLLaVA-Video-178Kを作成する。
このデータセットには、詳細なキャプション、オープンエンド質問回答(QA)、複数選択QAといった重要なタスクが含まれている。
このデータセットをトレーニングすることにより、既存の視覚的インストラクションチューニングデータと組み合わせて、新しいビデオLMMであるLLaVA-Videoを導入する。
論文 参考訳(メタデータ) (2024-10-03T17:36:49Z) - Temporally Consistent Object Editing in Videos using Extended Attention [9.605596668263173]
本稿では,事前学習した画像拡散モデルを用いて映像を編集する手法を提案する。
編集された情報がすべてのビデオフレームで一貫していることを保証する。
論文 参考訳(メタデータ) (2024-06-01T02:31:16Z) - AnyV2V: A Tuning-Free Framework For Any Video-to-Video Editing Tasks [41.640692114423544]
我々はビデオ編集を簡単にするための新しいチューニング不要のパラダイムであるAnyV2Vを紹介する。
AnyV2Vは、既存の画像編集ツールを利用して、幅広いビデオ編集タスクをサポートすることができる。
評価の結果,AnyV2Vは他のベースライン法に匹敵するCLIPスコアが得られた。
論文 参考訳(メタデータ) (2024-03-21T15:15:00Z) - EffiVED:Efficient Video Editing via Text-instruction Diffusion Models [9.287394166165424]
EffiVEDは、命令誘導ビデオ編集をサポートする効率的な拡散ベースモデルである。
我々は、膨大な画像編集データセットとオープンワールドビデオを、EffiVEDをトレーニングするための高品質なデータセットに変換する。
論文 参考訳(メタデータ) (2024-03-18T08:42:08Z) - Neural Video Fields Editing [56.558490998753456]
NVEditは、メモリオーバーヘッドを軽減し、一貫性を向上させるために設計された、テキスト駆動のビデオ編集フレームワークである。
我々は、数百フレームの長いビデオのエンコーディングを可能にするために、三面体とスパースグリッドを用いたニューラルビデオフィールドを構築した。
次に、オフザシェルフテキスト・トゥ・イメージ(T2I)モデルを用いて、ビデオフィールドをテキスト駆動編集エフェクトに更新する。
論文 参考訳(メタデータ) (2023-12-12T14:48:48Z) - VIDiff: Translating Videos via Multi-Modal Instructions with Diffusion
Models [96.55004961251889]
Video Instruction Diffusion (VIDiff) は、幅広いビデオタスク用に設計された統合基盤モデルである。
我々のモデルは,ユーザの指示に基づいて,所望の結果を数秒以内に編集し,翻訳することができる。
様々な入力ビデオや書き起こしに対して,質的かつ定量的に,説得力のある生成結果を提供する。
論文 参考訳(メタデータ) (2023-11-30T18:59:52Z) - Ground-A-Video: Zero-shot Grounded Video Editing using Text-to-image
Diffusion Models [65.268245109828]
Ground-A-Videoは、マルチ属性ビデオ編集のためのビデオからビデオへの変換フレームワークである。
トレーニング不要な方法で、時間的に一貫した入力ビデオの編集を可能にする。
実験と応用により、Ground-A-Videoのゼロショットキャパシティは、編集精度とフレームの整合性の観点から、他のベースライン手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-10-02T11:28:37Z) - EVE: Efficient zero-shot text-based Video Editing with Depth Map
Guidance and Temporal Consistency Constraints [20.1875350156484]
現在のビデオ編集タスクは主に、高精細化コストと限られた生成能力との間のジレンマに悩まされている。
本研究では,堅牢で効率的なゼロショットビデオ編集手法であるEVEを提案する。
深度マップと時間的整合性制約のガイダンスの下で、EVEは良好なビデオ編集結果と安価な計算と時間コストを導出する。
論文 参考訳(メタデータ) (2023-08-21T11:36:46Z) - Zero-Shot Video Editing Using Off-The-Shelf Image Diffusion Models [68.31777975873742]
ビデオ編集の最近の試みは、トレーニングに大量のテキスト・ビデオデータと計算資源を必要とする。
我々は、ゼロショットビデオ編集のためのシンプルで効果的な方法であるvid2vid-zeroを提案する。
実験と分析は、現実世界のビデオの属性、主題、場所などの編集において有望な結果を示す。
論文 参考訳(メタデータ) (2023-03-30T17:59:25Z) - Frozen in Time: A Joint Video and Image Encoder for End-to-End Retrieval [80.7397409377659]
大規模画像と映像キャプションの両方のデータセットを利用した,エンドツーエンドのトレーニング可能なモデルを提案する。
私たちのモデルは柔軟で、画像とビデオの両方のテキストデータセットで、独立に、または同時にトレーニングできます。
この手法は,標準ダウンストリームビデオリトライバルベンチマークにおいて最先端の結果が得られることを示す。
論文 参考訳(メタデータ) (2021-04-01T17:48:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。