論文の概要: InsViE-1M: Effective Instruction-based Video Editing with Elaborate Dataset Construction
- arxiv url: http://arxiv.org/abs/2503.20287v1
- Date: Wed, 26 Mar 2025 07:30:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-27 13:20:33.109189
- Title: InsViE-1M: Effective Instruction-based Video Editing with Elaborate Dataset Construction
- Title(参考訳): InsViE-1M: 協調データセット構築による効果的なインストラクションベースビデオ編集
- Authors: Yuhui Wu, Liyi Chen, Ruibin Li, Shihao Wang, Chenxi Xie, Lei Zhang,
- Abstract要約: 高品質なインストラクションベースのビデオ編集データセットを,100万トリプル,すなわちInsViE-1Mで提示する。
まず、高解像度で高品質なソースビデオと画像をキュレートし、次に効率的な編集フィルタリングパイプラインを設計し、モデルトレーニングのための高品質な編集三脚を構築する。
- 参考スコア(独自算出の注目度): 10.855393943204728
- License:
- Abstract: Instruction-based video editing allows effective and interactive editing of videos using only instructions without extra inputs such as masks or attributes. However, collecting high-quality training triplets (source video, edited video, instruction) is a challenging task. Existing datasets mostly consist of low-resolution, short duration, and limited amount of source videos with unsatisfactory editing quality, limiting the performance of trained editing models. In this work, we present a high-quality Instruction-based Video Editing dataset with 1M triplets, namely InsViE-1M. We first curate high-resolution and high-quality source videos and images, then design an effective editing-filtering pipeline to construct high-quality editing triplets for model training. For a source video, we generate multiple edited samples of its first frame with different intensities of classifier-free guidance, which are automatically filtered by GPT-4o with carefully crafted guidelines. The edited first frame is propagated to subsequent frames to produce the edited video, followed by another round of filtering for frame quality and motion evaluation. We also generate and filter a variety of video editing triplets from high-quality images. With the InsViE-1M dataset, we propose a multi-stage learning strategy to train our InsViE model, progressively enhancing its instruction following and editing ability. Extensive experiments demonstrate the advantages of our InsViE-1M dataset and the trained model over state-of-the-art works. Codes are available at InsViE.
- Abstract(参考訳): インストラクションベースのビデオ編集は、マスクや属性などの余分な入力を使わずに、ビデオの効果的なインタラクティブな編集を可能にする。
しかし、高品質なトレーニング三つ子(ソースビデオ、編集ビデオ、インストラクション)の収集は難しい課題である。
既存のデータセットは、主に低解像度、短時間、限られた量のソースビデオで構成され、満足のいく編集品質を持ち、訓練された編集モデルの性能を制限している。
本研究では,高品質なインストラクションベースビデオ編集データセット(InsViE-1M)を提案する。
まず、高解像度で高品質なソースビデオと画像をキュレートし、次に効率的な編集フィルタリングパイプラインを設計し、モデルトレーニングのための高品質な編集三脚を構築する。
ソースビデオでは,分類器のない指導の強度が異なる第1フレームの複数の編集サンプルを生成し,GPT-4oで自動的にフィルタし,ガイドラインを慎重に作成する。
編集された第1フレームは、後続のフレームに伝播して編集されたビデオを生成し、次いでフレーム品質と動作評価のための別のラウンドのフィルタリングを行う。
また、高品質な画像から様々なビデオ編集三脚を生成し、フィルタリングする。
InsViE-1Mデータセットを用いて,InsViEモデルを学習するための多段階学習戦略を提案する。
大規模な実験では、InsViE-1Mデータセットの利点と、最先端の作業に対するトレーニングされたモデルが示されています。
コードはInsViEで入手できる。
関連論文リスト
- Señorita-2M: A High-Quality Instruction-based Dataset for General Video Editing by Video Specialists [17.451911831989293]
高品質なビデオ編集データセットであるSenorita-2Mを紹介する。
高品質で特殊な4つのビデオ編集モデルを構築することで構築される。
編集が不十分なビデオペアを除去するためのフィルタリングパイプラインを提案する。
論文 参考訳(メタデータ) (2025-02-10T17:58:22Z) - MAKIMA: Tuning-free Multi-Attribute Open-domain Video Editing via Mask-Guided Attention Modulation [55.101611012677616]
拡散ベースのテキスト・トゥ・イメージ(T2I)モデルは,グローバルビデオ編集タスクにおいて顕著な結果を示した。
我々は、オープンドメインビデオ編集のための事前訓練されたT2Iモデル上に構築された、チューニング不要なMAEフレームワークであるMAKIMAを紹介する。
論文 参考訳(メタデータ) (2024-12-28T02:36:51Z) - DIVE: Taming DINO for Subject-Driven Video Editing [49.090071984272576]
DINO-Guided Video Editing (DIVE) は、ソースビデオの主題駆動編集を容易にするために設計されたフレームワークである。
DIVEは、ソースビデオの運動軌跡に合わせるためにDINO機能を使用している。
正確な主題編集のために、DIVEは参照画像のDINO特徴を事前訓練されたテキスト・ツー・イメージモデルに組み込む。
論文 参考訳(メタデータ) (2024-12-04T14:28:43Z) - AnyEdit: Mastering Unified High-Quality Image Editing for Any Idea [88.79769371584491]
我々は、総合的なマルチモーダル命令編集データセットであるAnyEditを提示する。
我々は,AnyEditコレクションの多様性と品質を,初期データ多様性,適応編集プロセス,自動編集結果の選択という3つの側面を通じて保証する。
3つのベンチマークデータセットの実験によると、AnyEditは拡散ベースの編集モデルのパフォーマンスを一貫して向上させる。
論文 参考訳(メタデータ) (2024-11-24T07:02:56Z) - Portrait Video Editing Empowered by Multimodal Generative Priors [39.747581584889495]
マルチモーダルプロンプトを用いた一貫した表現型スタイリングを実現する強力なポートレートビデオ編集手法であるPortraitGenを紹介する。
提案手法は,大規模2次元生成モデルから抽出した知識によるマルチモーダル入力を取り入れたものである。
また,表情類似性指導と顔認識画像編集モジュールを内蔵し,反復的データセット更新に伴う劣化問題を効果的に軽減する。
論文 参考訳(メタデータ) (2024-09-20T15:45:13Z) - Unified Editing of Panorama, 3D Scenes, and Videos Through Disentangled Self-Attention Injection [60.47731445033151]
本稿では,基本的な2次元画像テキスト・ツー・イメージ(T2I)拡散モデルのみを利用して,両手法の長所を結合した新しい統合編集フレームワークを提案する。
実験結果から,3次元シーン,ビデオ,パノラマ画像など,様々なモダリティの編集が可能であることが確認された。
論文 参考訳(メタデータ) (2024-05-27T04:44:36Z) - I2VEdit: First-Frame-Guided Video Editing via Image-to-Video Diffusion Models [18.36472998650704]
本稿では,1フレームからビデオ全体への編集を事前学習した画像対ビデオモデルを用いてプロパガンダすることで,画像編集ツールをビデオに適用可能にする,新しい汎用的ソリューションを提案する。
I2VEditと呼ばれる本手法は,編集範囲に応じて映像の視覚的・運動的整合性を適応的に保持する。
論文 参考訳(メタデータ) (2024-05-26T11:47:40Z) - AnyV2V: A Tuning-Free Framework For Any Video-to-Video Editing Tasks [41.640692114423544]
我々はビデオ編集を簡単にするための新しいチューニング不要のパラダイムであるAnyV2Vを紹介する。
AnyV2Vは、既存の画像編集ツールを利用して、幅広いビデオ編集タスクをサポートすることができる。
評価の結果,AnyV2Vは他のベースライン法に匹敵するCLIPスコアが得られた。
論文 参考訳(メタデータ) (2024-03-21T15:15:00Z) - EffiVED:Efficient Video Editing via Text-instruction Diffusion Models [9.287394166165424]
EffiVEDは、命令誘導ビデオ編集をサポートする効率的な拡散ベースモデルである。
我々は、膨大な画像編集データセットとオープンワールドビデオを、EffiVEDをトレーニングするための高品質なデータセットに変換する。
論文 参考訳(メタデータ) (2024-03-18T08:42:08Z) - VIDiff: Translating Videos via Multi-Modal Instructions with Diffusion
Models [96.55004961251889]
Video Instruction Diffusion (VIDiff) は、幅広いビデオタスク用に設計された統合基盤モデルである。
我々のモデルは,ユーザの指示に基づいて,所望の結果を数秒以内に編集し,翻訳することができる。
様々な入力ビデオや書き起こしに対して,質的かつ定量的に,説得力のある生成結果を提供する。
論文 参考訳(メタデータ) (2023-11-30T18:59:52Z) - InstructVid2Vid: Controllable Video Editing with Natural Language Instructions [97.17047888215284]
InstructVid2Vidは、人間の言語命令でガイドされたビデオ編集のためのエンドツーエンドの拡散ベースの方法論である。
我々のアプローチは、自然言語ディレクティブによって案内される映像操作を強化し、サンプルごとの微調整や逆変換の必要性を排除します。
論文 参考訳(メタデータ) (2023-05-21T03:28:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。