論文の概要: Scaling Instruction-Based Video Editing with a High-Quality Synthetic Dataset
- arxiv url: http://arxiv.org/abs/2510.15742v1
- Date: Fri, 17 Oct 2025 15:31:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 20:17:34.681831
- Title: Scaling Instruction-Based Video Editing with a High-Quality Synthetic Dataset
- Title(参考訳): 高品質合成データセットを用いた命令ベースビデオ編集のスケーリング
- Authors: Qingyan Bai, Qiuyu Wang, Hao Ouyang, Yue Yu, Hanlin Wang, Wen Wang, Ka Leong Cheng, Shuailei Ma, Yanhong Zeng, Zichen Liu, Yinghao Xu, Yujun Shen, Qifeng Chen,
- Abstract要約: 命令ベースの動画編集のためのフレームワークであるDittoを開発した。
我々は100万の高忠実度ビデオ編集サンプルのデータセットを構築した。
カリキュラム学習戦略を用いてDitto-1MでモデルであるEdittoをトレーニングする。
- 参考スコア(独自算出の注目度): 103.36732993526545
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Instruction-based video editing promises to democratize content creation, yet its progress is severely hampered by the scarcity of large-scale, high-quality training data. We introduce Ditto, a holistic framework designed to tackle this fundamental challenge. At its heart, Ditto features a novel data generation pipeline that fuses the creative diversity of a leading image editor with an in-context video generator, overcoming the limited scope of existing models. To make this process viable, our framework resolves the prohibitive cost-quality trade-off by employing an efficient, distilled model architecture augmented by a temporal enhancer, which simultaneously reduces computational overhead and improves temporal coherence. Finally, to achieve full scalability, this entire pipeline is driven by an intelligent agent that crafts diverse instructions and rigorously filters the output, ensuring quality control at scale. Using this framework, we invested over 12,000 GPU-days to build Ditto-1M, a new dataset of one million high-fidelity video editing examples. We trained our model, Editto, on Ditto-1M with a curriculum learning strategy. The results demonstrate superior instruction-following ability and establish a new state-of-the-art in instruction-based video editing.
- Abstract(参考訳): インストラクションベースのビデオ編集は、コンテンツの創造を民主化することを約束するが、その進歩は大規模で高品質なトレーニングデータの不足によって著しく妨げられている。
この根本的な課題に取り組むために設計された総合的なフレームワークであるDittoを紹介します。
Dittoの核心にあるのは、リードイメージエディタの創造的な多様性をコンテキスト内ビデオジェネレータに融合させ、既存のモデルの限られた範囲を克服する、新しいデータ生成パイプラインだ。
提案手法は, 時間的エンハンサーにより拡張された効率的な蒸留モデルアーキテクチャを用いて, 計算オーバーヘッドを同時に低減し, 時間的コヒーレンスを向上させることにより, 費用対効果の低下を解消するものである。
最後に、完全なスケーラビリティを達成するために、このパイプライン全体がインテリジェントエージェントによって駆動される。
このフレームワークを使用して、12,000日以上のGPUを投資して、100万の高忠実度ビデオ編集サンプルのデータセットであるDitto-1Mを構築しました。
カリキュラム学習戦略を用いてDitto-1MのモデルであるEdittoを訓練した。
その結果、命令追跡能力に優れ、命令ベースビデオ編集における新たな最先端技術を確立した。
関連論文リスト
- In-Context Learning with Unpaired Clips for Instruction-based Video Editing [51.943707933717185]
我々は、命令ベースのビデオ編集のための低コストの事前学習戦略を導入する。
本フレームワークは,まず約100万本のビデオクリップを事前学習し,基本的な編集概念を学習する。
本手法は命令アライメントと視覚的忠実度の両方において既存の命令ベースビデオ編集手法を超越する。
論文 参考訳(メタデータ) (2025-10-16T13:02:11Z) - EditVerse: Unifying Image and Video Editing and Generation with In-Context Learning [58.53074381801114]
イメージとビデオの生成と編集を単一のモデルで統合したフレームワークであるEditVerseを紹介する。
テキスト、画像、ビデオなどのすべてのモダリティを統一されたトークンシーケンスとして表現することで、EditVerseは、堅牢なインコンテキスト学習を実現するために自己アテンションを活用する。
多様なタスクや解像度をカバーする命令ベースのビデオ編集のための最初のベンチマークであるEditVerseBenchを紹介する。
論文 参考訳(メタデータ) (2025-09-24T17:59:30Z) - InsViE-1M: Effective Instruction-based Video Editing with Elaborate Dataset Construction [10.855393943204728]
高品質なインストラクションベースのビデオ編集データセットを,100万トリプル,すなわちInsViE-1Mで提示する。
高品質な画像から様々なビデオ編集三脚を生成しフィルタする。
実験では、InsViE-1Mデータセットの利点と、最先端の作業に対するトレーニングされたモデルが示されています。
論文 参考訳(メタデータ) (2025-03-26T07:30:58Z) - InstructVEdit: A Holistic Approach for Instructional Video Editing [28.13673601495108]
InstructVEditは、信頼できるデータセットキュレーションワークフローを確立するフルサイクルのインストラクショナルビデオ編集アプローチである。
時間的一貫性を維持しながら、編集品質を向上させるために、2つのモデルアーキテクチャの改善が組み込まれている。
また、実世界のデータを活用して、一般化を強化し、列車とテストの相違を最小限に抑える反復的な改善戦略を提案する。
論文 参考訳(メタデータ) (2025-03-22T04:12:20Z) - VideoPainter: Any-length Video Inpainting and Editing with Plug-and-Play Context Control [47.34885131252508]
ビデオのインペイントは、腐敗したビデオコンテンツを復元することを目的としている。
マスク付きビデオを処理するための新しいデュアルストリームパラダイムVideoPainterを提案する。
また,任意の長さの映像を描ける新しいターゲット領域ID再サンプリング手法も導入する。
論文 参考訳(メタデータ) (2025-03-07T17:59:46Z) - DreamOmni: Unified Image Generation and Editing [76.46811926046225]
本稿では,画像生成と編集の統一モデルであるDream Omniを紹介する。
訓練のためにドリーム・オムニはT2I世代と下流のタスクを共同で訓練する。
このコラボレーションは、編集性能を大幅に向上させる。
論文 参考訳(メタデータ) (2024-12-22T17:17:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。