Fugu-MT 論文翻訳(概要): EffiVED:Efficient Video Editing via Text-instruction Diffusion Models

論文の概要: EffiVED:Efficient Video Editing via Text-instruction Diffusion Models

arxiv url: http://arxiv.org/abs/2403.11568v1
Date: Mon, 18 Mar 2024 08:42:08 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-19 16:07:12.739199
Title: EffiVED:Efficient Video Editing via Text-instruction Diffusion Models
Title（参考訳）: EffiVED:テキスト指示拡散モデルによる効率的なビデオ編集
Authors: Zhenghao Zhang, Zuozhuo Dai, Long Qin, Weizhi Wang,
Abstract要約: EffiVEDは、命令誘導ビデオ編集をサポートする効率的な拡散ベースモデルである。我々は、膨大な画像編集データセットとオープンワールドビデオを、EffiVEDをトレーニングするための高品質なデータセットに変換する。実験結果から,EffiVEDは高品質な編集ビデオを生成するだけでなく,高速に実行可能であることがわかった。
参考スコア（独自算出の注目度）: 9.287394166165424
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large-scale text-to-video models have shown remarkable abilities, but their direct application in video editing remains challenging due to limited available datasets. Current video editing methods commonly require per-video fine-tuning of diffusion models or specific inversion optimization to ensure high-fidelity edits. In this paper, we introduce EffiVED, an efficient diffusion-based model that directly supports instruction-guided video editing. To achieve this, we present two efficient workflows to gather video editing pairs, utilizing augmentation and fundamental vision-language techniques. These workflows transform vast image editing datasets and open-world videos into a high-quality dataset for training EffiVED. Experimental results reveal that EffiVED not only generates high-quality editing videos but also executes rapidly. Finally, we demonstrate that our data collection method significantly improves editing performance and can potentially tackle the scarcity of video editing data. The datasets will be made publicly available upon publication.
Abstract（参考訳）: 大規模なテキスト・ビデオ・モデルは目覚ましい能力を示しているが、ビデオ編集における直接の応用は、利用可能なデータセットが限られているため、依然として困難である。現在のビデオ編集法では、拡散モデルの微調整や、高忠実度な編集を保証するための特定の反転最適化が一般的である。本稿では,命令誘導ビデオ編集を直接サポートする効率的な拡散ベースモデルであるEffiVEDを紹介する。これを実現するために,拡張と基本的視覚言語技術を利用して,ビデオ編集ペアを収集する2つの効率的なワークフローを提案する。これらのワークフローは、膨大な画像編集データセットとオープンワールドビデオを、EffiVEDをトレーニングするための高品質なデータセットに変換する。実験結果から,EffiVEDは高品質な編集ビデオを生成するだけでなく,高速に実行可能であることがわかった。最後に,データ収集手法が編集性能を大幅に向上し,ビデオ編集データの不足に対処できることを実証する。データセットは公開時に公開される。

関連論文リスト

In-Context Learning with Unpaired Clips for Instruction-based Video Editing [51.943707933717185]
我々は、命令ベースのビデオ編集のための低コストの事前学習戦略を導入する。本フレームワークは,まず約100万本のビデオクリップを事前学習し,基本的な編集概念を学習する。本手法は命令アライメントと視覚的忠実度の両方において既存の命令ベースビデオ編集手法を超越する。
論文参考訳（メタデータ） (2025-10-16T13:02:11Z)
EditVerse: Unifying Image and Video Editing and Generation with In-Context Learning [58.53074381801114]
イメージとビデオの生成と編集を単一のモデルで統合したフレームワークであるEditVerseを紹介する。テキスト、画像、ビデオなどのすべてのモダリティを統一されたトークンシーケンスとして表現することで、EditVerseは、堅牢なインコンテキスト学習を実現するために自己アテンションを活用する。多様なタスクや解像度をカバーする命令ベースのビデオ編集のための最初のベンチマークであるEditVerseBenchを紹介する。
論文参考訳（メタデータ） (2025-09-24T17:59:30Z)
DreamVE: Unified Instruction-based Image and Video Editing [48.59380808274814]
本稿では,DreamVEを紹介した。DreamVEは命令ベースの画像編集とビデオ編集の統一モデルである。本稿では,まず画像編集,次にビデオ編集という2段階の学習戦略を提案する。我々はコラージュベースおよび生成モデルベースデータ合成を含む包括的トレーニングデータパイプラインを提案する。
論文参考訳（メタデータ） (2025-08-08T07:20:30Z)
InsViE-1M: Effective Instruction-based Video Editing with Elaborate Dataset Construction [10.855393943204728]
高品質なインストラクションベースのビデオ編集データセットを,100万トリプル,すなわちInsViE-1Mで提示する。まず、高解像度で高品質なソースビデオと画像をキュレートし、次に効率的な編集フィルタリングパイプラインを設計し、モデルトレーニングのための高品質な編集三脚を構築する。
論文参考訳（メタデータ） (2025-03-26T07:30:58Z)
InstructVEdit: A Holistic Approach for Instructional Video Editing [28.13673601495108]
InstructVEditは、信頼できるデータセットキュレーションワークフローを確立するフルサイクルのインストラクショナルビデオ編集アプローチである。時間的一貫性を維持しながら、編集品質を向上させるために、2つのモデルアーキテクチャの改善が組み込まれている。また、実世界のデータを活用して、一般化を強化し、列車とテストの相違を最小限に抑える反復的な改善戦略を提案する。
論文参考訳（メタデータ） (2025-03-22T04:12:20Z)
VEGGIE: Instructional Editing and Reasoning of Video Concepts with Grounded Generation [67.31149310468801]
本稿では,VEGGIEを紹介する。VEGGIEは,多様なユーザインストラクションに基づいて,ビデオコンセプトの編集,グラウンド化,推論を統一する,シンプルなエンドツーエンドフレームワークである。 VEGGIEは、異なる編集スキルを持つ指導ビデオ編集において高い性能を示し、汎用モデルとして最高の指導ベースラインを達成している。
論文参考訳（メタデータ） (2025-03-18T15:31:12Z)
Señorita-2M: A High-Quality Instruction-based Dataset for General Video Editing by Video Specialists [17.451911831989293]
高品質なビデオ編集データセットであるSenorita-2Mを紹介する。高品質で特殊な4つのビデオ編集モデルを構築することで構築される。編集が不十分なビデオペアを除去するためのフィルタリングパイプラインを提案する。
論文参考訳（メタデータ） (2025-02-10T17:58:22Z)
DIVE: Taming DINO for Subject-Driven Video Editing [49.090071984272576]
DINO-Guided Video Editing (DIVE) は、ソースビデオの主題駆動編集を容易にするために設計されたフレームワークである。 DIVEは、ソースビデオの運動軌跡に合わせるためにDINO機能を使用している。正確な主題編集のために、DIVEは参照画像のDINO特徴を事前訓練されたテキスト・ツー・イメージモデルに組み込む。
論文参考訳（メタデータ） (2024-12-04T14:28:43Z)
VIVID-10M: A Dataset and Baseline for Versatile and Interactive Video Local Editing [13.006616304789878]
本稿では,データセットVIVID-10MとベースラインモデルVIVIDを紹介する。 VIVID-10Mは、最初の大規模ハイブリッド画像-ビデオローカル編集データセットである。提案手法は,ビデオローカル編集における最先端性能を実現し,自動計測とユーザスタディの両方においてベースライン手法を超越した。
論文参考訳（メタデータ） (2024-11-22T10:04:05Z)
COVE: Unleashing the Diffusion Feature Correspondence for Consistent Video Editing [57.76170824395532]
ビデオ編集は新たな課題であり、現在のほとんどの手法では、ソースビデオを編集するために、事前訓練されたテキスト・トゥ・イメージ(T2I)拡散モデルを採用している。我々は,高品質で一貫したビデオ編集を実現するために,COVE(Cor correspondingence-guided Video Editing)を提案する。 COVEは、追加のトレーニングや最適化を必要とせずに、事前訓練されたT2I拡散モデルにシームレスに統合することができる。
論文参考訳（メタデータ） (2024-06-13T06:27:13Z)
I2VEdit: First-Frame-Guided Video Editing via Image-to-Video Diffusion Models [18.36472998650704]
本稿では,1フレームからビデオ全体への編集を事前学習した画像対ビデオモデルを用いてプロパガンダすることで,画像編集ツールをビデオに適用可能にする,新しい汎用的ソリューションを提案する。 I2VEditと呼ばれる本手法は,編集範囲に応じて映像の視覚的・運動的整合性を適応的に保持する。
論文参考訳（メタデータ） (2024-05-26T11:47:40Z)
FastVideoEdit: Leveraging Consistency Models for Efficient Text-to-Video Editing [8.907836546058086]
既存のビデオ編集における画像生成モデルへのアプローチは、ワンショットの微調整、追加条件抽出、DDIMの逆変換といった時間を要する。我々は、一貫性モデル(CM)にインスパイアされた効率的なゼロショットビデオ編集手法であるFastVideoEditを提案する。本手法は,特別な分散スケジュールを用いて,ソース映像からターゲット映像への直接マッピングを可能にする。
論文参考訳（メタデータ） (2024-03-10T17:12:01Z)
Neural Video Fields Editing [56.558490998753456]
NVEditは、メモリオーバーヘッドを軽減し、一貫性を向上させるために設計された、テキスト駆動のビデオ編集フレームワークである。我々は、数百フレームの長いビデオのエンコーディングを可能にするために、三面体とスパースグリッドを用いたニューラルビデオフィールドを構築した。次に、オフザシェルフテキスト・トゥ・イメージ(T2I)モデルを用いて、ビデオフィールドをテキスト駆動編集エフェクトに更新する。
論文参考訳（メタデータ） (2023-12-12T14:48:48Z)
VIDiff: Translating Videos via Multi-Modal Instructions with Diffusion Models [96.55004961251889]
Video Instruction Diffusion (VIDiff) は、幅広いビデオタスク用に設計された統合基盤モデルである。我々のモデルは,ユーザの指示に基づいて,所望の結果を数秒以内に編集し,翻訳することができる。様々な入力ビデオや書き起こしに対して,質的かつ定量的に,説得力のある生成結果を提供する。
論文参考訳（メタデータ） (2023-11-30T18:59:52Z)
Ground-A-Video: Zero-shot Grounded Video Editing using Text-to-image Diffusion Models [65.268245109828]
Ground-A-Videoは、マルチ属性ビデオ編集のためのビデオからビデオへの変換フレームワークである。トレーニング不要な方法で、時間的に一貫した入力ビデオの編集を可能にする。実験と応用により、Ground-A-Videoのゼロショットキャパシティは、編集精度とフレームの整合性の観点から、他のベースライン手法よりも優れていることが示された。
論文参考訳（メタデータ） (2023-10-02T11:28:37Z)
INVE: Interactive Neural Video Editing [79.48055669064229]
対話型ニューラルビデオ編集(Interactive Neural Video Editing、INVE)は、ビデオクリップ全体へのスパースフレーム編集を一貫して伝播するリアルタイムビデオ編集ソリューションである。我々の手法は、Layered Neural Atlas (LNA)の最近の研究にインスパイアされている。 LNAは,(1)対話的な編集に時間がかかりすぎること,(2)編集のユースケースに対して不十分なサポートを提供していること,の2つの大きな欠点に悩まされている。
論文参考訳（メタデータ） (2023-07-15T00:02:41Z)
Zero-Shot Video Editing Using Off-The-Shelf Image Diffusion Models [68.31777975873742]
ビデオ編集の最近の試みは、トレーニングに大量のテキスト・ビデオデータと計算資源を必要とする。我々は、ゼロショットビデオ編集のためのシンプルで効果的な方法であるvid2vid-zeroを提案する。実験と分析は、現実世界のビデオの属性、主題、場所などの編集において有望な結果を示す。
論文参考訳（メタデータ） (2023-03-30T17:59:25Z)
Dreamix: Video Diffusion Models are General Video Editors [22.127604561922897]
テキスト駆動画像とビデオ拡散モデルは最近、前例のない世代のリアリズムを達成した。一般的なビデオのテキストベースの動きと外観編集を行うことができる最初の拡散ベース手法を提案する。
論文参考訳（メタデータ） (2023-02-02T18:58:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。