Fugu-MT 論文翻訳(概要): Kiwi-Edit: Versatile Video Editing via Instruction and Reference Guidance

論文の概要: Kiwi-Edit: Versatile Video Editing via Instruction and Reference Guidance

arxiv url: http://arxiv.org/abs/2603.02175v2
Date: Thu, 05 Mar 2026 17:36:07 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-06 15:25:24.257211
Title: Kiwi-Edit: Versatile Video Editing via Instruction and Reference Guidance
Title（参考訳）: Kiwi-Edit: インストラクションとレファレンスガイダンスによるビデオ編集
Authors: Yiqi Lin, Guoqiang Liang, Ziyun Zeng, Zechen Bai, Yanzhe Chen, Mike Zheng Shou,
Abstract要約: 本稿では,既存のビデオ編集ペアを高忠実度トレーニング四重項に変換するスケーラブルなデータ生成パイプラインを提案する。本稿では,学習可能なクエリと参照セマンティックガイダンスのための潜在視覚特徴を相乗化する統合編集アーキテクチャKiwi-Editを提案する。
参考スコア（独自算出の注目度）: 55.32799307123252
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Instruction-based video editing has witnessed rapid progress, yet current methods often struggle with precise visual control, as natural language is inherently limited in describing complex visual nuances. Although reference-guided editing offers a robust solution, its potential is currently bottlenecked by the scarcity of high-quality paired training data. To bridge this gap, we introduce a scalable data generation pipeline that transforms existing video editing pairs into high-fidelity training quadruplets, leveraging image generative models to create synthesized reference scaffolds. Using this pipeline, we construct RefVIE, a large-scale dataset tailored for instruction-reference-following tasks, and establish RefVIE-Bench for comprehensive evaluation. Furthermore, we propose a unified editing architecture, Kiwi-Edit, that synergizes learnable queries and latent visual features for reference semantic guidance. Our model achieves significant gains in instruction following and reference fidelity via a progressive multi-stage training curriculum. Extensive experiments demonstrate that our data and architecture establish a new state-of-the-art in controllable video editing. All datasets, models, and code is released at https://github.com/showlab/Kiwi-Edit.
Abstract（参考訳）: インストラクションベースのビデオ編集は急速に進歩しているが、現在の手法は複雑な視覚的ニュアンスを記述するのに自然言語が本質的に限られているため、しばしば正確な視覚的制御に苦慮している。参照誘導編集は堅牢なソリューションを提供するが、その可能性は現在、高品質なペアトレーニングデータの不足によってボトルネックになっている。このギャップを埋めるために、既存のビデオ編集ペアを高忠実度トレーニング四重項に変換するスケーラブルなデータ生成パイプラインを導入し、画像生成モデルを活用して、合成された参照足場を作成する。このパイプラインを用いて、命令参照追従タスクに適した大規模データセットであるRefVIEを構築し、総合的な評価のためにRefVIE-Benchを確立する。さらに、学習可能なクエリと参照セマンティックガイダンスのための潜在視覚機能を相乗化する統合編集アーキテクチャ、Kiwi-Editを提案する。本モデルでは, プログレッシブ・マルチステージ・トレーニング・カリキュラムを用いて, 命令追従と参照忠実度を大幅に向上させる。大規模な実験により、我々のデータとアーキテクチャが制御可能なビデオ編集における新しい最先端技術を確立することが実証された。すべてのデータセット、モデル、コードはhttps://github.com/showlab/Kiwi-Editで公開されている。

関連論文リスト

NOVA: Sparse Control, Dense Synthesis for Pair-Free Video Editing [26.74471251505078]
NOVA: Sparse Control & Dense Synthesisは、未完成のビデオ編集のための新しいフレームワークです。実験の結果,NOVAは従来手法よりも忠実度,運動保存,時間的コヒーレンスに優れていた。
論文参考訳（メタデータ） (2026-03-03T09:41:06Z)
EasyV2V: A High-quality Instruction-based Video Editing Framework [108.78294392167017]
キャプションemphEasyV2Vは、命令ベースのビデオ編集のためのフレームワークである。 EasyV2Vは、例えば video+text、 video+mask+reference+、最先端のビデオ編集結果などの柔軟な入力で動作する。
論文参考訳（メタデータ） (2025-12-18T18:59:57Z)
VIVA: VLM-Guided Instruction-Based Video Editing with Reward Optimization [31.89256250882701]
VIVAは命令ベースのビデオ編集のためのスケーラブルなフレームワークである。 VLM誘導符号化と報酬最適化を使用する。そこで本研究では,VIVAが最先端の手法よりも優れた命令処理,一般化,品質の編集を実現していることを示す。
論文参考訳（メタデータ） (2025-12-18T18:58:42Z)
Scaling Instruction-Based Video Editing with a High-Quality Synthetic Dataset [103.36732993526545]
命令ベースの動画編集のためのフレームワークであるDittoを開発した。我々は100万の高忠実度ビデオ編集サンプルのデータセットを構築した。カリキュラム学習戦略を用いてDitto-1MでモデルであるEdittoをトレーニングする。
論文参考訳（メタデータ） (2025-10-17T15:31:40Z)
EditVerse: Unifying Image and Video Editing and Generation with In-Context Learning [58.53074381801114]
イメージとビデオの生成と編集を単一のモデルで統合したフレームワークであるEditVerseを紹介する。テキスト、画像、ビデオなどのすべてのモダリティを統一されたトークンシーケンスとして表現することで、EditVerseは、堅牢なインコンテキスト学習を実現するために自己アテンションを活用する。多様なタスクや解像度をカバーする命令ベースのビデオ編集のための最初のベンチマークであるEditVerseBenchを紹介する。
論文参考訳（メタデータ） (2025-09-24T17:59:30Z)
VidCLearn: A Continual Learning Approach for Text-to-Video Generation [11.861060763379236]
VidCLearnはテキスト・ビデオ生成のための継続的学習フレームワークである。動きの平滑性を高めるための新しい時間的一貫性損失と、推論における構造的ガイダンスを提供するビデオ検索モジュールを導入する。私たちのアーキテクチャは、良好な生成性能を維持しながら、既存のモデルよりも計算効率が良いように設計されています。
論文参考訳（メタデータ） (2025-09-21T07:34:19Z)
InstructVEdit: A Holistic Approach for Instructional Video Editing [28.13673601495108]
InstructVEditは、信頼できるデータセットキュレーションワークフローを確立するフルサイクルのインストラクショナルビデオ編集アプローチである。時間的一貫性を維持しながら、編集品質を向上させるために、2つのモデルアーキテクチャの改善が組み込まれている。また、実世界のデータを活用して、一般化を強化し、列車とテストの相違を最小限に抑える反復的な改善戦略を提案する。
論文参考訳（メタデータ） (2025-03-22T04:12:20Z)
VEGGIE: Instructional Editing and Reasoning Video Concepts with Grounded Generation [70.87745520234012]
本稿では,VEGGIEを紹介する。VEGGIEは,多様なユーザインストラクションに基づいて,ビデオコンセプトの編集,グラウンド化,推論を統一する,シンプルなエンドツーエンドフレームワークである。 VEGGIEは、異なる編集スキルを持つ指導ビデオ編集において高い性能を示し、汎用モデルとして最高の指導ベースラインを達成している。
論文参考訳（メタデータ） (2025-03-18T15:31:12Z)
InstructVid2Vid: Controllable Video Editing with Natural Language Instructions [97.17047888215284]
InstructVid2Vidは、人間の言語命令でガイドされたビデオ編集のためのエンドツーエンドの拡散ベースの方法論である。我々のアプローチは、自然言語ディレクティブによって案内される映像操作を強化し、サンプルごとの微調整や逆変換の必要性を排除します。
論文参考訳（メタデータ） (2023-05-21T03:28:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。