論文の概要: VIVA: VLM-Guided Instruction-Based Video Editing with Reward Optimization
- arxiv url: http://arxiv.org/abs/2512.16906v1
- Date: Thu, 18 Dec 2025 18:58:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:32.245797
- Title: VIVA: VLM-Guided Instruction-Based Video Editing with Reward Optimization
- Title(参考訳): VIVA: VLM-Guided Instruction-based Video Editing with Reward Optimization
- Authors: Xiaoyan Cong, Haotian Yang, Angtian Wang, Yizhi Wang, Yiding Yang, Canyu Zhang, Chongyang Ma,
- Abstract要約: VIVAは命令ベースのビデオ編集のためのスケーラブルなフレームワークである。
VLM誘導符号化と報酬最適化を使用する。
そこで本研究では,VIVAが最先端の手法よりも優れた命令処理,一般化,品質の編集を実現していることを示す。
- 参考スコア(独自算出の注目度): 31.89256250882701
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Instruction-based video editing aims to modify an input video according to a natural-language instruction while preserving content fidelity and temporal coherence. However, existing diffusion-based approaches are often trained on paired data of simple editing operations, which fundamentally limits their ability to generalize to diverse and complex, real-world instructions. To address this generalization gap, we propose VIVA, a scalable framework for instruction-based video editing that leverages VLM-guided encoding and reward optimization. First, we introduce a VLM-based instructor that encodes the textual instruction, the first frame of the source video, and an optional reference image into visually-grounded instruction representations, providing fine-grained spatial and semantic context for the diffusion transformer backbone. Second, we propose a post-training stage, Edit-GRPO, which adapts Group Relative Policy Optimization to the domain of video editing, directly optimizing the model for instruction-faithful, content-preserving, and aesthetically pleasing edits using relative rewards. Furthermore, we propose a data construction pipeline designed to synthetically generate diverse, high-fidelity paired video-instruction data of basic editing operations. Extensive experiments show that VIVA achieves superior instruction following, generalization, and editing quality over state-of-the-art methods. Website: https://viva-paper.github.io
- Abstract(参考訳): インストラクションベースのビデオ編集は,コンテンツ忠実度と時間的コヒーレンスを保ちながら,自然言語による指示に従って入力ビデオを変更することを目的としている。
しかし、既存の拡散に基づくアプローチは、単純な編集操作のペアデータに基づいて訓練されることが多く、それは基本的に、多様で複雑な実世界の命令に一般化する能力を制限している。
この一般化ギャップに対処するために,VLM誘導符号化と報酬最適化を活用した命令ベースの動画編集のためのスケーラブルなフレームワークであるVIVAを提案する。
まず、VLMベースのインストラクターを用いて、テキスト命令、ソースビデオの第1フレーム、オプション参照画像を視覚的に接地した命令表現に符号化し、拡散トランスフォーマーのバックボーンに詳細な空間的・意味的コンテキストを提供する。
第2に,グループ相対政策最適化を映像編集の領域に適応させた後学習段階であるEdit-GRPOを提案する。
さらに,基本編集操作の多種多様な高忠実度ペアビデオインストラクションデータを合成的に生成するデータ構築パイプラインを提案する。
広汎な実験により、VIVAは最先端の手法よりも優れた命令、一般化、品質の編集を達成できることが示された。
ウェブサイト:https://viva-paper.github.io
関連論文リスト
- Text-Driven Reasoning Video Editing via Reinforcement Learning on Digital Twin Representations [8.479321655643195]
ビデオ編集モデルでは,編集対象を推測するマルチホップ推論によって暗黙的なクエリを解釈しなければならない。
RIVERは、空間的関係、時間的軌跡、意味的属性を保存したビデオコンテンツのデジタル双対表現を通じて生成から推論を分離する。
RIVERトレーニングは、推論精度と生成品質を評価する報酬付き強化学習を使用する。
論文 参考訳(メタデータ) (2025-11-18T03:37:19Z) - In-Context Learning with Unpaired Clips for Instruction-based Video Editing [51.943707933717185]
我々は、命令ベースのビデオ編集のための低コストの事前学習戦略を導入する。
本フレームワークは,まず約100万本のビデオクリップを事前学習し,基本的な編集概念を学習する。
本手法は命令アライメントと視覚的忠実度の両方において既存の命令ベースビデオ編集手法を超越する。
論文 参考訳(メタデータ) (2025-10-16T13:02:11Z) - FlowDirector: Training-Free Flow Steering for Precise Text-to-Video Editing [2.7248421583285265]
FlowDirectorは、新しいインバージョンフリーのビデオ編集フレームワークである。
我々のフレームワークは、編集プロセスをデータ空間の直接進化としてモデル化する。
局所的かつ制御可能な編集を実現するために,注意誘導型マスキング機構を導入する。
論文 参考訳(メタデータ) (2025-06-05T13:54:40Z) - VEGGIE: Instructional Editing and Reasoning Video Concepts with Grounded Generation [70.87745520234012]
本稿では,VEGGIEを紹介する。VEGGIEは,多様なユーザインストラクションに基づいて,ビデオコンセプトの編集,グラウンド化,推論を統一する,シンプルなエンドツーエンドフレームワークである。
VEGGIEは、異なる編集スキルを持つ指導ビデオ編集において高い性能を示し、汎用モデルとして最高の指導ベースラインを達成している。
論文 参考訳(メタデータ) (2025-03-18T15:31:12Z) - A Reinforcement Learning-Based Automatic Video Editing Method Using Pre-trained Vision-Language Model [10.736207095604414]
まず、シーン固有の特徴を抽出する以前の作品とは異なり、事前学習された視覚言語モデル(VLM)を活用する。
また,RLをベースとした編集フレームワークを提案し,編集問題を定式化し,仮想エディタを訓練し,より優れた編集判断を行う。
論文 参考訳(メタデータ) (2024-11-07T18:20:28Z) - InstructVid2Vid: Controllable Video Editing with Natural Language Instructions [97.17047888215284]
InstructVid2Vidは、人間の言語命令でガイドされたビデオ編集のためのエンドツーエンドの拡散ベースの方法論である。
我々のアプローチは、自然言語ディレクティブによって案内される映像操作を強化し、サンプルごとの微調整や逆変換の必要性を排除します。
論文 参考訳(メタデータ) (2023-05-21T03:28:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。