論文の概要: Text-Driven Reasoning Video Editing via Reinforcement Learning on Digital Twin Representations
- arxiv url: http://arxiv.org/abs/2511.14100v1
- Date: Tue, 18 Nov 2025 03:37:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 16:23:52.911889
- Title: Text-Driven Reasoning Video Editing via Reinforcement Learning on Digital Twin Representations
- Title(参考訳): デジタル双対表現を用いた強化学習によるテキスト駆動推論ビデオ編集
- Authors: Yiqing Shen, Chenjia Li, Mathias Unberath,
- Abstract要約: ビデオ編集モデルでは,編集対象を推測するマルチホップ推論によって暗黙的なクエリを解釈しなければならない。
RIVERは、空間的関係、時間的軌跡、意味的属性を保存したビデオコンテンツのデジタル双対表現を通じて生成から推論を分離する。
RIVERトレーニングは、推論精度と生成品質を評価する報酬付き強化学習を使用する。
- 参考スコア(独自算出の注目度): 8.479321655643195
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-driven video editing enables users to modify video content only using text queries. While existing methods can modify video content if explicit descriptions of editing targets with precise spatial locations and temporal boundaries are provided, these requirements become impractical when users attempt to conceptualize edits through implicit queries referencing semantic properties or object relationships. We introduce reasoning video editing, a task where video editing models must interpret implicit queries through multi-hop reasoning to infer editing targets before executing modifications, and a first model attempting to solve this complex task, RIVER (Reasoning-based Implicit Video Editor). RIVER decouples reasoning from generation through digital twin representations of video content that preserve spatial relationships, temporal trajectories, and semantic attributes. A large language model then processes this representation jointly with the implicit query, performing multi-hop reasoning to determine modifications, then outputs structured instructions that guide a diffusion-based editor to execute pixel-level changes. RIVER training uses reinforcement learning with rewards that evaluate reasoning accuracy and generation quality. Finally, we introduce RVEBenchmark, a benchmark of 100 videos with 519 implicit queries spanning three levels and categories of reasoning complexity specifically for reasoning video editing. RIVER demonstrates best performance on the proposed RVEBenchmark and also achieves state-of-the-art performance on two additional video editing benchmarks (VegGIE and FiVE), where it surpasses six baseline methods.
- Abstract(参考訳): テキスト駆動のビデオ編集では、ユーザーはテキストクエリのみを使用してビデオコンテンツを修正することができる。
既存の方法は、正確な空間的位置と時間的境界を持つ編集対象の明示的な記述が提供される場合、ビデオの内容を変更することができるが、これらの要件は、ユーザが意味的特性やオブジェクト関係を暗黙的に参照することで、編集を概念化しようとすると、現実的ではない。
ビデオ編集モデルでは,編集対象を推測するマルチホップ推論によって暗黙的なクェリを解釈し,修正を行う前に,その複雑なタスクであるRIVER(Reasoning-based Implicit Video Editor)を提案する。
RIVERは、空間的関係、時間的軌跡、意味的属性を保存したビデオコンテンツのデジタル双対表現を通じて生成から推論を分離する。
その後、大きな言語モデルがこの表現を暗黙のクエリと共に処理し、修正を決定するためにマルチホップ推論を実行し、拡散ベースのエディタを誘導してピクセルレベルの変更を実行する構造化命令を出力する。
RIVERトレーニングは、推論精度と生成品質を評価する報酬付き強化学習を使用する。
最後に、RVEBenchmarkを紹介した。RVEBenchmarkは、519の暗黙のクエリを持つ100のビデオのベンチマークで、3つのレベルとカテゴリにまたがる推論の複雑さを推論する。
RIVERは、提案されたRVEベンチマークで最高のパフォーマンスを示し、また、VegGIEとFiVEの2つの追加のビデオ編集ベンチマークで最先端のパフォーマンスを達成する。
関連論文リスト
- Beyond Simple Edits: Composed Video Retrieval with Dense Modifications [96.46069692338645]
多様なビデオセグメントにまたがる細粒度および構成されたアクションをキャプチャする新しいデータセットを提案する。
Dense-WebVid-CoVRは、1.6万のサンプルからできており、修正テキストは既存のものより約7倍多い。
我々は,Cross-Attention (CA) 融合により視覚情報とテキスト情報を統合した新しいモデルを開発した。
論文 参考訳(メタデータ) (2025-08-19T17:59:39Z) - UNIC: Unified In-Context Video Editing [76.76077875564526]
UNIC(Unified In-Context Video Editing)は、単一のモデル内でさまざまなビデオ編集タスクをコンテキスト内で統一するフレームワークである。
本稿では,一貫した時間的位置エンコーディングを容易にするタスク認識型RoPEと,モデルの異なる編集タスクを明確に区別する条件バイアスを導入する。
その結果、我々の統合された手法は各タスクにおいて優れた性能を発揮し、創発的なタスク構成能力を示すことがわかった。
論文 参考訳(メタデータ) (2025-06-04T17:57:43Z) - StableV2V: Stablizing Shape Consistency in Video-to-Video Editing [11.09708780767668]
本稿では,形状に一貫性のあるビデオ編集手法であるStableV2Vについて述べる。
提案手法は,編集パイプライン全体を複数のシーケンシャルな手順に分解し,最初のビデオフレームを編集し,配信された動作とユーザプロンプトのアライメントを確立し,最終的にそのアライメントに基づいて編集内容を他のすべてのフレームに伝達する。
実験結果と解析結果から,既存の最先端研究と比較して,提案手法の性能,視覚的整合性,推論効率が向上していることが示唆された。
論文 参考訳(メタデータ) (2024-11-17T11:48:01Z) - RACCooN: A Versatile Instructional Video Editing Framework with Auto-Generated Narratives [74.01707548681405]
本稿では,RACCooNを提案する。
ビデオ生成モデルは、自動生成された物語や指示を取り入れて、生成されたコンテンツの質と精度を高める。
提案フレームワークは,ビデオ・パラグラフ生成,映像コンテンツ編集において優れた多機能性を示し,さらに拡張するために他のSoTAビデオ生成モデルに組み込むことができる。
論文 参考訳(メタデータ) (2024-05-28T17:46:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。