論文の概要: ReViSE: Towards Reason-Informed Video Editing in Unified Models with Self-Reflective Learning
- arxiv url: http://arxiv.org/abs/2512.09924v2
- Date: Thu, 11 Dec 2025 02:30:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 14:11:15.297316
- Title: ReViSE: Towards Reason-Informed Video Editing in Unified Models with Self-Reflective Learning
- Title(参考訳): ReViSE: 自己回帰学習を伴う統一モデルによる推論インフォームドビデオ編集を目指して
- Authors: Xinyu Liu, Hangjie Yuan, Yujie Wei, Jiazheng Xing, Yujin Han, Jiahao Pan, Yanbiao Ma, Chi-Min Chan, Kang Zhao, Shiwei Zhang, Wenhan Luo, Yike Guo,
- Abstract要約: ビデオ統合モデルは、理解と生成において強力な能力を示すが、理性に富んだビジュアル編集に苦慮している。
本稿では,Reason-Informed Video Editing (RVE)タスクを紹介する。
一つのアーキテクチャ内で生成と評価を統一するフレームワークであるReViSEを提案する。
- 参考スコア(独自算出の注目度): 57.08352504712699
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video unified models exhibit strong capabilities in understanding and generation, yet they struggle with reason-informed visual editing even when equipped with powerful internal vision-language models (VLMs). We attribute this gap to two factors: 1) existing datasets are inadequate for training and evaluating reasoning-aware video editing, and 2) an inherent disconnect between the models' reasoning and editing capabilities, which prevents the rich understanding from effectively instructing the editing process. Bridging this gap requires an integrated framework that connects reasoning with visual transformation. To address this gap, we introduce the Reason-Informed Video Editing (RVE) task, which requires reasoning about physical plausibility and causal dynamics during editing. To support systematic evaluation, we construct RVE-Bench, a comprehensive benchmark with two complementary subsets: Reasoning-Informed Video Editing and In-Context Video Generation. These subsets cover diverse reasoning dimensions and real-world editing scenarios. Building upon this foundation, we propose the ReViSE, a Self-Reflective Reasoning (SRF) framework that unifies generation and evaluation within a single architecture. The model's internal VLM provides intrinsic feedback by assessing whether the edited video logically satisfies the given instruction. The differential feedback that refines the generator's reasoning behavior during training. Extensive experiments on RVE-Bench demonstrate that ReViSE significantly enhances editing accuracy and visual fidelity, achieving a 32% improvement of the Overall score in the reasoning-informed video editing subset over state-of-the-art methods.
- Abstract(参考訳): ビデオ統合モデルは、理解と生成において強力な能力を示すが、強力な内部視覚言語モデル(VLM)を装備した場合でも、論理情報による視覚編集に苦慮する。
このギャップは2つの要因に起因している。
1)既存のデータセットは、推論対応のビデオ編集の訓練や評価に不十分である。
2)モデルの推論と編集能力の本質的にの切り離しにより,リッチな理解が編集過程を効果的に指導することを防止する。
このギャップを埋めるには、推論と視覚的変換を結びつける統合フレームワークが必要です。
このギャップに対処するために、編集中の物理的妥当性と因果ダイナミクスの推論を必要とするReason-Informed Video Editing (RVE)タスクを導入する。
システム評価を支援するため、RVE-Benchという2つの補完的なサブセットを持つ総合的なベンチマークを構築した。
これらのサブセットは様々な推論次元と現実世界の編集シナリオをカバーしている。
この基盤の上に構築されたReViSEは、単一のアーキテクチャ内で生成と評価を統一するSRF(Self-Reflective Reasoning)フレームワークである。
モデルの内部VLMは、編集されたビデオが与えられた命令を論理的に満足するかどうかを評価することによって本質的なフィードバックを提供する。
学習中のジェネレータの推論動作を洗練させる差動フィードバック。
RVE-Benchでの大規模な実験により、ReViSEは編集精度と視覚的忠実度を大幅に向上し、最先端の手法よりも推論インフォームドビデオ編集サブセットのスコアを32%向上させることを示した。
関連論文リスト
- Text-Driven Reasoning Video Editing via Reinforcement Learning on Digital Twin Representations [8.479321655643195]
ビデオ編集モデルでは,編集対象を推測するマルチホップ推論によって暗黙的なクエリを解釈しなければならない。
RIVERは、空間的関係、時間的軌跡、意味的属性を保存したビデオコンテンツのデジタル双対表現を通じて生成から推論を分離する。
RIVERトレーニングは、推論精度と生成品質を評価する報酬付き強化学習を使用する。
論文 参考訳(メタデータ) (2025-11-18T03:37:19Z) - REVISOR: Beyond Textual Reflection, Towards Multimodal Introspective Reasoning in Long-Form Video Understanding [23.684146245231457]
ロングフォームビデオ理解には、よりリッチでダイナミックな視覚入力が含まれる。
純粋にテキストベースのリフレクションメカニズムは、クロスモーダルなインタラクション機能を欠いている。
ツール拡張マルチモーダルリフレクションのための新しいフレームワークであるREVISORを提案する。
論文 参考訳(メタデータ) (2025-11-17T06:25:12Z) - Taming Flow-based I2V Models for Creative Video Editing [64.67801702413122]
ビデオ編集は、ユーザーの意図に応じてビデオを編集することを目的としているが、まだまだ課題だ。
既存の画像条件付きビデオ編集手法の多くは、モデル固有の設計の逆変換を必要とするか、あるいは広範囲の最適化を必要とする。
Inversion-Free 方式である IF-V2V を提案し,ビデオ編集のためのオフザシェルフフローマッチングベースの I2V モデルを,計算オーバーヘッドの大きいものに適応させる。
論文 参考訳(メタデータ) (2025-09-26T05:57:04Z) - EditVerse: Unifying Image and Video Editing and Generation with In-Context Learning [58.53074381801114]
イメージとビデオの生成と編集を単一のモデルで統合したフレームワークであるEditVerseを紹介する。
テキスト、画像、ビデオなどのすべてのモダリティを統一されたトークンシーケンスとして表現することで、EditVerseは、堅牢なインコンテキスト学習を実現するために自己アテンションを活用する。
多様なタスクや解像度をカバーする命令ベースのビデオ編集のための最初のベンチマークであるEditVerseBenchを紹介する。
論文 参考訳(メタデータ) (2025-09-24T17:59:30Z) - Low-Cost Test-Time Adaptation for Robust Video Editing [4.707015344498921]
ビデオ編集は、生の映像を特定の視覚的・物語的目的に沿ったコヒーレントな作品に変換するコンテンツ創造の重要な要素である。
既存のアプローチでは、複雑なモーションパターンのキャプチャの失敗による時間的不整合、UNetバックボーンアーキテクチャの制限による単純なプロンプトへの過度な適合、という2つの大きな課題に直面している。
自己教師型補助タスクによる推論中に各テストビデオの最適化をパーソナライズする軽量なテスト時間適応フレームワークであるVid-TTAを提案する。
論文 参考訳(メタデータ) (2025-07-29T14:31:17Z) - EditBoard: Towards a Comprehensive Evaluation Benchmark for Text-Based Video Editing Models [16.045012576543474]
テキストベースのビデオ編集は有望な分野として現れ、テキストプロンプトに基づいたビデオの正確な修正を可能にしている。
既存の評価は限定的で一貫性がなく、通常、全体的なパフォーマンスを単一のスコアで要約する。
テキストベースのビデオ編集モデルの総合評価ベンチマークであるEditBoardを提案する。
論文 参考訳(メタデータ) (2024-09-15T08:43:18Z) - Zero-Shot Video Editing through Adaptive Sliding Score Distillation [51.57440923362033]
本研究は,オリジナルビデオコンテンツの直接操作を容易にする,ビデオベースのスコア蒸留の新たなパラダイムを提案する。
本稿では,グローバルとローカルの両方の動画ガイダンスを取り入れた適応スライディングスコア蒸留方式を提案する。
論文 参考訳(メタデータ) (2024-06-07T12:33:59Z) - In-N-Out: Faithful 3D GAN Inversion with Volumetric Decomposition for Face Editing [28.790900756506833]
3D対応のGANは、2D対応の編集機能を保ちながら、ビュー合成のための新しい機能を提供する。
GANインバージョンは、入力画像や動画を再構成する潜時コードを求める重要なステップであり、この潜時コードを操作することで様々な編集タスクを可能にする。
我々は3次元GANの入力からOODオブジェクトを明示的にモデル化することでこの問題に対処する。
論文 参考訳(メタデータ) (2023-02-09T18:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。