論文の概要: Unified Video Editing with Temporal Reasoner
- arxiv url: http://arxiv.org/abs/2512.07469v1
- Date: Mon, 08 Dec 2025 11:50:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.869249
- Title: Unified Video Editing with Temporal Reasoner
- Title(参考訳): 時間共振器による一元的ビデオ編集
- Authors: Xiangpeng Yang, Ji Xie, Yiyuan Yang, Yan Huang, Min Xu, Qiang Wu,
- Abstract要約: 本稿では,Chain-of-Framesアプローチとして,Chain-of-Thought推論にヒントを得たVideoCoFを提案する。
VideoCoFは、ビデオ拡散モデルを説得して、最初に推論トークンを予測することによって、シー、シー、シー、エディット"手順を強制する。
我々は,50kビデオペアの最小データコストで,VideoCoF-Benchの最先端性能を実現することを実証した。
- 参考スコア(独自算出の注目度): 20.19759768002609
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing video editing methods face a critical trade-off: expert models offer precision but rely on task-specific priors like masks, hindering unification; conversely, unified temporal in-context learning models are mask-free but lack explicit spatial cues, leading to weak instruction-to-region mapping and imprecise localization. To resolve this conflict, we propose VideoCoF, a novel Chain-of-Frames approach inspired by Chain-of-Thought reasoning. VideoCoF enforces a ``see, reason, then edit" procedure by compelling the video diffusion model to first predict reasoning tokens (edit-region latents) before generating the target video tokens. This explicit reasoning step removes the need for user-provided masks while achieving precise instruction-to-region alignment and fine-grained video editing. Furthermore, we introduce a RoPE alignment strategy that leverages these reasoning tokens to ensure motion alignment and enable length extrapolation beyond the training duration. We demonstrate that with a minimal data cost of only 50k video pairs, VideoCoF achieves state-of-the-art performance on VideoCoF-Bench, validating the efficiency and effectiveness of our approach. Our code, weight, data are available at https://github.com/knightyxp/VideoCoF.
- Abstract(参考訳): 既存のビデオ編集手法は重要なトレードオフに直面している: エキスパートモデルは正確性を提供するが、マスクのようなタスク固有の事前情報に依存し、統一を妨げている。
この対立を解決するために、我々は、Chain-of-Framesアプローチとして、Chain-of-Thought推論にインスパイアされたVideoCoFを提案する。
VideoCoFは、"see, reason, thenEdit"プロシージャを強制し、ビデオ拡散モデルを説得して、最初に推論トークン(ローカルラテント)を予測し、ターゲットのビデオトークンを生成する。
この明示的な推論ステップは、高精度な命令対領域アライメントときめ細かいビデオ編集を実現しつつ、ユーザが提供するマスクの必要性を取り除く。
さらに,これらの推論トークンを活用するRoPEアライメント戦略を導入し,運動アライメントを確保し,トレーニング期間を超えて長さ外挿を可能にする。
我々は,50kビデオ対の最小データコストで,VideoCoFがVideoCoF-Benchの最先端性能を実現し,本手法の有効性と有効性を検証することを実証した。
私たちのコード、重み、データはhttps://github.com/knightyxp/VideoCoF.comで公開されています。
関連論文リスト
- COVE: Unleashing the Diffusion Feature Correspondence for Consistent Video Editing [57.76170824395532]
ビデオ編集は新たな課題であり、現在のほとんどの手法では、ソースビデオを編集するために、事前訓練されたテキスト・トゥ・イメージ(T2I)拡散モデルを採用している。
我々は,高品質で一貫したビデオ編集を実現するために,COVE(Cor correspondingence-guided Video Editing)を提案する。
COVEは、追加のトレーニングや最適化を必要とせずに、事前訓練されたT2I拡散モデルにシームレスに統合することができる。
論文 参考訳(メタデータ) (2024-06-13T06:27:13Z) - LOVECon: Text-driven Training-Free Long Video Editing with ControlNet [9.762680144118061]
本稿では,このギャップを埋めることを目的として,学習自由拡散モデルに基づく長大ビデオ編集のための,シンプルで効果的なベースラインを確立する。
ControlNet上にパイプラインを構築し、テキストプロンプトに基づいて様々な画像編集タスクを抽出する。
本手法は,ユーザの要求に応じて数百フレームの動画を編集する。
論文 参考訳(メタデータ) (2023-10-15T02:39:25Z) - FateZero: Fusing Attentions for Zero-shot Text-based Video Editing [104.27329655124299]
本研究では,FateZeroを提案する。FateZeroは,実世界のビデオに対して,プロンプトごとのトレーニングや使用専用のマスクを使わずに,ゼロショットのテキストベースの編集手法である。
本手法は、ゼロショットテキスト駆動型ビデオスタイルと、訓練されたテキスト・ツー・イメージモデルからローカル属性を編集する機能を示す最初の方法である。
論文 参考訳(メタデータ) (2023-03-16T17:51:13Z) - Align and Prompt: Video-and-Language Pre-training with Entity Prompts [111.23364631136339]
ビデオと言語による事前トレーニングは、様々なダウンストリームタスクに有望な改善を示している。
Align and Prompt: クロスモーダルアライメントを改良した,効率的かつ効果的なビデオ・言語事前学習フレームワークを提案する。
私たちのコードと事前訓練されたモデルはリリースされます。
論文 参考訳(メタデータ) (2021-12-17T15:55:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。