論文の概要: Region-Constraint In-Context Generation for Instructional Video Editing
- arxiv url: http://arxiv.org/abs/2512.17650v1
- Date: Fri, 19 Dec 2025 14:49:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-22 19:25:54.441298
- Title: Region-Constraint In-Context Generation for Instructional Video Editing
- Title(参考訳): インストラクショナルビデオ編集のための領域制約付きインコンテキスト生成
- Authors: Zhongwei Zhang, Fuchen Long, Wei Li, Zhaofan Qiu, Wu Liu, Ting Yao, Tao Mei,
- Abstract要約: 本稿では,テキスト内生成中の編集領域と非編集領域の制約モデリングに着目する新しい指導ビデオ編集パラダイムReCoを提案する。
本稿では,500Kの命令-ビデオペアからなる大規模かつ高品質なビデオ編集データセットであるReCo-Dataを提案する。
- 参考スコア(独自算出の注目度): 91.27224696009755
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The In-context generation paradigm recently has demonstrated strong power in instructional image editing with both data efficiency and synthesis quality. Nevertheless, shaping such in-context learning for instruction-based video editing is not trivial. Without specifying editing regions, the results can suffer from the problem of inaccurate editing regions and the token interference between editing and non-editing areas during denoising. To address these, we present ReCo, a new instructional video editing paradigm that novelly delves into constraint modeling between editing and non-editing regions during in-context generation. Technically, ReCo width-wise concatenates source and target video for joint denoising. To calibrate video diffusion learning, ReCo capitalizes on two regularization terms, i.e., latent and attention regularization, conducting on one-step backward denoised latents and attention maps, respectively. The former increases the latent discrepancy of the editing region between source and target videos while reducing that of non-editing areas, emphasizing the modification on editing area and alleviating outside unexpected content generation. The latter suppresses the attention of tokens in the editing region to the tokens in counterpart of the source video, thereby mitigating their interference during novel object generation in target video. Furthermore, we propose a large-scale, high-quality video editing dataset, i.e., ReCo-Data, comprising 500K instruction-video pairs to benefit model training. Extensive experiments conducted on four major instruction-based video editing tasks demonstrate the superiority of our proposal.
- Abstract(参考訳): 近年、インコンテキスト生成パラダイムは、データ効率と合成品質の両面において、命令画像編集において強い影響力を発揮している。
それでも、命令ベースのビデオ編集のための文脈内学習は簡単ではない。
編集領域を指定しなければ、編集領域の不正確な問題や、編集中の編集領域と非編集領域間のトークン干渉に悩まされる可能性がある。
そこで本研究では,テキスト内生成中の編集領域と非編集領域の制約モデリングを新たに展開する,新しいビデオ編集パラダイムReCoを提案する。
技術的には、ReCoは、ジョイント認知のためのソースとターゲットビデオをワイドワイドに結合する。
ビデオ拡散学習を校正するために、ReCoは2つの正則化項、すなわち潜在正則化(英語版)と注意正則化(英語版)(英語版)に乗じて、それぞれ1段階の後方復号化潜像とアテンションマップ(英語版)を実行する。
前者は、非編集領域を減らし、編集領域の変更を強調し、予期せぬコンテンツ生成を緩和しながら、ソースとターゲットビデオ間の編集領域の潜時差を増大させる。
後者は、編集領域内のトークンのソースビデオと対向するトークンに対する注意を抑え、ターゲットビデオにおける新規なオブジェクト生成時の干渉を緩和する。
さらに,大規模かつ高品質なビデオ編集データセットであるReCo-Dataを提案する。
4つの主要な指導ベースビデオ編集タスクに対して行われた大規模な実験は,提案手法の優位性を実証するものである。
関連論文リスト
- In-Context Learning with Unpaired Clips for Instruction-based Video Editing [51.943707933717185]
我々は、命令ベースのビデオ編集のための低コストの事前学習戦略を導入する。
本フレームワークは,まず約100万本のビデオクリップを事前学習し,基本的な編集概念を学習する。
本手法は命令アライメントと視覚的忠実度の両方において既存の命令ベースビデオ編集手法を超越する。
論文 参考訳(メタデータ) (2025-10-16T13:02:11Z) - EditVerse: Unifying Image and Video Editing and Generation with In-Context Learning [58.53074381801114]
イメージとビデオの生成と編集を単一のモデルで統合したフレームワークであるEditVerseを紹介する。
テキスト、画像、ビデオなどのすべてのモダリティを統一されたトークンシーケンスとして表現することで、EditVerseは、堅牢なインコンテキスト学習を実現するために自己アテンションを活用する。
多様なタスクや解像度をカバーする命令ベースのビデオ編集のための最初のベンチマークであるEditVerseBenchを紹介する。
論文 参考訳(メタデータ) (2025-09-24T17:59:30Z) - InstructVEdit: A Holistic Approach for Instructional Video Editing [28.13673601495108]
InstructVEditは、信頼できるデータセットキュレーションワークフローを確立するフルサイクルのインストラクショナルビデオ編集アプローチである。
時間的一貫性を維持しながら、編集品質を向上させるために、2つのモデルアーキテクチャの改善が組み込まれている。
また、実世界のデータを活用して、一般化を強化し、列車とテストの相違を最小限に抑える反復的な改善戦略を提案する。
論文 参考訳(メタデータ) (2025-03-22T04:12:20Z) - Re-Attentional Controllable Video Diffusion Editing [48.052781838711994]
本稿では,Re-Attentional Controllable Video Diffusion Editing (ReAtCo)法を提案する。
対象物体の空間配置と編集されたテキストプロンプトを無訓練で整合させるために,再注意拡散(RAD)を提案する。
RADは、編集されたテキストプロンプトとデノナイジング段階のターゲットビデオとの間の相互注意活性化反応を再焦点化し、空間的に位置整列し、意味的に高忠実に操作されたビデオを生成する。
論文 参考訳(メタデータ) (2024-12-16T12:32:21Z) - DIVE: Taming DINO for Subject-Driven Video Editing [49.090071984272576]
DINO-Guided Video Editing (DIVE) は、ソースビデオの主題駆動編集を容易にするために設計されたフレームワークである。
DIVEのコアは、事前訓練されたDINOv2モデルから抽出された強力なセマンティック機能を活用することである。
正確な主題編集のために、DIVEは参照画像のDINO特徴を事前訓練されたテキスト・ツー・イメージモデルに組み込む。
論文 参考訳(メタデータ) (2024-12-04T14:28:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。