論文の概要: Reasoning to Align: Implicit Reasoning in Diffusion Transformers for Video Editing
- arxiv url: http://arxiv.org/abs/2605.24674v1
- Date: Sat, 23 May 2026 17:22:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:18.306593
- Title: Reasoning to Align: Implicit Reasoning in Diffusion Transformers for Video Editing
- Title(参考訳): ビデオ編集用拡散変換器における暗黙の推論
- Authors: Yan Li, Lin Liu, Xiaopeng Zhang, Qi Tian,
- Abstract要約: 本稿では,2つの補完コンポーネントを中心に構築された暗黙の推論ビデオ編集用DiTフレームワークであるRVEDiTを提案する。
RVEDiTは最先端のベースラインを一貫して上回り、特にローカライズされた編集や構成的な編集において大きな利益を得ている。
- 参考スコア(独自算出の注目度): 55.211537893248675
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Instruction-based video editing requires transforming a source video according to a natural-language instruction while preserving irrelevant content and remaining temporally coherent. We argue that existing Diffusion Transformer (DiT) editors struggle with this task for two structural reasons. First, conditioning signals are fed undifferentiated into all transformer blocks, forcing a single token stream to encode both global editing intent and fine-grained visual evidence. Second, the cross-attention patterns that govern the edit are supervised only indirectly through pixel-level reconstruction, leaving the model's internal reasoning process under-constrained. To address both limitations, we propose RVEDiT, an implicit Reasoning Video Editing DiT framework built around two complementary components. The first, Granularity-Routed Token Conditioning, introduces learnable editing tokens distilled from a multimodal LLM and routes them to shallow blocks, while reserving native visual and textual tokens for deeper blocks, thereby inducing a coarse-to-fine editing process inside the backbone. The second, Reference-Anchored Attention Alignment, employs a parameter-sharing reference branch during training and maximizes the mutual information between the attention features of the editing and reference branches, regularizing the model's internal reasoning without incurring any additional inference cost. Experiments on standard instruction-based video editing benchmarks show that RVEDiT consistently outperforms state-of-the-art baselines, with particularly strong gains on localized and compositional edits.
- Abstract(参考訳): インストラクションベースのビデオ編集では、非関連コンテンツと時間的一貫性を保ちながら、自然言語の指示に従ってソース映像を変換する必要がある。
既存のDiffusion Transformer (DiT) エディタはこのタスクに2つの構造的理由から苦労している。
まず、コンディショニング信号はすべてのトランスフォーマーブロックに無差別に供給され、単一のトークンストリームにグローバルな編集意図ときめ細かい視覚的証拠の両方をエンコードせざるを得ない。
第二に、編集を管理する横断的なパターンは、ピクセルレベルの再構成によってのみ間接的に管理され、モデルの内部推論プロセスは制約を受けていない。
両制約に対処するため,2つの相補的なコンポーネントを中心に構築された暗黙的推論ビデオ編集型DiTフレームワークであるRVEDiTを提案する。
最初のGranularity-Routed Token Conditioningでは、マルチモーダルLCMから抽出した学習可能な編集トークンを導入し、浅いブロックにルーティングすると同時に、より深いブロックのためにネイティブな視覚的およびテキスト的トークンを保存し、バックボーン内に粗い編集プロセスを誘導する。
第2のReference-Anchored Attention Alignmentは、トレーニング中にパラメータ共有参照ブランチを使用して、編集と参照ブランチの注目特徴間の相互情報を最大化し、追加の推論コストを発生させることなく、モデルの内部推論を規則化する。
標準的なインストラクションベースのビデオ編集ベンチマークの実験では、RVEDiTは最先端のベースラインを一貫して上回り、特にローカライズドやコンストラクショナルな編集に大きく貢献している。
関連論文リスト
- SAMA: Factorized Semantic Anchoring and Motion Alignment for Instruction-Guided Video Editing [76.349958946335]
本稿では,映像編集をセマンティックアンカーとモーションモデリングに分解するフレームワークであるSAMA(factorized Semantic Anchoring and Motion Alignment)を提案する。
まずセマンティックアンカリング(Semantic Anchoring)を導入し、スパースアンカフレームでのセマンティックトークンとビデオ潜在者を共同で予測することで、信頼性の高い視覚アンカを確立する。
第2に、モーションアライメントは同じバックボーンをモーション中心のビデオ復元のプリテキストタスクで事前トレーニングする。
論文 参考訳(メタデータ) (2026-03-19T17:59:51Z) - ReViSE: Towards Reason-Informed Video Editing in Unified Models with Self-Reflective Learning [57.08352504712699]
ビデオ統合モデルは、理解と生成において強力な能力を示すが、理性に富んだビジュアル編集に苦慮している。
本稿では,Reason-Informed Video Editing (RVE)タスクを紹介する。
一つのアーキテクチャ内で生成と評価を統一するフレームワークであるReViSEを提案する。
論文 参考訳(メタデータ) (2025-12-10T18:57:09Z) - Text-Driven Reasoning Video Editing via Reinforcement Learning on Digital Twin Representations [8.479321655643195]
ビデオ編集モデルでは,編集対象を推測するマルチホップ推論によって暗黙的なクエリを解釈しなければならない。
RIVERは、空間的関係、時間的軌跡、意味的属性を保存したビデオコンテンツのデジタル双対表現を通じて生成から推論を分離する。
RIVERトレーニングは、推論精度と生成品質を評価する報酬付き強化学習を使用する。
論文 参考訳(メタデータ) (2025-11-18T03:37:19Z) - FlowDirector: Training-Free Flow Steering for Precise Text-to-Video Editing [2.7248421583285265]
FlowDirectorは、新しいインバージョンフリーのビデオ編集フレームワークである。
我々のフレームワークは、編集プロセスをデータ空間の直接進化としてモデル化する。
局所的かつ制御可能な編集を実現するために,注意誘導型マスキング機構を導入する。
論文 参考訳(メタデータ) (2025-06-05T13:54:40Z) - Re-Attentional Controllable Video Diffusion Editing [48.052781838711994]
本稿では,Re-Attentional Controllable Video Diffusion Editing (ReAtCo)法を提案する。
対象物体の空間配置と編集されたテキストプロンプトを無訓練で整合させるために,再注意拡散(RAD)を提案する。
RADは、編集されたテキストプロンプトとデノナイジング段階のターゲットビデオとの間の相互注意活性化反応を再焦点化し、空間的に位置整列し、意味的に高忠実に操作されたビデオを生成する。
論文 参考訳(メタデータ) (2024-12-16T12:32:21Z) - Ground-A-Video: Zero-shot Grounded Video Editing using Text-to-image
Diffusion Models [65.268245109828]
Ground-A-Videoは、マルチ属性ビデオ編集のためのビデオからビデオへの変換フレームワークである。
トレーニング不要な方法で、時間的に一貫した入力ビデオの編集を可能にする。
実験と応用により、Ground-A-Videoのゼロショットキャパシティは、編集精度とフレームの整合性の観点から、他のベースライン手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-10-02T11:28:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。