論文の概要: ContextFlow: Training-Free Video Object Editing via Adaptive Context Enrichment
- arxiv url: http://arxiv.org/abs/2509.17818v1
- Date: Mon, 22 Sep 2025 14:13:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.435311
- Title: ContextFlow: Training-Free Video Object Editing via Adaptive Context Enrichment
- Title(参考訳): ContextFlow:Adaptive Context Enrichmentによるトレーニング不要のビデオオブジェクト編集
- Authors: Yiyang Chen, Xuanhua He, Xiujun Ma, Yue Ma,
- Abstract要約: トレーニング不要のビデオオブジェクト編集は、オブジェクト挿入、スワップ、削除を含む、正確なオブジェクトレベルの操作を実現することを目的としている。
既存の方法は、一階解法による不正確な逆転と、粗い「堅い」特徴置換によって引き起こされる文脈的衝突の2つの主要な制限に悩まされている。
本稿では,DiTベースのビデオオブジェクト編集のための新しいトレーニングフリーフレームワークであるContextFlowを紹介する。
- 参考スコア(独自算出の注目度): 13.125899660835813
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training-free video object editing aims to achieve precise object-level manipulation, including object insertion, swapping, and deletion. However, it faces significant challenges in maintaining fidelity and temporal consistency. Existing methods, often designed for U-Net architectures, suffer from two primary limitations: inaccurate inversion due to first-order solvers, and contextual conflicts caused by crude "hard" feature replacement. These issues are more challenging in Diffusion Transformers (DiTs), where the unsuitability of prior layer-selection heuristics makes effective guidance challenging. To address these limitations, we introduce ContextFlow, a novel training-free framework for DiT-based video object editing. In detail, we first employ a high-order Rectified Flow solver to establish a robust editing foundation. The core of our framework is Adaptive Context Enrichment (for specifying what to edit), a mechanism that addresses contextual conflicts. Instead of replacing features, it enriches the self-attention context by concatenating Key-Value pairs from parallel reconstruction and editing paths, empowering the model to dynamically fuse information. Additionally, to determine where to apply this enrichment (for specifying where to edit), we propose a systematic, data-driven analysis to identify task-specific vital layers. Based on a novel Guidance Responsiveness Metric, our method pinpoints the most influential DiT blocks for different tasks (e.g., insertion, swapping), enabling targeted and highly effective guidance. Extensive experiments show that ContextFlow significantly outperforms existing training-free methods and even surpasses several state-of-the-art training-based approaches, delivering temporally coherent, high-fidelity results.
- Abstract(参考訳): トレーニング不要のビデオオブジェクト編集は、オブジェクト挿入、スワップ、削除を含む、正確なオブジェクトレベルの操作を実現することを目的としている。
しかし、忠実さと時間的一貫性を維持する上で大きな課題に直面している。
U-Netアーキテクチャ用に設計された既存の手法は、一階解決器による不正確な逆転と、粗い「ハード」機能置換によって引き起こされるコンテキスト競合の2つの主要な制限に悩まされている。
これらの問題は拡散変換器(DiT)においてより困難な問題であり、事前の層選択ヒューリスティックスの不適合性は効果的なガイダンスを困難にしている。
このような制約に対処するために、私たちは、DiTベースのビデオオブジェクト編集のための新しいトレーニング不要のフレームワークであるContextFlowを紹介した。
より詳しくは、まず高階のRectified Flowソルバを用いて、堅牢な編集基盤を確立する。
私たちのフレームワークの中核は、コンテキストの衝突に対処するメカニズムであるAdaptive Context Enrichment(編集対象を指定するための)です。
機能を置き換える代わりに、キーバリューペアを並列再構築と編集パスから分離することで、自己注意コンテキストを強化し、モデルを動的に融合させる。
さらに、このリッチメントをどこに適用すべきか(編集場所を特定するために)を決定するために、タスク固有の重要なレイヤを特定するための、体系的なデータ駆動分析を提案する。
提案手法は,新たなガイダンス応答性尺度に基づいて,異なるタスク(例えば,挿入,スワッピング)に対して最も影響力のあるDiTブロックをピンポイントし,ターゲットと高効率なガイダンスを可能にする。
大規模な実験によると、ContextFlowは既存のトレーニング不要のメソッドを著しく上回り、最先端のトレーニングベースのアプローチを数回越えて、時間的に一貫性のある高忠実な結果をもたらしている。
関連論文リスト
- Consistency-Aware Editing for Entity-level Unlearning in Language Models [53.522931419965424]
本稿では,エンティティレベルのアンラーニングのための新しい一貫性対応編集(CAE)フレームワークを提案する。
CAEは、その属性、関係、および敵のパラフレーズを含む、ターゲットエンティティに関連する多様なプロンプトの集合を集約する。
次に、一貫性レギュレータによってガイドされる低ランクの更新を共同で学習し、プロンプトをまたいだ編集方向を調整する。
論文 参考訳(メタデータ) (2025-12-19T15:18:07Z) - Semantic Prioritization in Visual Counterfactual Explanations with Weighted Segmentation and Auto-Adaptive Region Selection [50.68751788132789]
本研究は,自動適応候補編集ネットワーク(WSAE-Net)を用いた重み付きセマンティックマップ(Weighted Semantic Map)という,革新的な手法を提案する。
重み付きセマンティックマップの生成は、計算される必要のある非意味的特徴単位の削減を最大化するように設計されている。
自動適応型候補編集シーケンスは、処理すべき特徴ユニット間の最適な計算順序を決定するように設計されている。
論文 参考訳(メタデータ) (2025-11-17T05:34:10Z) - SplitFlow: Flow Decomposition for Inversion-Free Text-to-Image Editing [15.234877788378563]
整流流モデルは, 安定したサンプリング軌道と高忠実度出力により, 画像生成におけるデファクトスタンダードとなっている。
強力な生成能力にもかかわらず、画像編集タスクには限界がある。
近年の取り組みでは、ソースとターゲットの分布を直接ODEベースのアプローチでインバージョンせずにマッピングする試みが行われている。
本稿では,これらの制約に対応するために,インバージョンフリーな定式化に基づくフロー分解・集約フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-29T21:12:58Z) - FlowCycle: Pursuing Cycle-Consistent Flows for Text-based Editing [12.424207508842192]
本研究では,新しいインバージョンフリーかつフローベース編集フレームワークであるFlowCycleを提案する。
本研究では,FlowCycleが最先端手法よりも優れた編集品質と一貫性を実現することを示す。
論文 参考訳(メタデータ) (2025-10-23T04:58:29Z) - ConsistEdit: Highly Consistent and Precise Training-free Visual Editing [17.162316662697965]
本稿では,MM-DiTに適した新しいアテンション制御手法であるConsistEditを提案する。
視覚のみの注意制御、マスク誘導型事前注意融合、クエリ、キー、バリュートークンの操作を区別する。
構造整合性および構造整合性の両方のシナリオを含む、幅広い画像およびビデオ編集タスクにおける最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-10-20T17:59:52Z) - Low-Cost Test-Time Adaptation for Robust Video Editing [4.707015344498921]
ビデオ編集は、生の映像を特定の視覚的・物語的目的に沿ったコヒーレントな作品に変換するコンテンツ創造の重要な要素である。
既存のアプローチでは、複雑なモーションパターンのキャプチャの失敗による時間的不整合、UNetバックボーンアーキテクチャの制限による単純なプロンプトへの過度な適合、という2つの大きな課題に直面している。
自己教師型補助タスクによる推論中に各テストビデオの最適化をパーソナライズする軽量なテスト時間適応フレームワークであるVid-TTAを提案する。
論文 参考訳(メタデータ) (2025-07-29T14:31:17Z) - AttentionDrag: Exploiting Latent Correlation Knowledge in Pre-trained Diffusion Models for Image Editing [33.74477787349966]
本研究では,AttentionDragという一段階のポイントベース画像編集手法を提案する。
このフレームワークは、大規模な再最適化や再トレーニングを必要とせずに、セマンティック一貫性と高品質な操作を可能にする。
以上の結果から,最先端の手法をはるかに高速に超越した性能を示す。
論文 参考訳(メタデータ) (2025-06-16T09:42:38Z) - InComeS: Integrating Compression and Selection Mechanisms into LLMs for Efficient Model Editing [77.47790551485721]
In-context Learningは、コンテキストエンコーディングを通じて編集情報を解釈することで、有望な編集方法である。
この方法は、大きな言語モデルの限られたコンテキストウィンドウによって制約される。
編集コンテキストの処理能力を向上させるフレキシブルなフレームワークであるInComeSを提案する。
論文 参考訳(メタデータ) (2025-05-28T09:20:18Z) - In-Context Edit: Enabling Instructional Image Editing with In-Context Generation in Large Scale Diffusion Transformer [42.44787022143543]
ICEditはテキスト内編集のパラダイムであり、品質改善のためのパラメータ効率の最小限の微調整を行う。
トレーニングデータのわずか0.1%とトレーニング可能なパラメータ1%で、最先端の編集性能を実現している。
論文 参考訳(メタデータ) (2025-04-29T12:14:47Z) - Towards Transformer-Based Aligned Generation with Self-Coherence Guidance [51.42269790543461]
トランスフォーマーを用いたテキストガイド拡散モデル(TGDM)におけるアライメント向上のためのトレーニング不要アプローチを提案する。
既存のTGDMは、特に複雑なテキストプロンプトやマルチコンセプト属性バインディングの問題を扱う場合、意味的に整合した画像を生成するのに苦労することが多い。
本手法は,生成過程において,相互注意マップを直接最適化することにより,これらの課題に対処する。
論文 参考訳(メタデータ) (2025-03-22T07:03:57Z) - OmniPaint: Mastering Object-Oriented Editing via Disentangled Insertion-Removal Inpainting [54.525583840585305]
我々はオブジェクトの削除と挿入を相互依存プロセスとして再概念化する統合フレームワークであるOmniPaintを紹介した。
我々の新しいCFDメトリクスは、コンテキスト整合性とオブジェクト幻覚の堅牢で参照不要な評価を提供する。
論文 参考訳(メタデータ) (2025-03-11T17:55:27Z) - Task-Oriented Diffusion Inversion for High-Fidelity Text-based Editing [60.730661748555214]
textbfTask-textbfOriented textbfDiffusion textbfInversion (textbfTODInv) は、特定の編集タスクに適した実際の画像を反転して編集する新しいフレームワークである。
ToDInvは相互最適化によってインバージョンと編集をシームレスに統合し、高い忠実さと正確な編集性を保証する。
論文 参考訳(メタデータ) (2024-08-23T22:16:34Z) - CorDA: Context-Oriented Decomposition Adaptation of Large Language Models for Task-Aware Parameter-Efficient Fine-tuning [101.81127587760831]
現在の微調整手法は、学習すべき下流タスクのコンテキストや、維持すべき重要な知識のコンテキストに広く適用できるアダプタを構築している。
学習可能なタスク対応アダプタを構築するコンテキスト指向の分解適応手法であるCorDAを提案する。
本手法は,知識保存型適応と指導レビュー型適応の2つの選択肢を実現する。
論文 参考訳(メタデータ) (2024-06-07T19:10:35Z) - Tuning-Free Inversion-Enhanced Control for Consistent Image Editing [44.311286151669464]
我々は、チューニング不要なインバージョン強化制御(TIC)と呼ばれる新しいアプローチを提案する。
TICは、インバージョンプロセスとサンプリングプロセスの特徴を相関付け、DDIM再構成の不整合を軽減する。
また、インバージョンと単純なDDIM編集プロセスの両方の内容を組み合わせたマスク誘導型アテンション結合戦略を提案する。
論文 参考訳(メタデータ) (2023-12-22T11:13:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。