Fugu-MT 論文翻訳(概要): ContextFlow: Training-Free Video Object Editing via Adaptive Context Enrichment

論文の概要: ContextFlow: Training-Free Video Object Editing via Adaptive Context Enrichment

arxiv url: http://arxiv.org/abs/2509.17818v1
Date: Mon, 22 Sep 2025 14:13:31 GMT
ステータス: 翻訳完了
システム内更新日: 2025-09-23 18:58:16.435311
Title: ContextFlow: Training-Free Video Object Editing via Adaptive Context Enrichment
Title（参考訳）: ContextFlow:Adaptive Context Enrichmentによるトレーニング不要のビデオオブジェクト編集
Authors: Yiyang Chen, Xuanhua He, Xiujun Ma, Yue Ma,
Abstract要約: トレーニング不要のビデオオブジェクト編集は、オブジェクト挿入、スワップ、削除を含む、正確なオブジェクトレベルの操作を実現することを目的としている。既存の方法は、一階解法による不正確な逆転と、粗い「堅い」特徴置換によって引き起こされる文脈的衝突の2つの主要な制限に悩まされている。本稿では,DiTベースのビデオオブジェクト編集のための新しいトレーニングフリーフレームワークであるContextFlowを紹介する。
参考スコア（独自算出の注目度）: 13.125899660835813
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Training-free video object editing aims to achieve precise object-level manipulation, including object insertion, swapping, and deletion. However, it faces significant challenges in maintaining fidelity and temporal consistency. Existing methods, often designed for U-Net architectures, suffer from two primary limitations: inaccurate inversion due to first-order solvers, and contextual conflicts caused by crude "hard" feature replacement. These issues are more challenging in Diffusion Transformers (DiTs), where the unsuitability of prior layer-selection heuristics makes effective guidance challenging. To address these limitations, we introduce ContextFlow, a novel training-free framework for DiT-based video object editing. In detail, we first employ a high-order Rectified Flow solver to establish a robust editing foundation. The core of our framework is Adaptive Context Enrichment (for specifying what to edit), a mechanism that addresses contextual conflicts. Instead of replacing features, it enriches the self-attention context by concatenating Key-Value pairs from parallel reconstruction and editing paths, empowering the model to dynamically fuse information. Additionally, to determine where to apply this enrichment (for specifying where to edit), we propose a systematic, data-driven analysis to identify task-specific vital layers. Based on a novel Guidance Responsiveness Metric, our method pinpoints the most influential DiT blocks for different tasks (e.g., insertion, swapping), enabling targeted and highly effective guidance. Extensive experiments show that ContextFlow significantly outperforms existing training-free methods and even surpasses several state-of-the-art training-based approaches, delivering temporally coherent, high-fidelity results.
Abstract（参考訳）: トレーニング不要のビデオオブジェクト編集は、オブジェクト挿入、スワップ、削除を含む、正確なオブジェクトレベルの操作を実現することを目的としている。しかし、忠実さと時間的一貫性を維持する上で大きな課題に直面している。 U-Netアーキテクチャ用に設計された既存の手法は、一階解決器による不正確な逆転と、粗い「ハード」機能置換によって引き起こされるコンテキスト競合の2つの主要な制限に悩まされている。これらの問題は拡散変換器(DiT)においてより困難な問題であり、事前の層選択ヒューリスティックスの不適合性は効果的なガイダンスを困難にしている。このような制約に対処するために、私たちは、DiTベースのビデオオブジェクト編集のための新しいトレーニング不要のフレームワークであるContextFlowを紹介した。より詳しくは、まず高階のRectified Flowソルバを用いて、堅牢な編集基盤を確立する。私たちのフレームワークの中核は、コンテキストの衝突に対処するメカニズムであるAdaptive Context Enrichment(編集対象を指定するための)です。機能を置き換える代わりに、キーバリューペアを並列再構築と編集パスから分離することで、自己注意コンテキストを強化し、モデルを動的に融合させる。さらに、このリッチメントをどこに適用すべきか(編集場所を特定するために)を決定するために、タスク固有の重要なレイヤを特定するための、体系的なデータ駆動分析を提案する。提案手法は,新たなガイダンス応答性尺度に基づいて,異なるタスク(例えば,挿入,スワッピング)に対して最も影響力のあるDiTブロックをピンポイントし,ターゲットと高効率なガイダンスを可能にする。大規模な実験によると、ContextFlowは既存のトレーニング不要のメソッドを著しく上回り、最先端のトレーニングベースのアプローチを数回越えて、時間的に一貫性のある高忠実な結果をもたらしている。

関連論文リスト

Low-Cost Test-Time Adaptation for Robust Video Editing [4.707015344498921]
ビデオ編集は、生の映像を特定の視覚的・物語的目的に沿ったコヒーレントな作品に変換するコンテンツ創造の重要な要素である。既存のアプローチでは、複雑なモーションパターンのキャプチャの失敗による時間的不整合、UNetバックボーンアーキテクチャの制限による単純なプロンプトへの過度な適合、という2つの大きな課題に直面している。自己教師型補助タスクによる推論中に各テストビデオの最適化をパーソナライズする軽量なテスト時間適応フレームワークであるVid-TTAを提案する。
論文参考訳（メタデータ） (2025-07-29T14:31:17Z)
AttentionDrag: Exploiting Latent Correlation Knowledge in Pre-trained Diffusion Models for Image Editing [33.74477787349966]
本研究では,AttentionDragという一段階のポイントベース画像編集手法を提案する。このフレームワークは、大規模な再最適化や再トレーニングを必要とせずに、セマンティック一貫性と高品質な操作を可能にする。以上の結果から,最先端の手法をはるかに高速に超越した性能を示す。
論文参考訳（メタデータ） (2025-06-16T09:42:38Z)
InComeS: Integrating Compression and Selection Mechanisms into LLMs for Efficient Model Editing [77.47790551485721]
In-context Learningは、コンテキストエンコーディングを通じて編集情報を解釈することで、有望な編集方法である。この方法は、大きな言語モデルの限られたコンテキストウィンドウによって制約される。編集コンテキストの処理能力を向上させるフレキシブルなフレームワークであるInComeSを提案する。
論文参考訳（メタデータ） (2025-05-28T09:20:18Z)
In-Context Edit: Enabling Instructional Image Editing with In-Context Generation in Large Scale Diffusion Transformer [42.44787022143543]
ICEditはテキスト内編集のパラダイムであり、品質改善のためのパラメータ効率の最小限の微調整を行う。トレーニングデータのわずか0.1%とトレーニング可能なパラメータ1%で、最先端の編集性能を実現している。
論文参考訳（メタデータ） (2025-04-29T12:14:47Z)
Towards Transformer-Based Aligned Generation with Self-Coherence Guidance [51.42269790543461]
トランスフォーマーを用いたテキストガイド拡散モデル(TGDM)におけるアライメント向上のためのトレーニング不要アプローチを提案する。既存のTGDMは、特に複雑なテキストプロンプトやマルチコンセプト属性バインディングの問題を扱う場合、意味的に整合した画像を生成するのに苦労することが多い。本手法は,生成過程において,相互注意マップを直接最適化することにより,これらの課題に対処する。
論文参考訳（メタデータ） (2025-03-22T07:03:57Z)
OmniPaint: Mastering Object-Oriented Editing via Disentangled Insertion-Removal Inpainting [54.525583840585305]
我々はオブジェクトの削除と挿入を相互依存プロセスとして再概念化する統合フレームワークであるOmniPaintを紹介した。我々の新しいCFDメトリクスは、コンテキスト整合性とオブジェクト幻覚の堅牢で参照不要な評価を提供する。
論文参考訳（メタデータ） (2025-03-11T17:55:27Z)
Task-Oriented Diffusion Inversion for High-Fidelity Text-based Editing [60.730661748555214]
textbfTask-textbfOriented textbfDiffusion textbfInversion (textbfTODInv) は、特定の編集タスクに適した実際の画像を反転して編集する新しいフレームワークである。 ToDInvは相互最適化によってインバージョンと編集をシームレスに統合し、高い忠実さと正確な編集性を保証する。
論文参考訳（メタデータ） (2024-08-23T22:16:34Z)
CorDA: Context-Oriented Decomposition Adaptation of Large Language Models for Task-Aware Parameter-Efficient Fine-tuning [101.81127587760831]
現在の微調整手法は、学習すべき下流タスクのコンテキストや、維持すべき重要な知識のコンテキストに広く適用できるアダプタを構築している。学習可能なタスク対応アダプタを構築するコンテキスト指向の分解適応手法であるCorDAを提案する。本手法は,知識保存型適応と指導レビュー型適応の2つの選択肢を実現する。
論文参考訳（メタデータ） (2024-06-07T19:10:35Z)
Tuning-Free Inversion-Enhanced Control for Consistent Image Editing [44.311286151669464]
我々は、チューニング不要なインバージョン強化制御(TIC)と呼ばれる新しいアプローチを提案する。 TICは、インバージョンプロセスとサンプリングプロセスの特徴を相関付け、DDIM再構成の不整合を軽減する。また、インバージョンと単純なDDIM編集プロセスの両方の内容を組み合わせたマスク誘導型アテンション結合戦略を提案する。
論文参考訳（メタデータ） (2023-12-22T11:13:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。