論文の概要: Efficient Temporal Consistency in Diffusion-Based Video Editing with Adaptor Modules: A Theoretical Framework
- arxiv url: http://arxiv.org/abs/2504.16016v1
- Date: Tue, 22 Apr 2025 16:28:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-30 17:26:06.793355
- Title: Efficient Temporal Consistency in Diffusion-Based Video Editing with Adaptor Modules: A Theoretical Framework
- Title(参考訳): 適応モジュールを用いた拡散映像編集における時間一貫性の有効性:理論的枠組み
- Authors: Xinyuan Song, Yangfan He, Sida Li, Jianhui Wang, Hongyang He, Xinhang Yuan, Ruoyu Wang, Jiaqi Chen, Keqin Li, Kuan Lu, Menghao Huo, Binxu Li, Pei Liu,
- Abstract要約: DDIMモデルにおけるフレーム一貫性を時間的整合性損失下で維持するアダプタの一般的な理論的枠組みを提供する。
DDIM逆転手順におけるモジュールの安定性を解析し、関連するエラーが制御されていることを示す。
- 参考スコア(独自算出の注目度): 14.23793349540553
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adapter-based methods are commonly used to enhance model performance with minimal additional complexity, especially in video editing tasks that require frame-to-frame consistency. By inserting small, learnable modules into pretrained diffusion models, these adapters can maintain temporal coherence without extensive retraining. Approaches that incorporate prompt learning with both shared and frame-specific tokens are particularly effective in preserving continuity across frames at low training cost. In this work, we want to provide a general theoretical framework for adapters that maintain frame consistency in DDIM-based models under a temporal consistency loss. First, we prove that the temporal consistency objective is differentiable under bounded feature norms, and we establish a Lipschitz bound on its gradient. Second, we show that gradient descent on this objective decreases the loss monotonically and converges to a local minimum if the learning rate is within an appropriate range. Finally, we analyze the stability of modules in the DDIM inversion procedure, showing that the associated error remains controlled. These theoretical findings will reinforce the reliability of diffusion-based video editing methods that rely on adapter strategies and provide theoretical insights in video generation tasks.
- Abstract(参考訳): アダプタベースの手法は、特にフレーム間の一貫性を必要とするビデオ編集タスクにおいて、最小限の複雑さでモデル性能を向上させるために一般的に使用される。
学習可能な小さなモジュールを事前訓練された拡散モデルに挿入することにより、これらのアダプタは、広範囲な再学習なしに時間的コヒーレンスを維持することができる。
共有トークンとフレーム固有のトークンの両方で迅速な学習を取り入れたアプローチは、訓練コストの低いフレーム間の連続性を維持するのに特に有効である。
本研究では,DDIMモデルにおけるフレーム一貫性を時間的整合性損失下で維持するアダプタの一般的な理論的枠組みを提案する。
まず、有界な特徴ノルムの下で時間的一貫性の目的が微分可能であることを証明し、その勾配にリプシッツの有界性を確立する。
第2に、学習速度が適切な範囲内であれば、この目的の勾配勾配は損失を単調に減少させ、局所的に最小限に収束することを示す。
最後に、DDIM逆転手順におけるモジュールの安定性を分析し、関連するエラーが制御されていることを示す。
これらの理論的な発見は、アダプタ戦略に依存した拡散ベースのビデオ編集手法の信頼性を高め、映像生成タスクにおける理論的洞察を提供する。
関連論文リスト
- PropFly: Learning to Propagate via On-the-Fly Supervision from Pre-trained Video Diffusion Models [35.59605874012795]
PropFlyは、伝搬ベースのビデオ編集のためのトレーニングパイプラインである。
PropFlyはトレーニング済みのビデオ拡散モデル(VDM)に依存している。
我々のパイプラインは、事前訓練されたVDMにアタッチされたアダプタが、誘導変調フローマッチング(GMFM)損失を介して編集を伝達することを学ぶことを可能にする。
論文 参考訳(メタデータ) (2026-02-24T06:11:08Z) - Zero-Shot Video Translation and Editing with Frame Spatial-Temporal Correspondence [81.82643953694485]
フレーム内対応とフレーム間対応を統合し,より堅牢な時空間制約を定式化するFRESCOを提案する。
提案手法は注意誘導を超越して特徴を明示的に最適化し,入力ビデオとの空間的整合性を実現する。
動画翻訳とテキスト誘導ビデオ編集の2つのゼロショットタスクに対してFRESCO適応を検証する。
論文 参考訳(メタデータ) (2025-12-03T15:51:11Z) - CtrlVDiff: Controllable Video Generation via Unified Multimodal Video Diffusion [62.04833878126661]
統合拡散フレームワークにおける映像理解と制御可能な映像生成という2つの課題に対処する。
CtrlVDiffは、Hybrid Modality Control Strategy(HMCS)で訓練された統合拡散モデルであり、深度、正規度、セグメンテーション、エッジ、グラフィックベースの内在性(アルベド、粗さ、金属)から特徴を導出し、融合する。
理解と生成のベンチマーク全体にわたって、CtrlVDiffは優れた制御性と忠実さを提供し、レイヤワイズな編集(リライティング、材料調整、オブジェクト挿入)と最先端のベースラインを越えながら、いくつかのモダリティが利用できない場合の堅牢性を維持している。
論文 参考訳(メタデータ) (2025-11-26T07:27:11Z) - VALA: Learning Latent Anchors for Training-Free and Temporally Consistent [29.516179213427694]
本稿では,キーフレームを適応的に選択し,その潜在機能をセマンティックアンカーに圧縮し,一貫したビデオ編集を行う変分アライメントモジュールであるVALAを提案する。
本手法はトレーニング不要なテキスト・画像ベースのビデオ編集モデルに完全に統合することができる。
論文 参考訳(メタデータ) (2025-10-27T03:44:11Z) - Fitting Image Diffusion Models on Video Datasets [30.688877034764474]
本稿では,連続ビデオフレームに存在する時間的帰納バイアスを利用して拡散訓練を改善する,シンプルで効果的なトレーニング戦略を提案する。
本手法はHandCoデータセット上で評価し,手動物体間相互作用が高密度時間的コヒーレンスを示す。
論文 参考訳(メタデータ) (2025-09-04T01:04:54Z) - Bisecle: Binding and Separation in Continual Learning for Video Language Understanding [11.710573955384511]
海馬における高速な結合とパターン分離機構に着想を得たビデオ言語連続学習のためのBisecleを提案する。
Bisecleは、いくつかのVideoQAベンチマークにおいて、忘れを緩和し、クロスタスクの一般化を強化する。
論文 参考訳(メタデータ) (2025-07-01T06:28:57Z) - Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion [70.4360995984905]
本稿では,自己回帰ビデオ拡散モデルのための新しい訓練パラダイムであるSelf Forcingを紹介する。
露光バイアスの長年の問題に対処し、地道的な文脈で訓練されたモデルは、自身の不完全な出力で条件付けられたシーケンスを生成する必要がある。
論文 参考訳(メタデータ) (2025-06-09T17:59:55Z) - Rethinking Video Tokenization: A Conditioned Diffusion-based Approach [58.164354605550194]
新しいトークン化ツールであるDiffusion Conditioned-based Gene Tokenizerは、GANベースのデコーダを条件付き拡散モデルで置き換える。
再建に基本的MSE拡散損失とKL項,LPIPSを併用した訓練を行った。
CDTのスケールダウン版(3$times inference speedup)でさえ、トップベースラインと互換性がある。
論文 参考訳(メタデータ) (2025-03-05T17:59:19Z) - Enhancing Low-Cost Video Editing with Lightweight Adaptors and Temporal-Aware Inversion [26.631402993971722]
本稿では,時間空間的・意味的一貫性をBaliteral DDIMインバージョンと統合するフレームワークを提案する。
MSR-VTTデータセットで示すように,本手法は知覚品質,テキスト画像アライメント,時間的コヒーレンスを大幅に改善する。
論文 参考訳(メタデータ) (2025-01-08T16:41:31Z) - Temporal Feature Matters: A Framework for Diffusion Model Quantization [105.3033493564844]
拡散モデルはマルチラウンド・デノナイジングの時間ステップに依存している。
3つの戦略を含む新しい量子化フレームワークを導入する。
このフレームワークは時間情報のほとんどを保存し、高品質なエンドツーエンド生成を保証する。
論文 参考訳(メタデータ) (2024-07-28T17:46:15Z) - Low-Light Video Enhancement via Spatial-Temporal Consistent Illumination and Reflection Decomposition [68.6707284662443]
低照度ビデオエンハンスメント(LLVE)は、激しい視認性とノイズに悩まされる動的および静的なシーンの復元を目指している。
1つの重要な側面は、時間空間照明と外観強化バージョンに特化した一貫性の制約を定式化することである。
本稿では,レチネックスを基盤とした革新的なビデオ分解戦略について述べる。
論文 参考訳(メタデータ) (2024-05-24T15:56:40Z) - Stragglers-Aware Low-Latency Synchronous Federated Learning via Layer-Wise Model Updates [71.81037644563217]
同期フェデレーションラーニング(FL)は、協調エッジラーニングの一般的なパラダイムである。
一部のデバイスは計算資源が限られており、様々な可用性があるため、FLレイテンシはストラグラーに非常に敏感である。
本稿では,NNの最適化手法をバックプロパゲーションにより活用し,グローバルモデルを階層的に更新するストラグラー対応層対応学習(SALF)を提案する。
論文 参考訳(メタデータ) (2024-03-27T09:14:36Z) - MeDM: Mediating Image Diffusion Models for Video-to-Video Translation
with Temporal Correspondence Guidance [10.457759140533168]
本研究では,一貫した時間的流れを伴うビデオ間翻訳において,事前学習した画像拡散モデルを用いた効率よく効果的な方法であるMeDMを提案する。
我々は、生成したフレームの物理的制約を強制し、独立したフレーム単位のスコアを仲介する実用的な符号化を構築するために、明示的な光学フローを用いる。
論文 参考訳(メタデータ) (2023-08-19T17:59:12Z) - RIGID: Recurrent GAN Inversion and Editing of Real Face Videos [73.97520691413006]
GANのインバージョンは、実画像に強力な編集可能性を適用するのに不可欠である。
既存のビデオフレームを個別に反転させる手法は、時間の経過とともに望ましくない一貫性のない結果をもたらすことが多い。
我々は、textbfRecurrent vtextbfIdeo textbfGAN textbfInversion and etextbfDiting (RIGID) という統合されたリカレントフレームワークを提案する。
本フレームワークは,入力フレーム間の固有コヒーレンスをエンドツーエンドで学習する。
論文 参考訳(メタデータ) (2023-08-11T12:17:24Z) - Towards Consistent Video Editing with Text-to-Image Diffusion Models [10.340371518799444]
既存の作品には、ビデオ編集のための高度なテキスト・ツー・イメージ(TTI)拡散モデルがある。
これらの手法は、テキストプロンプトと時間的シーケンスとの不満足な一貫性の結果を生み出す可能性がある。
我々は,textbfEnhancing vtextbfIdeo textbfEditing constextbfIstency of TTI-based frameworkを提案する。
論文 参考訳(メタデータ) (2023-05-27T10:03:36Z) - Can SAM Boost Video Super-Resolution? [78.29033914169025]
単純な有効モジュールであるSAM-guidEd refinEment Module (SEEM)を提案する。
この軽量プラグインモジュールは、セマンティック・アウェア機能の生成にアテンションメカニズムを活用するように設計されている。
我々はSEEMをEDVRとBasicVSRの2つの代表的手法に適用し、最小限の実装労力で継続的に性能を向上する。
論文 参考訳(メタデータ) (2023-05-11T02:02:53Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - Temporal Transductive Inference for Few-Shot Video Object Segmentation [27.140141181513425]
Few-shot Object segmentation (FS-VOS) は、初期訓練中に見えないクラスのラベル付き例を用いて、ビデオフレームのセグメンテーションを目的としている。
我々のアプローチの鍵は、グローバルな時間的制約とローカルな時間的制約の両方を使用することである。
経験的に、我々のモデルは、YouTube-VIS上の組合間の平均交点を2.8%上回る、最先端のメタラーニングアプローチより優れている。
論文 参考訳(メタデータ) (2022-03-27T14:08:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。