論文の概要: FluencyVE: Marrying Temporal-Aware Mamba with Bypass Attention for Video Editing
- arxiv url: http://arxiv.org/abs/2512.21015v1
- Date: Wed, 24 Dec 2025 07:21:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-25 19:43:21.714933
- Title: FluencyVE: Marrying Temporal-Aware Mamba with Bypass Attention for Video Editing
- Title(参考訳): FluencyVE:ビデオ編集のためのバイパスアテンション付きテンポラル・アウェア・マンバ
- Authors: Mingshu Cai, Yixuan Li, Osamu Yoshie, Yuya Ieiri,
- Abstract要約: 大規模テキスト・画像拡散モデルは画像生成と編集において前例のない成功を収めた。
近年のビデオ編集作業は、ビデオタスクに時間的注意機構を加えることで、事前訓練されたテキスト・ツー・イメージモデルに適応している。
本稿では,シンプルだが効果的なワンショットビデオ編集手法であるFluencyVEを提案する。
- 参考スコア(独自算出の注目度): 18.175125648090262
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large-scale text-to-image diffusion models have achieved unprecedented success in image generation and editing. However, extending this success to video editing remains challenging. Recent video editing efforts have adapted pretrained text-to-image models by adding temporal attention mechanisms to handle video tasks. Unfortunately, these methods continue to suffer from temporal inconsistency issues and high computational overheads. In this study, we propose FluencyVE, which is a simple yet effective one-shot video editing approach. FluencyVE integrates the linear time-series module, Mamba, into a video editing model based on pretrained Stable Diffusion models, replacing the temporal attention layer. This enables global frame-level attention while reducing the computational costs. In addition, we employ low-rank approximation matrices to replace the query and key weight matrices in the causal attention, and use a weighted averaging technique during training to update the attention scores. This approach significantly preserves the generative power of the text-to-image model while effectively reducing the computational burden. Experiments and analyses demonstrate promising results in editing various attributes, subjects, and locations in real-world videos.
- Abstract(参考訳): 大規模テキスト・画像拡散モデルは画像生成と編集において前例のない成功を収めた。
しかし、この成功をビデオ編集に拡大することは依然として困難である。
近年のビデオ編集作業は、ビデオタスクに時間的注意機構を加えることで、事前訓練されたテキスト・ツー・イメージモデルに適応している。
残念ながら、これらの手法は時間的不整合の問題と高い計算オーバーヘッドに悩まされ続けている。
本研究では,シンプルだが効果的なワンショットビデオ編集手法であるFluencyVEを提案する。
FluencyVEは、線形時系列モジュールであるMambaを、事前訓練された安定拡散モデルに基づくビデオ編集モデルに統合し、時間的注意層を置き換える。
これにより、計算コストを削減しつつ、グローバルなフレームレベルの注目が可能になる。
さらに, 低ランク近似行列を用いて, 因果的注意における問合せおよび鍵重み行列を置き換えるとともに, トレーニング中に重み付き平均化手法を用いて注意点を更新する。
本手法は, テキスト・ツー・イメージ・モデルの生成能力を著しく保ちながら, 計算負担を効果的に軽減する。
実験と分析は、実世界のビデオで様々な属性、主題、場所を編集する有望な結果を示す。
関連論文リスト
- FADE: Frequency-Aware Diffusion Model Factorization for Video Editing [34.887298437323295]
FADEはトレーニングなしだが、非常に効果的なビデオ編集手法である。
本稿では,各コンポーネントの役割を最適化するための因子化戦略を提案する。
実世界のビデオ実験により,我々の手法は高品質で現実的で時間的に整合した編集結果を一貫して提供することを示した。
論文 参考訳(メタデータ) (2025-06-06T10:00:39Z) - FramePainter: Endowing Interactive Image Editing with Video Diffusion Priors [64.54220123913154]
本稿では,画像から映像への効率のよい生成問題としてFramePainterを紹介した。
軽量のスパース制御エンコーダのみを使用して編集信号を注入する。
従来の最先端の手法をはるかに少ないトレーニングデータで上回ります。
論文 参考訳(メタデータ) (2025-01-14T16:09:16Z) - Taming Rectified Flow for Inversion and Editing [57.3742655030493]
FLUXやOpenSoraのような定流拡散変換器は、画像生成やビデオ生成の分野で優れた性能を発揮している。
その堅牢な生成能力にもかかわらず、これらのモデルは不正確さに悩まされることが多い。
本研究では,修正流の逆流過程における誤差を軽減し,インバージョン精度を効果的に向上する訓練自由サンプリング器RF-rを提案する。
論文 参考訳(メタデータ) (2024-11-07T14:29:02Z) - LightningDrag: Lightning Fast and Accurate Drag-based Image Editing Emerging from Videos [101.59710862476041]
1秒で高速なドラッグベースの画像編集を可能にするLightningDragを提案する。
従来の方法とは異なり、条件生成タスクとしてドラッグベースの編集を再定義する。
提案手法は, 精度と整合性の観点から, 従来手法よりも大幅に優れる。
論文 参考訳(メタデータ) (2024-05-22T15:14:00Z) - Zero-Shot Video Editing Using Off-The-Shelf Image Diffusion Models [68.31777975873742]
ビデオ編集の最近の試みは、トレーニングに大量のテキスト・ビデオデータと計算資源を必要とする。
我々は、ゼロショットビデオ編集のためのシンプルで効果的な方法であるvid2vid-zeroを提案する。
実験と分析は、現実世界のビデオの属性、主題、場所などの編集において有望な結果を示す。
論文 参考訳(メタデータ) (2023-03-30T17:59:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。