論文の概要: FRAG: Frequency Adapting Group for Diffusion Video Editing
- arxiv url: http://arxiv.org/abs/2406.06044v1
- Date: Mon, 10 Jun 2024 06:24:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-11 14:56:30.957150
- Title: FRAG: Frequency Adapting Group for Diffusion Video Editing
- Title(参考訳): FRAG:拡散ビデオ編集のための周波数適応グループ
- Authors: Sunjae Yoon, Gwanhyeong Koo, Geonwoo Kim, Chang D. Yoo,
- Abstract要約: 高周波漏れは、デノナイジング過程における高周波成分に由来することが多い。
我々は、一貫性と忠実度の観点からビデオ品質を向上させる周波数適応グループ(FRAG)を考案する。
- 参考スコア(独自算出の注目度): 20.251571476101088
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In video editing, the hallmark of a quality edit lies in its consistent and unobtrusive adjustment. Modification, when integrated, must be smooth and subtle, preserving the natural flow and aligning seamlessly with the original vision. Therefore, our primary focus is on overcoming the current challenges in high quality edit to ensure that each edit enhances the final product without disrupting its intended essence. However, quality deterioration such as blurring and flickering is routinely observed in recent diffusion video editing systems. We confirm that this deterioration often stems from high-frequency leak: the diffusion model fails to accurately synthesize high-frequency components during denoising process. To this end, we devise Frequency Adapting Group (FRAG) which enhances the video quality in terms of consistency and fidelity by introducing a novel receptive field branch to preserve high-frequency components during the denoising process. FRAG is performed in a model-agnostic manner without additional training and validates the effectiveness on video editing benchmarks (i.e., TGVE, DAVIS).
- Abstract(参考訳): ビデオ編集において、品質編集の目印は、一貫性と控えめな調整にある。
修正は、統合されると滑らかで微妙で、自然の流れを保ち、元のビジョンとシームレスに整合しなければなりません。
したがって、我々の主な焦点は、高品質な編集における現在の課題を克服することであり、各編集が意図した本質を損なうことなく最終製品を強化することを保証することである。
しかし,近年の拡散ビデオ編集システムでは,ぼかしやフリッカリングなどの品質劣化が日常的に見られる。
拡散モデルでは, ノイズ発生過程における高周波成分の正確な合成に失敗する。
そこで我々は,周波数適応群(FRAG)を考案し,高周波数成分を保存するための新しい受容野分岐を導入することにより,一貫性と忠実度の観点から映像品質を向上させる。
FRAGは、追加のトレーニングなしでモデルに依存しない方法で実行され、ビデオ編集ベンチマーク(TGVE、DAVIS)の有効性を検証する。
関連論文リスト
- Noise Calibration: Plug-and-play Content-Preserving Video Enhancement using Pre-trained Video Diffusion Models [47.518487213173785]
コンテンツの視覚的品質と一貫性の両方を考慮した新しい定式化を提案する。
コンテントの整合性は,事前学習した拡散モデルのデノナイジングプロセスを利用して視覚的品質を向上させるとともに,入力の構造を維持可能な損失関数によって保証される。
論文 参考訳(メタデータ) (2024-07-14T17:59:56Z) - Zero-Shot Video Editing through Adaptive Sliding Score Distillation [51.57440923362033]
テキストベースのビデオ生成(T2V)は、制御可能なビデオ編集の研究に再び関心を寄せている。
本研究の目的は、スコアの蒸留に基づくロバストなビデオベースの編集パラダイムを探求することである。
具体的には、T2V監視の安定性を高めるだけでなく、グローバルおよびローカルなビデオガイダンスも取り入れた適応スライディングスコア蒸留戦略を提案する。
論文 参考訳(メタデータ) (2024-06-07T12:33:59Z) - FreeDiff: Progressive Frequency Truncation for Image Editing with Diffusion Models [44.26371926512843]
我々は、プログレッシブな$textbfFre$qu$textbfe$ncy truncationを用いて、ユニバーサル編集タスクのための$textbfDiff$usionモデルのガイダンスを洗練するために、新しいフリーアプローチを導入する。
本手法は,様々な編集タスクや多様な画像に対して,最先端の手法で比較結果を得る。
論文 参考訳(メタデータ) (2024-04-18T04:47:28Z) - Freditor: High-Fidelity and Transferable NeRF Editing by Frequency Decomposition [32.74859815115775]
最近のNeRF編集パイプラインは、ぼやけた結果に悩まされながら、3Dシーンに2Dスタイリング結果を持ち上げる。
本稿では,高周波分解による高忠実かつ転写可能なNeRF編集を実現する。
論文 参考訳(メタデータ) (2024-04-03T07:07:02Z) - Upscale-A-Video: Temporal-Consistent Diffusion Model for Real-World
Video Super-Resolution [65.91317390645163]
Upscale-A-Videoは、ビデオアップスケーリングのためのテキストガイド付き遅延拡散フレームワークである。
ローカルでは、一時的なレイヤをU-NetとVAE-Decoderに統合し、短いシーケンス内で一貫性を維持する。
また、テキストプロンプトによってテクスチャ生成と調整可能なノイズレベルをガイドし、復元と生成のバランスを取ることで、柔軟性も向上する。
論文 参考訳(メタデータ) (2023-12-11T18:54:52Z) - DiffusionAtlas: High-Fidelity Consistent Diffusion Video Editing [27.014978053413788]
本稿では,拡散型ビデオ編集フレームワークであるDiffusionAtlasについて述べる。
本手法は,視覚時間拡散モデルを用いて拡散アトラス上で直接オブジェクトを編集し,フレーム間のコヒーレントなオブジェクト識別を保証する。
論文 参考訳(メタデータ) (2023-12-05T23:40:30Z) - RIGID: Recurrent GAN Inversion and Editing of Real Face Videos [73.97520691413006]
GANのインバージョンは、実画像に強力な編集可能性を適用するのに不可欠である。
既存のビデオフレームを個別に反転させる手法は、時間の経過とともに望ましくない一貫性のない結果をもたらすことが多い。
我々は、textbfRecurrent vtextbfIdeo textbfGAN textbfInversion and etextbfDiting (RIGID) という統合されたリカレントフレームワークを提案する。
本フレームワークは,入力フレーム間の固有コヒーレンスをエンドツーエンドで学習する。
論文 参考訳(メタデータ) (2023-08-11T12:17:24Z) - Edit-A-Video: Single Video Editing with Object-Aware Consistency [49.43316939996227]
本稿では,事前訓練されたTTIモデルと単一のテキスト,ビデオ>ペアのみを付与したビデオ編集フレームワークを提案する。
本フレームワークは,(1)時間モジュールチューニングを付加して2Dモデルを3Dモデルに膨らませること,(2)原動画をノイズに反転させ,対象のテキストプロンプトとアテンションマップインジェクションで編集すること,の2段階からなる。
各種のテキスト・ビデオに対して広範な実験結果を示し,背景整合性,テキストアライメント,ビデオ編集品質の点で,ベースラインに比べて提案手法の優位性を示す。
論文 参考訳(メタデータ) (2023-03-14T14:35:59Z) - Gated Recurrent Unit for Video Denoising [5.515903319513226]
本稿では,映像復号化のためのゲートリカレント・ユニット(GRU)機構に基づく新しい映像復号化モデルを提案する。
実験の結果, GRU-VDネットワークは, 客観的かつ主観的に, 高い品質が得られることがわかった。
論文 参考訳(メタデータ) (2022-10-17T14:34:54Z) - Learned Video Compression via Heterogeneous Deformable Compensation
Network [78.72508633457392]
不安定な圧縮性能の問題に対処するために,不均一変形補償戦略(HDCVC)を用いた学習ビデオ圧縮フレームワークを提案する。
より具体的には、提案アルゴリズムは隣接する2つのフレームから特徴を抽出し、コンテンツ近傍の不均一な変形(HetDeform)カーネルオフセットを推定する。
実験結果から,HDCVCは最近の最先端の学習ビデオ圧縮手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2022-07-11T02:31:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。