Fugu-MT 論文翻訳(概要): FRAG: Frequency Adapting Group for Diffusion Video Editing

論文の概要: FRAG: Frequency Adapting Group for Diffusion Video Editing

arxiv url: http://arxiv.org/abs/2406.06044v1
Date: Mon, 10 Jun 2024 06:24:19 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-11 14:56:30.957150
Title: FRAG: Frequency Adapting Group for Diffusion Video Editing
Title（参考訳）: FRAG:拡散ビデオ編集のための周波数適応グループ
Authors: Sunjae Yoon, Gwanhyeong Koo, Geonwoo Kim, Chang D. Yoo,
Abstract要約: 高周波漏れは、デノナイジング過程における高周波成分に由来することが多い。我々は、一貫性と忠実度の観点からビデオ品質を向上させる周波数適応グループ(FRAG)を考案する。
参考スコア（独自算出の注目度）: 20.251571476101088
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In video editing, the hallmark of a quality edit lies in its consistent and unobtrusive adjustment. Modification, when integrated, must be smooth and subtle, preserving the natural flow and aligning seamlessly with the original vision. Therefore, our primary focus is on overcoming the current challenges in high quality edit to ensure that each edit enhances the final product without disrupting its intended essence. However, quality deterioration such as blurring and flickering is routinely observed in recent diffusion video editing systems. We confirm that this deterioration often stems from high-frequency leak: the diffusion model fails to accurately synthesize high-frequency components during denoising process. To this end, we devise Frequency Adapting Group (FRAG) which enhances the video quality in terms of consistency and fidelity by introducing a novel receptive field branch to preserve high-frequency components during the denoising process. FRAG is performed in a model-agnostic manner without additional training and validates the effectiveness on video editing benchmarks (i.e., TGVE, DAVIS).
Abstract（参考訳）: ビデオ編集において、品質編集の目印は、一貫性と控えめな調整にある。修正は、統合されると滑らかで微妙で、自然の流れを保ち、元のビジョンとシームレスに整合しなければなりません。したがって、我々の主な焦点は、高品質な編集における現在の課題を克服することであり、各編集が意図した本質を損なうことなく最終製品を強化することを保証することである。しかし,近年の拡散ビデオ編集システムでは,ぼかしやフリッカリングなどの品質劣化が日常的に見られる。拡散モデルでは, ノイズ発生過程における高周波成分の正確な合成に失敗する。そこで我々は,周波数適応群(FRAG)を考案し,高周波数成分を保存するための新しい受容野分岐を導入することにより,一貫性と忠実度の観点から映像品質を向上させる。 FRAGは、追加のトレーニングなしでモデルに依存しない方法で実行され、ビデオ編集ベンチマーク(TGVE、DAVIS)の有効性を検証する。

関連論文リスト

FADE: Frequency-Aware Diffusion Model Factorization for Video Editing [34.887298437323295]
FADEはトレーニングなしだが、非常に効果的なビデオ編集手法である。本稿では,各コンポーネントの役割を最適化するための因子化戦略を提案する。実世界のビデオ実験により,我々の手法は高品質で現実的で時間的に整合した編集結果を一貫して提供することを示した。
論文参考訳（メタデータ） (2025-06-06T10:00:39Z)
Ouroboros-Diffusion: Exploring Consistent Content Generation in Tuning-free Long Video Diffusion [116.40704026922671]
事前訓練されたテキスト・ツー・ビデオモデルに基づいて構築されたファースト・イン・ファースト・アウト(FIFO)ビデオ拡散は,近年,チューニング不要な長ビデオ生成に有効なアプローチとして浮上している。 We propose Ouroboros-Diffusion, a novel video denoising framework designed to enhance structure and content (ject) consistency。
論文参考訳（メタデータ） (2025-01-15T18:59:15Z)
MAKIMA: Tuning-free Multi-Attribute Open-domain Video Editing via Mask-Guided Attention Modulation [55.101611012677616]
拡散ベースのテキスト・トゥ・イメージ(T2I)モデルは,グローバルビデオ編集タスクにおいて顕著な結果を示した。我々は、オープンドメインビデオ編集のための事前訓練されたT2Iモデル上に構築された、チューニング不要なMAEフレームワークであるMAKIMAを紹介する。
論文参考訳（メタデータ） (2024-12-28T02:36:51Z)
Enhancing Long Video Generation Consistency without Tuning [92.1714656167712]
単一のプロンプトまたは複数のプロンプトで生成されたビデオの一貫性とコヒーレンスを高めるための課題に対処する。本稿では,時間周波数に基づく時間的注意再重み付けアルゴリズム(TiARA)を提案する。複数のプロンプトによって生成されたビデオに対しては、プロンプトのアライメントがプロンプトの品質に影響を及ぼすといった重要な要因をさらに明らかにする。提案するPromptBlendは,プロンプトを系統的に整列させるプロンプトパイプラインである。
論文参考訳（メタデータ） (2024-12-23T03:56:27Z)
Taming Rectified Flow for Inversion and Editing [57.3742655030493]
FLUXやOpenSoraのような定流拡散変換器は、画像生成やビデオ生成の分野では例外的な性能を示した。その堅牢な生成能力にもかかわらず、これらのモデルはしばしば不正確な逆転に悩まされ、画像やビデオ編集などの下流タスクにおける有効性を制限できる。本稿では,修正フローODEの解法における誤差を低減し,インバージョン精度を向上させる新しいトレーニングフリーサンプリング器RF-rを提案する。
論文参考訳（メタデータ） (2024-11-07T14:29:02Z)
DNI: Dilutional Noise Initialization for Diffusion Video Editing [22.308638156328968]
本稿では,非剛性編集を含む精密かつダイナミックな修正が可能なDNI(Dilutional Noise Initialization)フレームワークを提案する。 DNIは「ノイズ希釈」の概念を導入し、入力ビデオによって課される構造的剛性を和らげるために編集される領域の潜時雑音にさらなるノイズを加える。
論文参考訳（メタデータ） (2024-09-19T18:17:57Z)
Noise Calibration: Plug-and-play Content-Preserving Video Enhancement using Pre-trained Video Diffusion Models [47.518487213173785]
コンテンツの視覚的品質と一貫性の両方を考慮した新しい定式化を提案する。コンテントの整合性は,事前学習した拡散モデルのデノナイジングプロセスを利用して視覚的品質を向上させるとともに,入力の構造を維持可能な損失関数によって保証される。
論文参考訳（メタデータ） (2024-07-14T17:59:56Z)
Zero-Shot Video Editing through Adaptive Sliding Score Distillation [51.57440923362033]
本研究は,オリジナルビデオコンテンツの直接操作を容易にする,ビデオベースのスコア蒸留の新たなパラダイムを提案する。本稿では,グローバルとローカルの両方の動画ガイダンスを取り入れた適応スライディングスコア蒸留方式を提案する。
論文参考訳（メタデータ） (2024-06-07T12:33:59Z)
Freditor: High-Fidelity and Transferable NeRF Editing by Frequency Decomposition [32.74859815115775]
最近のNeRF編集パイプラインは、ぼやけた結果に悩まされながら、3Dシーンに2Dスタイリング結果を持ち上げる。本稿では,高周波分解による高忠実かつ転写可能なNeRF編集を実現する。
論文参考訳（メタデータ） (2024-04-03T07:07:02Z)
Upscale-A-Video: Temporal-Consistent Diffusion Model for Real-World Video Super-Resolution [65.91317390645163]
Upscale-A-Videoは、ビデオアップスケーリングのためのテキストガイド付き遅延拡散フレームワークである。ローカルでは、一時的なレイヤをU-NetとVAE-Decoderに統合し、短いシーケンス内で一貫性を維持する。また、テキストプロンプトによってテクスチャ生成と調整可能なノイズレベルをガイドし、復元と生成のバランスを取ることで、柔軟性も向上する。
論文参考訳（メタデータ） (2023-12-11T18:54:52Z)
Edit-A-Video: Single Video Editing with Object-Aware Consistency [49.43316939996227]
本稿では,事前訓練されたTTIモデルと単一のテキスト,ビデオ>ペアのみを付与したビデオ編集フレームワークを提案する。本フレームワークは,(1)時間モジュールチューニングを付加して2Dモデルを3Dモデルに膨らませること,(2)原動画をノイズに反転させ,対象のテキストプロンプトとアテンションマップインジェクションで編集すること,の2段階からなる。各種のテキスト・ビデオに対して広範な実験結果を示し,背景整合性,テキストアライメント,ビデオ編集品質の点で,ベースラインに比べて提案手法の優位性を示す。
論文参考訳（メタデータ） (2023-03-14T14:35:59Z)
Gated Recurrent Unit for Video Denoising [5.515903319513226]
本稿では,映像復号化のためのゲートリカレント・ユニット(GRU)機構に基づく新しい映像復号化モデルを提案する。実験の結果, GRU-VDネットワークは, 客観的かつ主観的に, 高い品質が得られることがわかった。
論文参考訳（メタデータ） (2022-10-17T14:34:54Z)
Learned Video Compression via Heterogeneous Deformable Compensation Network [78.72508633457392]
不安定な圧縮性能の問題に対処するために,不均一変形補償戦略(HDCVC)を用いた学習ビデオ圧縮フレームワークを提案する。より具体的には、提案アルゴリズムは隣接する2つのフレームから特徴を抽出し、コンテンツ近傍の不均一な変形(HetDeform)カーネルオフセットを推定する。実験結果から,HDCVCは最近の最先端の学習ビデオ圧縮手法よりも優れた性能を示した。
論文参考訳（メタデータ） (2022-07-11T02:31:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。