Fugu-MT 論文翻訳(概要): Tuning-Free Noise Rectification for High Fidelity Image-to-Video Generation

論文の概要: Tuning-Free Noise Rectification for High Fidelity Image-to-Video Generation

arxiv url: http://arxiv.org/abs/2403.02827v1
Date: Tue, 5 Mar 2024 09:57:47 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-06 15:19:42.322244
Title: Tuning-Free Noise Rectification for High Fidelity Image-to-Video Generation
Title（参考訳）: 高忠実度画像-映像生成のためのチューニング不要ノイズ整流
Authors: Weijie Li, Litong Gong, Yiran Zhu, Fanda Fan, Biao Wang, Tiezheng Ge, Bo Zheng
Abstract要約: イメージ・ツー・ビデオ(I2V)生成タスクは常に、オープンドメインで高い忠実さを維持することに苦しむ。いくつかの最近のI2Vフレームワークは、オープンドメインイメージの動的コンテンツを生成できるが、忠実さを維持できない。本稿では,主流映像拡散モデルに適用可能な効果的な手法を提案する。
参考スコア（独自算出の注目度）: 23.81997037880116
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Image-to-video (I2V) generation tasks always suffer from keeping high fidelity in the open domains. Traditional image animation techniques primarily focus on specific domains such as faces or human poses, making them difficult to generalize to open domains. Several recent I2V frameworks based on diffusion models can generate dynamic content for open domain images but fail to maintain fidelity. We found that two main factors of low fidelity are the loss of image details and the noise prediction biases during the denoising process. To this end, we propose an effective method that can be applied to mainstream video diffusion models. This method achieves high fidelity based on supplementing more precise image information and noise rectification. Specifically, given a specified image, our method first adds noise to the input image latent to keep more details, then denoises the noisy latent with proper rectification to alleviate the noise prediction biases. Our method is tuning-free and plug-and-play. The experimental results demonstrate the effectiveness of our approach in improving the fidelity of generated videos. For more image-to-video generated results, please refer to the project website: https://noise-rectification.github.io.
Abstract（参考訳）: image-to-video (i2v) 生成タスクは、常にオープンドメインにおいて高い忠実性を維持するのに苦しむ。従来の画像アニメーション技術は主に顔や人間のポーズのような特定のドメインに焦点を当てており、オープンドメインへの一般化が困難である。拡散モデルに基づく最近のi2vフレームワークは、オープンドメインイメージの動的コンテンツを生成することができるが、忠実性は維持できない。その結果,低忠実度の2つの要因は,ノイズ予測バイアスと画像詳細の損失であることがわかった。そこで本研究では,主流映像拡散モデルに適用可能な効果的な手法を提案する。より正確な画像情報とノイズ修正を補足して高忠実度を実現する。具体的には,まず入力画像にノイズを付加して詳細を把握し,ノイズ予測バイアスを軽減するために適切な補正を施した雑音を除去する。本手法はチューニングフリーとプラグアンドプレイである。実験の結果,本手法が生成ビデオの忠実性を向上させる効果を実証した。画像からビデオまでの生成結果の詳細については、プロジェクトのWebサイトを参照してほしい。

関連論文リスト

How I Warped Your Noise: a Temporally-Correlated Noise Prior for Diffusion Models [7.89220773721457]
ノイズサンプル列における時間的相関を保存するための新しい手法を提案する。 $int$-noise(積分ノイズ)は、個々のノイズサンプルを連続的に統合されたノイズフィールドとして再解釈する。 $int$-noiseは、ビデオ復元、サロゲートレンダリング、条件付きビデオ生成など、さまざまなタスクに使用できる。
論文参考訳（メタデータ） (2025-04-03T22:49:56Z)
A Noise is Worth Diffusion Guidance [36.912490607355295]
現在の拡散モデルは、ガイダンスなしで信頼できる画像を生成するのに苦労している。本稿では,誘導手法を初期雑音の1つの改善に置き換える新しい手法を提案する。我々のノイズ除去モデルは、効率的なノイズ空間学習を活用し、50Kのテキストイメージペアで高速収束と強力な性能を実現する。
論文参考訳（メタデータ） (2024-12-05T06:09:56Z)
FreeEnhance: Tuning-Free Image Enhancement via Content-Consistent Noising-and-Denoising Process [120.91393949012014]
FreeEnhanceは、既製の画像拡散モデルを用いたコンテンツ一貫性のある画像強調のためのフレームワークである。ノイズ発生段階では、FreeEnhanceは、元の画像の高頻度パターンを保存するために、より周波数の高い領域により軽いノイズを加えるように考案されている。この段階では3つの目標特性を予測された雑音の規則化の制約として提示し,高精度で視覚的品質の高い画像の強調を行う。
論文参考訳（メタデータ） (2024-09-11T17:58:50Z)
Identifying and Solving Conditional Image Leakage in Image-to-Video Diffusion Model [31.70050311326183]
拡散モデルは、予想より少ない動きでビデオを生成する傾向がある。推論とトレーニングの両方の観点からこの問題に対処します。提案手法は,より低い誤差で高い動作スコアを生成することにより,ベースラインを上回ります。
論文参考訳（メタデータ） (2024-06-22T04:56:16Z)
TRIP: Temporal Residual Learning with Image Noise Prior for Image-to-Video Diffusion Models [94.24861019513462]
TRIPは画像間拡散パラダイムの新しいレシピである。静的画像から派生した画像ノイズをピボットして、フレーム間の関係推論を共同でトリガーする。 WebVid-10M、DTDB、MSR-VTTデータセットに関する大規模な実験は、TRIPの有効性を示している。
論文参考訳（メタデータ） (2024-03-25T17:59:40Z)
Real-World Denoising via Diffusion Model [14.722529440511446]
実世界のイメージデノイングは、自然の環境で撮影されたノイズの多い画像からクリーンなイメージを復元することを目的としている。拡散モデルは画像生成の分野で非常に有望な結果を得た。本稿では,実世界の画像のデノナイズに使用可能な,新しい一般デノナイズ拡散モデルを提案する。
論文参考訳（メタデータ） (2023-05-08T04:48:03Z)
Guided Image Synthesis via Initial Image Editing in Diffusion Model [30.622943615086584]
拡散モデルでは、純粋なガウスノイズ画像から高品質な画像を生成することができる。生成した画像を制御するために初期雑音を操作する新しい方向を提案する。その結果,生成画像の制御における初期画像操作の柔軟性とパワーを強調した。
論文参考訳（メタデータ） (2023-05-05T09:27:59Z)
Masked Image Training for Generalizable Deep Image Denoising [53.03126421917465]
本稿では,デノナイジングネットワークの一般化性能を高めるための新しい手法を提案する。提案手法では,入力画像のランダムなピクセルをマスキングし,学習中に欠落した情報を再構成する。提案手法は,他のディープラーニングモデルよりも優れた一般化能力を示し,実世界のシナリオに直接適用可能である。
論文参考訳（メタデータ） (2023-03-23T09:33:44Z)
Diffusion Model for Generative Image Denoising [17.897180118637856]
画像復調のための教師あり学習では、通常、ペアのクリーンな画像とノイズの多い画像を収集し合成し、復調モデルを訓練する。本稿では,ノイズ画像に条件付けされたクリーン画像の後部分布を推定する問題として,デノナイジングタスクを考察する。
論文参考訳（メタデータ） (2023-02-05T14:53:07Z)
Uncovering the Disentanglement Capability in Text-to-Image Diffusion Models [60.63556257324894]
画像生成モデルの重要な特性は、異なる属性をアンタングルする能力である。本稿では,2つのテキスト埋め込みの混合重みをスタイルマッチングとコンテンツ保存に最適化した,シンプルで軽量な画像編集アルゴリズムを提案する。実験により,提案手法は拡散モデルに基づく画像編集アルゴリズムよりも優れた性能で,幅広い属性を修正可能であることが示された。
論文参考訳（メタデータ） (2022-12-16T19:58:52Z)
Dynamic Dual-Output Diffusion Models [100.32273175423146]
反復分解に基づく生成は、他の生成モデルのクラスに匹敵する品質を示すことが示されている。この方法の大きな欠点は、競合する結果を生み出すために数百のイテレーションが必要であることである。近年の研究では、より少ないイテレーションでより高速に生成できるソリューションが提案されているが、画像の品質は徐々に低下している。
論文参考訳（メタデータ） (2022-03-08T11:20:40Z)
Dual Adversarial Network: Toward Real-world Noise Removal and Noise Generation [52.75909685172843]
実世界の画像ノイズ除去は、コンピュータビジョンにおける長年の課題である。本稿では,ノイズ除去およびノイズ発生タスクに対処する新しい統合フレームワークを提案する。本手法はクリーンノイズ画像対の連成分布を学習する。
論文参考訳（メタデータ） (2020-07-12T09:16:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。