Fugu-MT 論文翻訳(概要): FouriScale: A Frequency Perspective on Training-Free High-Resolution Image Synthesis

論文の概要: FouriScale: A Frequency Perspective on Training-Free High-Resolution Image Synthesis

arxiv url: http://arxiv.org/abs/2403.12963v1
Date: Tue, 19 Mar 2024 17:59:33 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-20 13:04:26.664719
Title: FouriScale: A Frequency Perspective on Training-Free High-Resolution Image Synthesis
Title（参考訳）: FouriScale: 学習不要高分解能画像合成における周波数視点
Authors: Linjiang Huang, Rongyao Fang, Aiping Zhang, Guanglu Song, Si Liu, Yu Liu, Hongsheng Li,
Abstract要約: 本稿では、周波数領域解析の観点から、FouriScaleの革新的な学習不要アプローチを紹介する。従来の拡散モデルの畳み込み層を,低域演算とともに拡張手法を組み込むことで置き換える。提案手法は, 生成画像の構造的整合性と忠実度をバランスさせ, 任意のサイズ, 高解像度, 高品質な生成の驚くべき能力を実現する。
参考スコア（独自算出の注目度）: 48.9652334528436
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this study, we delve into the generation of high-resolution images from pre-trained diffusion models, addressing persistent challenges, such as repetitive patterns and structural distortions, that emerge when models are applied beyond their trained resolutions. To address this issue, we introduce an innovative, training-free approach FouriScale from the perspective of frequency domain analysis. We replace the original convolutional layers in pre-trained diffusion models by incorporating a dilation technique along with a low-pass operation, intending to achieve structural consistency and scale consistency across resolutions, respectively. Further enhanced by a padding-then-crop strategy, our method can flexibly handle text-to-image generation of various aspect ratios. By using the FouriScale as guidance, our method successfully balances the structural integrity and fidelity of generated images, achieving an astonishing capacity of arbitrary-size, high-resolution, and high-quality generation. With its simplicity and compatibility, our method can provide valuable insights for future explorations into the synthesis of ultra-high-resolution images. The code will be released at https://github.com/LeonHLJ/FouriScale.
Abstract（参考訳）: 本研究では,事前学習した拡散モデルから高分解能画像を生成し,繰り返しパターンや構造歪みなどの永続的な課題に対処する。この問題に対処するために、周波数領域分析の観点から、FouriScaleの革新的でトレーニング不要なアプローチを導入する。我々は, 従来の拡散モデルにおける畳み込み層を, 低域演算とともに拡張技法を取り入れて置き換え, それぞれが分解能における構造整合性とスケール整合性を達成することを目的としている。そこで本手法では, 様々なアスペクト比のテキスト・画像生成を柔軟に行うことができる。 FouriScaleをガイダンスとして使用することにより、生成した画像の構造的整合性と忠実度をバランスさせ、任意のサイズ、高解像度、高品質な生成の驚くべき能力を達成する。本手法は,そのシンプルさと互換性により,超高解像度画像の合成における今後の探索に有用な知見を提供することができる。コードはhttps://github.com/LeonHLJ/FouriScaleでリリースされる。

関連論文リスト

One-Shot Refiner: Boosting Feed-forward Novel View Synthesis via One-Step Diffusion [57.824020826432815]
スパース画像から高忠実性ノベルビュー合成(NVS)を実現するための新しいフレームワークを提案する。 ViTバックボーンによって制限されることなく高解像度画像を処理できるデュアルドメイン詳細知覚モジュールを設計する。我々は,修復過程において高周波の詳細を保存できる特徴誘導拡散ネットワークを開発した。
論文参考訳（メタデータ） (2026-01-20T17:11:55Z)
Self-Cascaded Diffusion Models for Arbitrary-Scale Image Super-Resolution [9.322053509028832]
任意スケール画像超解像のための自己カスケード拡散フレームワークCasArbiを提案する。座標誘導残差拡散モデルにより連続画像表現の学習が可能となる。私たちの実験では、CasArbiは知覚と歪みの両方のパフォーマンス指標において、先行技術よりも優れています。
論文参考訳（メタデータ） (2025-06-09T14:43:21Z)
Boosting Generative Image Modeling via Joint Image-Feature Synthesis [10.32324138962724]
低レベル画像潜在者を共同でモデル化するために拡散モデルを活用することで、ギャップをシームレスに橋渡しする新しい生成画像モデリングフレームワークを提案する。我々の潜在セマンティック拡散アプローチは、純雑音からコヒーレントな画像-特徴対を生成することを学ぶ。複雑な蒸留目的の必要をなくすことで、我々の統一設計は訓練を単純化し、強力な新しい推論戦略である表現誘導を解き放つ。
論文参考訳（メタデータ） (2025-04-22T17:41:42Z)
Visual Autoregressive Modeling for Image Super-Resolution [14.935662351654601]
次世代の予測モデルとして, ISRフレームワークの視覚的自己回帰モデルを提案する。大規模データを収集し、ロバストな生成先行情報を得るためのトレーニングプロセスを設計する。
論文参考訳（メタデータ） (2025-01-31T09:53:47Z)
FreeScale: Unleashing the Resolution of Diffusion Models via Tuning-Free Scale Fusion [50.43304425256732]
FreeScaleは、スケール融合による高解像度のビジュアル生成を可能にする、チューニング不要な推論パラダイムである。画像モデルとビデオモデルの両方において高解像度の視覚生成機能を拡張する。
論文参考訳（メタデータ） (2024-12-12T18:59:59Z)
Oscillation Inversion: Understand the structure of Large Flow Model through the Lens of Inversion Method [60.88467353578118]
実世界のイメージを逆転させる固定点インスパイアされた反復的アプローチは収束を達成せず、異なるクラスタ間で振動することを示す。本稿では,画像強調,ストロークベースのリカラー化,および視覚的プロンプト誘導画像編集を容易にする,シンプルで高速な分布転送手法を提案する。
論文参考訳（メタデータ） (2024-11-17T17:45:37Z)
DiffuseHigh: Training-free Progressive High-Resolution Image Synthesis through Structure Guidance [11.44012694656102]
テキストから画像への拡散モデルのような大規模生成モデルは、様々な領域で広く注目を集めている。既存の大規模拡散モデルでは、最大1K解像度の画像を生成できる。本稿では,高分解能画像の生成を導くために,生成した低分解能画像を完全に活用する新しいプログレッシブアプローチを提案する。
論文参考訳（メタデータ） (2024-06-26T16:10:31Z)
Make a Cheap Scaling: A Self-Cascade Diffusion Model for Higher-Resolution Adaptation [112.08287900261898]
本稿では,高解像度画像への高速適応と映像生成のための新しい自己カスケード拡散モデルを提案する。提案手法は5Xトレーニングの高速化を実現し,さらに0.002Mのチューニングパラメータしか必要としない。実験により,提案手法は10kステップの微調整によって高速に高分解能画像やビデオ合成に適応できることを示した。
論文参考訳（メタデータ） (2024-02-16T07:48:35Z)
ScaleCrafter: Tuning-free Higher-Resolution Visual Generation with Diffusion Models [126.35334860896373]
本研究では,事前学習した拡散モデルから,トレーニング画像サイズよりもはるかに高解像度で画像を生成する能力について検討する。注意ベースや共同拡散アプローチのような、高分解能な生成のための既存の研究は、これらの問題にうまく対処できない。本稿では,推論中の畳み込み知覚場を動的に調整できる簡易かつ効果的な再拡張法を提案する。
論文参考訳（メタデータ） (2023-10-11T17:52:39Z)
Exploiting Diffusion Prior for Real-World Image Super-Resolution [75.5898357277047]
本稿では,事前学習したテキスト・画像拡散モデルにカプセル化された事前知識を視覚的超解像に活用するための新しいアプローチを提案する。時間認識エンコーダを用いることで、事前学習した合成モデルを変更することなく、有望な復元結果が得られる。
論文参考訳（メタデータ） (2023-05-11T17:55:25Z)
DELAD: Deep Landweber-guided deconvolution with Hessian and sparse prior [0.22940141855172028]
本稿では,古典的反復法をディープラーニングアプリケーションに組み込んだ非盲検画像デコンボリューションモデルを提案する。このアルゴリズムは、トレーニング可能な畳み込み層と統合され、復元された画像構造と詳細を強化する。
論文参考訳（メタデータ） (2022-09-30T11:15:03Z)
Learning End-to-End Lossy Image Compression: A Benchmark [90.35363142246806]
まず,学習した画像の圧縮方法に関する総合的な文献調査を行う。本稿では,最先端の学習画像圧縮手法のマイルストーンについて述べるとともに,既存の幅広い作品について概観し,その歴史的開発ルートについて考察する。エントロピー推定と信号再構成のための粗大な超高次モデルを導入することにより、速度歪み性能の向上を実現する。
論文参考訳（メタデータ） (2020-02-10T13:13:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。