論文の概要: InfoScale: Unleashing Training-free Variable-scaled Image Generation via Effective Utilization of Information
- arxiv url: http://arxiv.org/abs/2509.01421v1
- Date: Mon, 01 Sep 2025 12:27:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.686006
- Title: InfoScale: Unleashing Training-free Variable-scaled Image Generation via Effective Utilization of Information
- Title(参考訳): InfoScale: 効果的な情報活用による学習不要な可変スケール画像の生成
- Authors: Guohui Zhang, Jiangtong Tan, Linjiang Huang, Zhonghang Yuan, Naishan Zheng, Jie Huang, Feng Zhao,
- Abstract要約: 拡散モデル (DM) は視覚発生において支配的になっているが, トレーニングスケールと異なる解像度で測定すると, 性能低下に悩まされている。
本稿では,変数スケール生成の統一解析におけるDMの3つの重要な側面の問題点について検討する。
- 参考スコア(独自算出の注目度): 27.871557249550083
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models (DMs) have become dominant in visual generation but suffer performance drop when tested on resolutions that differ from the training scale, whether lower or higher. In fact, the key challenge in generating variable-scale images lies in the differing amounts of information across resolutions, which requires information conversion procedures to be varied for generating variable-scaled images. In this paper, we investigate the issues of three critical aspects in DMs for a unified analysis in variable-scaled generation: dilated convolution, attention mechanisms, and initial noise. Specifically, 1) dilated convolution in DMs for the higher-resolution generation loses high-frequency information. 2) Attention for variable-scaled image generation struggles to adjust the information aggregation adaptively. 3) The spatial distribution of information in the initial noise is misaligned with variable-scaled image. To solve the above problems, we propose \textbf{InfoScale}, an information-centric framework for variable-scaled image generation by effectively utilizing information from three aspects correspondingly. For information loss in 1), we introduce Progressive Frequency Compensation module to compensate for high-frequency information lost by dilated convolution in higher-resolution generation. For information aggregation inflexibility in 2), we introduce Adaptive Information Aggregation module to adaptively aggregate information in lower-resolution generation and achieve an effective balance between local and global information in higher-resolution generation. For information distribution misalignment in 3), we design Noise Adaptation module to re-distribute information in initial noise for variable-scaled generation. Our method is plug-and-play for DMs and extensive experiments demonstrate the effectiveness in variable-scaled image generation.
- Abstract(参考訳): 拡散モデル (DM) は視覚発生において支配的になっているが, トレーニングスケールと異なる解像度で測定すると, 性能低下に悩まされる。
実際、可変スケール画像を生成する上で重要な課題は、解像度の異なる情報の量であり、可変スケール画像を生成するために情報変換手順を変更する必要がある。
本稿では, 拡張畳み込み, 注意機構, 初期雑音といった, 可変スケール生成の統一解析におけるDMの3つの重要な側面の問題点について検討する。
具体的には
1)高分解能発生のためのDMの拡張畳み込みは高周波情報を失う。
2) 可変スケール画像生成に対する注意は,情報集約を適応的に調整するのに苦労する。
3)初期雑音における情報の空間分布は可変スケールの画像と不一致である。
上記の問題を解決するために,変数スケール画像生成のための情報中心フレームワークである \textbf{InfoScale} を提案する。
1)における情報損失について,高分解能生成における拡張畳み込みにより失われる高周波情報を補償するプログレッシブ周波数補償モジュールを導入する。
2)における情報集約の柔軟性について,低解像度生成における情報を適応的に集約する適応情報集約モジュールを導入し,高解像度生成における局所情報と大域情報との効果的なバランスを実現する。
3)における情報配信ミスアライメントに対して,変数スケール生成のための初期ノイズで情報を再分割するノイズ適応モジュールを設計する。
本手法は,DMのプラグ・アンド・プレイであり,可変スケール画像生成の有効性を実験的に実証する。
関連論文リスト
- Boosting ViT-based MRI Reconstruction from the Perspectives of Frequency Modulation, Spatial Purification, and Scale Diversification [6.341065683872316]
ViTは、画像の高周波成分を捉えるのに苦労し、局所的なテクスチャやエッジ情報を検出する能力を制限する。
コンテンツ中の関連トークンと非関連トークンのうち、MSA(Multi-head self-attention)を計算する。
ViTsのフィードフォワードネットワークは、画像復元に重要なマルチスケール情報をモデル化することができない。
論文 参考訳(メタデータ) (2024-12-14T10:03:08Z) - DRCT: Saving Image Super-resolution away from Information Bottleneck [7.765333471208582]
低レベルのビジョンタスクに対するビジョントランスフォーマーベースのアプローチは、広く成功している。
空間情報の損失を軽減するため,Dense-Residual-Connected Transformer (DRCT)を提案する。
提案手法は,ベンチマークデータセットの最先端手法を超越した手法である。
論文 参考訳(メタデータ) (2024-03-31T15:34:45Z) - A Multi-scale Information Integration Framework for Infrared and Visible Image Fusion [46.545365049713105]
赤外線および可視画像融合は、ソース画像の強度と詳細情報を含む融合画像を生成することを目的としている。
既存の手法は主に損失関数の単純な重みを採用し、各モードの情報保持を決定する。
近赤外・可視画像融合のためのマルチスケールデュアルアテンション(MDA)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-07T14:40:05Z) - Mutual Information-driven Triple Interaction Network for Efficient Image
Dehazing [54.168567276280505]
画像デハージングのための相互情報駆動型トリプルインタラクションネットワーク(MITNet)を提案する。
振幅誘導ヘイズ除去と呼ばれる第1段階は、ヘイズ除去のためのヘイズ画像の振幅スペクトルを復元することを目的としている。
第2段階は位相誘導構造が洗練され、位相スペクトルの変換と微細化を学ぶことに尽力した。
論文 参考訳(メタデータ) (2023-08-14T08:23:58Z) - f-DM: A Multi-stage Diffusion Model via Progressive Signal
Transformation [56.04628143914542]
拡散モデル(DM)は、最近、様々な領域で生成モデリングを行うためのSoTAツールとして登場した。
本稿では、プログレッシブ信号変換が可能なDMの一般化されたファミリであるf-DMを提案する。
我々は、ダウンサンプリング、ぼやけ、学習された変換を含む様々な機能を持つ画像生成タスクにf-DMを適用した。
論文 参考訳(メタデータ) (2022-10-10T18:49:25Z) - Learning a Model-Driven Variational Network for Deformable Image
Registration [89.9830129923847]
VR-Netは、教師なしの変形可能な画像登録のための新しいカスケード可変ネットワークである。
登録精度において最先端のディープラーニング手法よりも優れています。
ディープラーニングの高速推論速度と変分モデルのデータ効率を維持している。
論文 参考訳(メタデータ) (2021-05-25T21:37:37Z) - Invertible Image Rescaling [118.2653765756915]
Invertible Rescaling Net (IRN) を開発した。
我々は、ダウンスケーリングプロセスにおいて、指定された分布に従う潜在変数を用いて、失われた情報の分布をキャプチャする。
論文 参考訳(メタデータ) (2020-05-12T09:55:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。