論文の概要: Fose: Fusion of One-Step Diffusion and End-to-End Network for Pansharpening
- arxiv url: http://arxiv.org/abs/2512.17202v1
- Date: Fri, 19 Dec 2025 03:28:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-22 19:25:54.233771
- Title: Fose: Fusion of One-Step Diffusion and End-to-End Network for Pansharpening
- Title(参考訳): Fose:パンシャーピングのためのワンステップ拡散とエンド・ツー・エンドネットワークの融合
- Authors: Kai Liu, Zeli Lin, Weibo Wang, Linghe Kong, Yulun Zhang,
- Abstract要約: 軽量ネットワークFoseを得るための新しい4段階トレーニング戦略を提案する。
パンシャーピング用SOTA DMの1段階蒸留を行い,50段階から1段階までの推算過程を圧縮した。
ベースラインDMと比較して7.42倍の高速化を実現し,性能も向上した。
- 参考スコア(独自算出の注目度): 38.98262335768959
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pansharpening is a significant image fusion task that fuses low-resolution multispectral images (LRMSI) and high-resolution panchromatic images (PAN) to obtain high-resolution multispectral images (HRMSI). The development of the diffusion models (DM) and the end-to-end models (E2E model) has greatly improved the frontier of pansharping. DM takes the multi-step diffusion to obtain an accurate estimation of the residual between LRMSI and HRMSI. However, the multi-step process takes large computational power and is time-consuming. As for E2E models, their performance is still limited by the lack of prior and simple structure. In this paper, we propose a novel four-stage training strategy to obtain a lightweight network Fose, which fuses one-step DM and an E2E model. We perform one-step distillation on an enhanced SOTA DM for pansharping to compress the inference process from 50 steps to only 1 step. Then we fuse the E2E model with one-step DM with lightweight ensemble blocks. Comprehensive experiments are conducted to demonstrate the significant improvement of the proposed Fose on three commonly used benchmarks. Moreover, we achieve a 7.42 speedup ratio compared to the baseline DM while achieving much better performance. The code and model are released at https://github.com/Kai-Liu001/Fose.
- Abstract(参考訳): パンシャーペンは高分解能マルチスペクトル画像(LRMSI)と高分解能パンクロマティック画像(PAN)を融合して高分解能マルチスペクトル画像(HRMSI)を得る重要な画像融合タスクである。
拡散モデル(DM)とエンドツーエンドモデル(E2E)の開発はパンシャーピングのフロンティアを大幅に改善した。
DMは多段階拡散を用いて, LRMSI と HRMSI の残差を正確に推定する。
しかし、マルチステッププロセスは計算能力が大きく、時間を要する。
E2Eモデルについては、以前の構造と単純な構造が欠如しているため、その性能は依然として制限されている。
本稿では,一段階DMとE2Eモデルを融合した軽量ネットワークFoseを実現するための,新しい4段階トレーニング戦略を提案する。
パンシャーピング用SOTA DMの1段階蒸留を行い,50段階から1段階までの推算過程を圧縮した。
次に、E2Eモデルを1ステップのDMと軽量アンサンブルブロックで融合する。
一般的な3つのベンチマークで提案したFoseの大幅な改善を示すための総合的な実験を行った。
さらに,ベースラインDMと比較して7.42の高速化率を実現し,性能も向上した。
コードとモデルはhttps://github.com/Kai-Liu001/Foseで公開されている。
関連論文リスト
- TwinFlow: Realizing One-step Generation on Large Models with Self-adversarial Flows [25.487712175353035]
1ステップ生成モデルをトレーニングするフレームワークであるTwinFlowを提案する。
本手法は,テキスト・ツー・イメージタスクにおいて1-NFEで0.83のGenEvalスコアを得る。
提案手法は,GenEval および DPG-Bench ベンチマーク上でのオリジナルの 100-NFE モデルの性能と一致する。
論文 参考訳(メタデータ) (2025-12-03T07:45:46Z) - Deep End-to-End Posterior ENergy (DEEPEN) for image recovery [12.218356507147583]
現在のエンド・ツー・エンド(E2E)とプラグ・アンド・プレイ(MAP)画像アルゴリズムは、最大後部推定(MAP)を近似するが、後部分布からのサンプリングは提供できない。
対照的に、拡散モデルがE2E方式で訓練されることは困難である。
本稿では,MAP推定とサンプリングを可能にするDeep End-to-End Posergy EN(DEE)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-21T15:50:54Z) - One Diffusion Step to Real-World Super-Resolution via Flow Trajectory Distillation [60.54811860967658]
FluxSRはフローマッチングモデルに基づく新しい一段階拡散リアルISRである。
まず,フロートラジェクトリ蒸留(FTD)を導入し,多段階のフローマッチングモデルを1段階のリアルISRに蒸留する。
第2に、画像リアリズムを改善し、生成画像の高周波アーティファクト問題に対処するために、テレビLPIPSを知覚的損失として提案する。
論文 参考訳(メタデータ) (2025-02-04T04:11:29Z) - Accelerate High-Quality Diffusion Models with Inner Loop Feedback [50.00066451431194]
内ループフィードバック (ILF) は拡散モデルの推論を高速化する新しい手法である。
ILFは、デノナイジングプロセスの将来の機能を予測するために、軽量モジュールをトレーニングする。
ILFは拡散変換器(DiT)とDiTベースのPixArt-alphaとPixArt-sigmaによるテキスト・ツー・画像生成の両方で高い性能を達成している。
論文 参考訳(メタデータ) (2025-01-22T18:59:58Z) - Diffusion Models Are Innate One-Step Generators [2.3359837623080613]
拡散モデル(DM)は優れた高品質な結果をもたらす。
DMの層は異なる時間ステップで微分活性化され、単一のステップで画像を生成する固有の能力をもたらす。
提案手法は, CIFAR-10, AFHQv2 64x64 (FID 1.23), FFHQ 64x64 (FID 0.85), ImageNet 64x64 (FID 1.16) のSOTA結果を効率よく達成する。
論文 参考訳(メタデータ) (2024-05-31T11:14:12Z) - One-Step Image Translation with Text-to-Image Models [35.0987002313882]
本稿では,新たな課題や領域に一段階拡散モデルを適用するための汎用的手法を提案する。
我々は,バニラ潜在拡散モデルの様々なモジュールを,小さなトレーニング可能な重みを持つ単一エンドツーエンドのジェネレータネットワークに統合する。
我々のモデルであるCycleGAN-Turboは、様々なシーン翻訳タスクにおいて、既存のGANベースおよび拡散ベースの手法より優れています。
論文 参考訳(メタデータ) (2024-03-18T17:59:40Z) - LDM-ISP: Enhancing Neural ISP for Low Light with Latent Diffusion Models [54.93010869546011]
本稿では,事前学習した潜伏拡散モデルを用いて,超低照度画像の高精細化のためのニューラルISPを実現することを提案する。
具体的には、RAWドメイン上で動作するために事前訓練された潜在拡散モデルを調整するために、軽量なテーミングモジュールのセットをトレーニングする。
遅延拡散モデルにおけるUNet復調と復号化の異なる役割を観察し、低照度画像強調タスクを遅延空間低周波コンテンツ生成と復号位相高周波ディテール保守に分解するきっかけとなる。
論文 参考訳(メタデータ) (2023-12-02T04:31:51Z) - ToddlerDiffusion: Interactive Structured Image Generation with Cascaded Schrödinger Bridge [63.00793292863]
ToddlerDiffusionは、RGB画像生成の複雑なタスクを、よりシンプルで解釈可能なステージに分解するための新しいアプローチである。
提案手法はToddler Diffusionと呼ばれ,それぞれが中間表現を生成する責務を担っている。
ToddlerDiffusionは、常に最先端のメソッドより優れています。
論文 参考訳(メタデータ) (2023-11-24T15:20:01Z) - DiffI2I: Efficient Diffusion Model for Image-to-Image Translation [108.82579440308267]
画像合成のためのSOTAアプローチとして拡散モデル (DM) が登場した。
DMは画像から画像への変換(I2I)タスクではうまく機能しない。
DiffI2Iは、コンパクトI2I事前抽出ネットワーク(CPEN)、動的I2Iトランス(DI2Iformer)、デノイングネットワーク(denoising network)の3つのキーコンポーネントから構成される。
論文 参考訳(メタデータ) (2023-08-26T05:18:23Z) - SnapFusion: Text-to-Image Diffusion Model on Mobile Devices within Two
Seconds [88.06788636008051]
テキストから画像への拡散モデルは、プロのアーティストや写真家の作品に匹敵する自然言語の記述から素晴らしい画像を作り出すことができる。
これらのモデルは大規模で、複雑なネットワークアーキテクチャと数十のデノベーションイテレーションを持ち、計算コストが高く、実行が遅い。
モバイル端末上でテキストから画像への拡散モデルの実行を2ドル以下でアンロックする汎用的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-06-01T17:59:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。