Fugu-MT 論文翻訳(概要): Hybrid Fusion: One-Minute Efficient Training for Zero-Shot Cross-Domain Image Fusion

論文の概要: Hybrid Fusion: One-Minute Efficient Training for Zero-Shot Cross-Domain Image Fusion

arxiv url: http://arxiv.org/abs/2602.20851v1
Date: Tue, 24 Feb 2026 12:47:53 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-25 17:34:53.749245
Title: Hybrid Fusion: One-Minute Efficient Training for Zero-Shot Cross-Domain Image Fusion
Title（参考訳）: ハイブリッド核融合:ゼロショットクロスドメイン画像融合のための1分間の効率的な訓練
Authors: Ran Zhang, Xuanhua He, Liu Liu,
Abstract要約: 画像融合は、複数のソースからの相補的な情報を単一の優れた画像に統合しようとする。ディープラーニングアプローチは最先端の結果を達成するが、重大な非効率性に悩まされる。このトレードオフを解決する新しいハイブリッドフレームワークを提案する。
参考スコア（独自算出の注目度）: 10.307387781224461
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Image fusion seeks to integrate complementary information from multiple sources into a single, superior image. While traditional methods are fast, they lack adaptability and performance. Conversely, deep learning approaches achieve state-of-the-art (SOTA) results but suffer from critical inefficiencies: their reliance on slow, resource-intensive, patch-based training introduces a significant gap with full-resolution inference. We propose a novel hybrid framework that resolves this trade-off. Our method utilizes a learnable U-Net to generate a dynamic guidance map that directs a classic, fixed Laplacian pyramid fusion kernel. This decoupling of policy learning from pixel synthesis enables remarkably efficient full-resolution training, eliminating the train-inference gap. Consequently, our model achieves SOTA-comparable performance in about one minute on a RTX 4090 or two minutes on a consumer laptop GPU from scratch without any external model and demonstrates powerful zero-shot generalization across diverse tasks, from infrared-visible to medical imaging. By design, the fused output is linearly constructed solely from source information, ensuring high faithfulness for critical applications. The codes are available at https://github.com/Zirconium233/HybridFusion
Abstract（参考訳）: 画像融合は、複数のソースからの相補的な情報を単一の優れた画像に統合しようとする。従来のメソッドは高速だが、適応性とパフォーマンスは欠如している。逆に、ディープラーニングアプローチは最先端のSOTA(State-of-the-art)結果を達成するが、重要な非効率に悩まされる。このトレードオフを解決する新しいハイブリッドフレームワークを提案する。本手法は学習可能なU-Netを用いて古典的で固定されたラプラシアピラミッド核を誘導する動的誘導マップを生成する。この画素合成からのポリシー学習の分離は、列車の干渉ギャップをなくし、極めて効率的なフルレゾリューショントレーニングを可能にする。その結果, RTX 4090で約1分, あるいは2分で, 外部モデルを使わずにGPUをスクラッチから実行し, 赤外線可視画像から医用画像まで, 多様なタスクにまたがる強力なゼロショットの一般化を実証した。設計上、融合出力はソース情報のみから線形に構築され、重要なアプリケーションに対して高い忠実性を保証する。コードはhttps://github.com/Zirconium233/HybridFusionで公開されている。

関連論文リスト

Efficient Rectified Flow for Image Fusion [48.330480065862474]
本稿では,画像融合のための1ステップの効率的な拡散モデルであるRFfusionを提案する。また,画像融合に適したタスク固有の変分オートエンコーダアーキテクチャを提案する。提案手法は,推算速度と融合品質の両方の観点から,他の最先端手法よりも優れている。
論文参考訳（メタデータ） (2025-09-20T06:21:00Z)
Distilling Textual Priors from LLM to Efficient Image Fusion [21.691878602028144]
マルチモダリティ画像融合は、複数のソース入力から単一の総合的なイメージを合成することを目的としている。 CNNやGANといった従来のアプローチは効率性を提供するが、低品質または複雑な入力を扱うのに苦労する。テキスト誘導手法の最近の進歩は、これらの制限を克服するために大きなモデル事前を利用するが、かなりの計算オーバーヘッドを犠牲にしている。そこで本研究では,モデルサイズを劇的に削減しつつ,推論中のテキストガイダンスの必要性を解消し,大規模モデル前駆体を蒸留する新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-04-09T16:44:19Z)
LinFusion: 1 GPU, 1 Minute, 16K Image [71.44735417472043]
我々は,広く普及している線形トークンミキサーの低ランク近似を導入する。蒸留したLinFusionは,元のSDと同等以上の性能を示す。 SD-v1.5、SD-v2.1、SD-XLの実験は、LinFusionが良好なゼロショットクロスレゾリューション生成を可能にすることを示した。
論文参考訳（メタデータ） (2024-09-03T17:54:39Z)
MMDRFuse: Distilled Mini-Model with Dynamic Refresh for Multi-Modality Image Fusion [32.38584862347954]
この目的を達成するために,動的リフレッシュ戦略(MMDRFuse)を用いた軽量蒸留ミニモデルを提案する。モデルパシモニーを追求するために、合計で113のトレーニング可能なパラメータ(0.44KB)を持つ非常に小さな畳み込みネットワークを得る。いくつかの公開データセットの実験により,本手法はモデル効率と複雑性の点で有望な優位性を示すことが示された。
論文参考訳（メタデータ） (2024-08-28T08:52:33Z)
You Only Sample Once: Taming One-Step Text-to-Image Synthesis by Self-Cooperative Diffusion GANs [13.133574069588896]
YOSOは、高速でスケーラブルで高忠実なワンステップ画像合成のための新しい生成モデルであり、高いトレーニング安定性とモードカバレッジを持つ。提案手法は,一段階のモデルトレーニングをスクラッチから行うことができ,競争性能が向上することを示す。特に、YOSO-PixArt-$alpha$は、512の解像度でトレーニングされた1ステップで画像を生成することができる。
論文参考訳（メタデータ） (2024-03-19T17:34:27Z)
A Task-guided, Implicitly-searched and Meta-initialized Deep Model for Image Fusion [69.10255211811007]
本稿では,課題の多い現実シナリオにおいて,画像融合問題に対処するためのタスク誘導,インプリシト検索,メタ一般化(TIM)深層モデルを提案する。具体的には、画像融合の教師なし学習プロセスを導くために、下流タスクからの情報を組み込む制約付き戦略を提案する。このフレームワーク内に暗黙の探索スキームを設計し、高速な融合モデルのためのコンパクトなアーキテクチャを自動で発見する。
論文参考訳（メタデータ） (2023-05-25T08:54:08Z)
LRRNet: A Novel Representation Learning Guided Fusion Network for Infrared and Visible Images [98.36300655482196]
我々は,融合タスクを数学的に定式化し,その最適解とそれを実装可能なネットワークアーキテクチャとの接続を確立する。特に、融合タスクに学習可能な表現アプローチを採用し、融合ネットワークアーキテクチャの構築は学習可能なモデルを生成する最適化アルゴリズムによって導かれる。この新しいネットワークアーキテクチャに基づいて、赤外線および可視光画像を融合するために、エンドツーエンドの軽量核融合ネットワークを構築する。
論文参考訳（メタデータ） (2023-04-11T12:11:23Z)
DDFM: Denoising Diffusion Model for Multi-Modality Image Fusion [144.9653045465908]
拡散確率モデル(DDPM)に基づく新しい融合アルゴリズムを提案する。近赤外可視画像融合と医用画像融合で有望な融合が得られた。
論文参考訳（メタデータ） (2023-03-13T04:06:42Z)
ProgFed: Effective, Communication, and Computation Efficient Federated Learning by Progressive Training [65.68511423300812]
本稿では,効率的なフェデレート学習のためのプログレッシブトレーニングフレームワークであるProgFedを提案する。 ProgFedは計算と双方向通信のコストを本質的に低減し、最終モデルの強力な性能を維持している。以上の結果から, ProgFed はフルモデルの標準トレーニングと同等の速度で収束することがわかった。
論文参考訳（メタデータ） (2021-10-11T14:45:00Z)
WaveFuse: A Unified Deep Framework for Image Fusion with Discrete Wavelet Transform [8.164433158925593]
従来の画像融合法とディープラーニングを組み合わせるのはこれが初めてである。提案アルゴリズムは,主観的評価と客観的評価の両方において,より良い融合性能を示す。
論文参考訳（メタデータ） (2020-07-28T10:30:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。