論文の概要: LUT-Fuse: Towards Extremely Fast Infrared and Visible Image Fusion via Distillation to Learnable Look-Up Tables
- arxiv url: http://arxiv.org/abs/2509.00346v1
- Date: Sat, 30 Aug 2025 03:59:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.187628
- Title: LUT-Fuse: Towards Extremely Fast Infrared and Visible Image Fusion via Distillation to Learnable Look-Up Tables
- Title(参考訳): LUT-Fuse: 学習可能なルックアップテーブルへの蒸留による超高速赤外線・可視画像融合を目指して
- Authors: Xunpeng Yi, Yibing Zhang, Xinyu Xiang, Qinglong Yan, Han Xu, Jiayi Ma,
- Abstract要約: 赤外線と可視光の融合に関する最近の高度な研究は、主に融合性能の改善に焦点を当てている。
LUT-Fuseと呼ばれる画像融合に特化して設計された学習可能なルックアップテーブルへの蒸留による超高速核融合に向けた新しいアプローチを提案する。
- 参考スコア(独自算出の注目度): 33.062146767758705
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current advanced research on infrared and visible image fusion primarily focuses on improving fusion performance, often neglecting the applicability on real-time fusion devices. In this paper, we propose a novel approach that towards extremely fast fusion via distillation to learnable lookup tables specifically designed for image fusion, termed as LUT-Fuse. Firstly, we develop a look-up table structure that utilizing low-order approximation encoding and high-level joint contextual scene encoding, which is well-suited for multi-modal fusion. Moreover, given the lack of ground truth in multi-modal image fusion, we naturally proposed the efficient LUT distillation strategy instead of traditional quantization LUT methods. By integrating the performance of the multi-modal fusion network (MM-Net) into the MM-LUT model, our method achieves significant breakthroughs in efficiency and performance. It typically requires less than one-tenth of the time compared to the current lightweight SOTA fusion algorithms, ensuring high operational speed across various scenarios, even in low-power mobile devices. Extensive experiments validate the superiority, reliability, and stability of our fusion approach. The code is available at https://github.com/zyb5/LUT-Fuse.
- Abstract(参考訳): 赤外線と可視光融合に関する最近の先進的な研究は、主に核融合性能の改善に焦点を当てており、しばしばリアルタイム核融合デバイスへの適用性を無視している。
本稿では, LUT-Fuse と呼ばれる画像融合に特化して設計された学習可能なルックアップテーブルに対して, 蒸留による超高速核融合を実現するための新しいアプローチを提案する。
まず,マルチモーダル融合に適した低次近似エンコーディングと高レベル共同文脈シーンエンコーディングを利用するルックアップテーブル構造を開発する。
さらに,マルチモーダル画像融合における基底的真理の欠如を踏まえ,従来の量子化LUT法ではなく,効率的なLUT蒸留法を提案する。
MM-LUTモデルにMulti-modal fusion Network(MM-Net)の性能を組み込むことにより,本手法は効率と性能に大きなブレークスルーをもたらす。
通常は、現在の軽量SOTA融合アルゴリズムと比較して10分の1未満の時間を必要とし、低消費電力のモバイルデバイスでも、さまざまなシナリオで高い運用速度を保証する。
大規模な実験により、核融合アプローチの優越性、信頼性、安定性が検証された。
コードはhttps://github.com/zyb5/LUT-Fuse.comで公開されている。
関連論文リスト
- Task-Generalized Adaptive Cross-Domain Learning for Multimodal Image Fusion [15.666336202108862]
MMIF(Multimodal Image Fusion)は、個々のセンサーの限界を克服するために、様々な画像モダリティから補完的な情報を統合することを目的としている。
現在のMMIF法は、モダリティの誤り、高周波詳細破壊、タスク固有の制限といった課題に直面している。
適応型クロスドメイン・コフュージョン学習によるタスク一般化MMIFのための新しいフレームワークであるAdaSFFuseを提案する。
論文 参考訳(メタデータ) (2025-08-21T12:31:14Z) - An Intermediate Fusion ViT Enables Efficient Text-Image Alignment in Diffusion Models [18.184158874126545]
異なる融合戦略が視覚言語アライメントにどのように影響するかを検討する。
特別に設計された中間融合により、テキストと画像のアライメントが向上し、生成品質が向上する。
このモデルでは, FLOPを20%削減し, トレーニング速度を50%向上させるとともに, より高いCLIPスコアと低いFIDを実現する。
論文 参考訳(メタデータ) (2024-03-25T08:16:06Z) - A Task-guided, Implicitly-searched and Meta-initialized Deep Model for
Image Fusion [69.10255211811007]
本稿では,課題の多い現実シナリオにおいて,画像融合問題に対処するためのタスク誘導,インプリシト検索,メタ一般化(TIM)深層モデルを提案する。
具体的には、画像融合の教師なし学習プロセスを導くために、下流タスクからの情報を組み込む制約付き戦略を提案する。
このフレームワーク内に暗黙の探索スキームを設計し、高速な融合モデルのためのコンパクトなアーキテクチャを自動で発見する。
論文 参考訳(メタデータ) (2023-05-25T08:54:08Z) - LRRNet: A Novel Representation Learning Guided Fusion Network for
Infrared and Visible Images [98.36300655482196]
我々は,融合タスクを数学的に定式化し,その最適解とそれを実装可能なネットワークアーキテクチャとの接続を確立する。
特に、融合タスクに学習可能な表現アプローチを採用し、融合ネットワークアーキテクチャの構築は学習可能なモデルを生成する最適化アルゴリズムによって導かれる。
この新しいネットワークアーキテクチャに基づいて、赤外線および可視光画像を融合するために、エンドツーエンドの軽量核融合ネットワークを構築する。
論文 参考訳(メタデータ) (2023-04-11T12:11:23Z) - CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for
Multi-Modality Image Fusion [138.40422469153145]
本稿では,CDDFuse(Relationed-Driven Feature Decomposition Fusion)ネットワークを提案する。
近赤外可視画像融合や医用画像融合など,複数の融合タスクにおいてCDDFuseが有望な結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-11-26T02:40:28Z) - FusionVAE: A Deep Hierarchical Variational Autoencoder for RGB Image
Fusion [16.64908104831795]
本稿では,多くの融合タスクの基盤となるFusionVAEと呼ばれる新しい階層型変分オートエンコーダを提案する。
提案手法では,複数ノイズ,隠蔽,あるいは部分的な入力画像のみを条件とした多様な画像サンプルを生成することができる。
論文 参考訳(メタデータ) (2022-09-22T19:06:55Z) - Image Fusion Transformer [75.71025138448287]
画像融合では、異なるセンサから得られた画像を融合して、情報強化された単一の画像を生成する。
近年,画像融合のための有意義な特徴を符号化するために,最先端の手法で畳み込みニューラルネットワーク(CNN)が採用されている。
我々は,画像融合変換器 (IFT) を提案する。
論文 参考訳(メタデータ) (2021-07-19T16:42:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。