論文の概要: MMDRFuse: Distilled Mini-Model with Dynamic Refresh for Multi-Modality Image Fusion
- arxiv url: http://arxiv.org/abs/2408.15641v1
- Date: Wed, 28 Aug 2024 08:52:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-29 16:43:13.069975
- Title: MMDRFuse: Distilled Mini-Model with Dynamic Refresh for Multi-Modality Image Fusion
- Title(参考訳): MMDRFuse:マルチモード画像融合のための動的リフレッシュ付き蒸留ミニモデル
- Authors: Yanglin Deng, Tianyang Xu, Chunyang Cheng, Xiao-Jun Wu, Josef Kittler,
- Abstract要約: この目的を達成するために,動的リフレッシュ戦略(MMDRFuse)を用いた軽量蒸留ミニモデルを提案する。
モデルパシモニーを追求するために、合計で113のトレーニング可能なパラメータ(0.44KB)を持つ非常に小さな畳み込みネットワークを得る。
いくつかの公開データセットの実験により,本手法はモデル効率と複雑性の点で有望な優位性を示すことが示された。
- 参考スコア(独自算出の注目度): 32.38584862347954
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, Multi-Modality Image Fusion (MMIF) has been applied to many fields, which has attracted many scholars to endeavour to improve the fusion performance. However, the prevailing focus has predominantly been on the architecture design, rather than the training strategies. As a low-level vision task, image fusion is supposed to quickly deliver output images for observation and supporting downstream tasks. Thus, superfluous computational and storage overheads should be avoided. In this work, a lightweight Distilled Mini-Model with a Dynamic Refresh strategy (MMDRFuse) is proposed to achieve this objective. To pursue model parsimony, an extremely small convolutional network with a total of 113 trainable parameters (0.44 KB) is obtained by three carefully designed supervisions. First, digestible distillation is constructed by emphasising external spatial feature consistency, delivering soft supervision with balanced details and saliency for the target network. Second, we develop a comprehensive loss to balance the pixel, gradient, and perception clues from the source images. Third, an innovative dynamic refresh training strategy is used to collaborate history parameters and current supervision during training, together with an adaptive adjust function to optimise the fusion network. Extensive experiments on several public datasets demonstrate that our method exhibits promising advantages in terms of model efficiency and complexity, with superior performance in multiple image fusion tasks and downstream pedestrian detection application. The code of this work is publicly available at https://github.com/yanglinDeng/MMDRFuse.
- Abstract(参考訳): 近年,Multi-Modality Image Fusion (MMIF) が多くの分野に適用され,多くの研究者が融合性能の向上に尽力している。
しかしながら、主流となっているのは、トレーニング戦略ではなく、アーキテクチャ設計に重点を置いていることです。
低レベルの視覚タスクとして、画像融合は、下流タスクの観察とサポートのための出力イメージを迅速に提供することを目的としている。
したがって、過剰な計算とストレージのオーバーヘッドは避けるべきである。
本研究では, この目的を達成するために, 動的リフレッシュ戦略(MMDRFuse)を用いた軽量蒸留ミニモデルを提案する。
モデルパシモニーを追求するために、3つの注意深く設計された監督者によって、訓練可能なパラメータが113 KB(0.44 KB)の非常に小さな畳み込みネットワークが得られた。
第一に、消化可能な蒸留は、外部空間の特徴の整合性を強調し、標的ネットワークに対するバランスの取れた細部と塩分濃度でソフトな監視を提供することによって構築される。
第2に,画像からの画素,勾配,知覚の手がかりのバランスをとるために,包括的損失を開発する。
第3に、履歴パラメータと現在の監視を協調するために革新的な動的リフレッシュトレーニング戦略と、融合ネットワークを最適化するための適応調整関数が使用される。
提案手法は,複数の画像融合タスクや下流歩行者検出アプリケーションにおいて優れた性能を示すとともに,モデル効率と複雑性の観点から有望な優位性を示すことを示す。
この作業のコードはhttps://github.com/yanglinDeng/MMDRFuse.comで公開されている。
関連論文リスト
- DynaSeg: A Deep Dynamic Fusion Method for Unsupervised Image Segmentation Incorporating Feature Similarity and Spatial Continuity [0.5755004576310334]
我々は、革新的な教師なしイメージセグメンテーションアプローチであるDynaSegを紹介する。
従来の方法とは異なり、DynaSegは画像の特徴に柔軟に対応する動的重み付け方式を採用している。
DynaSegは、予測されたクラスタ数が1つに収束する可能性のある、過小評価の失敗を防ぐ。
論文 参考訳(メタデータ) (2024-05-09T00:30:45Z) - Efficient-3DiM: Learning a Generalizable Single-image Novel-view
Synthesizer in One Day [63.96075838322437]
シングルイメージのノベルビューシンセサイザーを学習するためのフレームワークを提案する。
当社のフレームワークは,トレーニング時間を10日以内から1日未満に短縮することが可能です。
論文 参考訳(メタデータ) (2023-10-04T17:57:07Z) - MLF-DET: Multi-Level Fusion for Cross-Modal 3D Object Detection [54.52102265418295]
MLF-DETと呼ばれる,高性能なクロスモーダル3DオブジェクトDrectionのための,新規かつ効果的なマルチレベルフュージョンネットワークを提案する。
特徴レベルの融合では、マルチスケールのボクセル特徴と画像の特徴を密集したマルチスケールのボクセル画像融合(MVI)モジュールを提示する。
本稿では,画像のセマンティクスを利用して検出候補の信頼度を補正するFCR(Feature-cued Confidence Rectification)モジュールを提案する。
論文 参考訳(メタデータ) (2023-07-18T11:26:02Z) - Flow Matching in Latent Space [2.9330609943398525]
フローマッチングは、印象的な経験的パフォーマンスを示す生成モデルをトレーニングするフレームワークである。
本稿では,事前学習されたオートエンコーダの潜時空間にフローマッチングを適用し,計算効率を向上させることを提案する。
我々の研究は、条件生成タスクのフローマッチングへの様々な条件の統合における先駆的な貢献である。
論文 参考訳(メタデータ) (2023-07-17T17:57:56Z) - A Task-guided, Implicitly-searched and Meta-initialized Deep Model for
Image Fusion [69.10255211811007]
本稿では,課題の多い現実シナリオにおいて,画像融合問題に対処するためのタスク誘導,インプリシト検索,メタ一般化(TIM)深層モデルを提案する。
具体的には、画像融合の教師なし学習プロセスを導くために、下流タスクからの情報を組み込む制約付き戦略を提案する。
このフレームワーク内に暗黙の探索スキームを設計し、高速な融合モデルのためのコンパクトなアーキテクチャを自動で発見する。
論文 参考訳(メタデータ) (2023-05-25T08:54:08Z) - Searching a Compact Architecture for Robust Multi-Exposure Image Fusion [55.37210629454589]
2つの大きなスタブリングブロックは、画素の不一致や非効率な推論など、開発を妨げる。
本研究では,高機能なマルチ露光画像融合のための自己アライメントとディテールリプレクションモジュールを取り入れたアーキテクチャ検索に基づくパラダイムを提案する。
提案手法は様々な競争方式より優れており、一般的なシナリオではPSNRが3.19%向上し、不整合シナリオでは23.5%向上した。
論文 参考訳(メタデータ) (2023-05-20T17:01:52Z) - LRRNet: A Novel Representation Learning Guided Fusion Network for
Infrared and Visible Images [98.36300655482196]
我々は,融合タスクを数学的に定式化し,その最適解とそれを実装可能なネットワークアーキテクチャとの接続を確立する。
特に、融合タスクに学習可能な表現アプローチを採用し、融合ネットワークアーキテクチャの構築は学習可能なモデルを生成する最適化アルゴリズムによって導かれる。
この新しいネットワークアーキテクチャに基づいて、赤外線および可視光画像を融合するために、エンドツーエンドの軽量核融合ネットワークを構築する。
論文 参考訳(メタデータ) (2023-04-11T12:11:23Z) - Interactive Multi-scale Fusion of 2D and 3D Features for Multi-object
Tracking [23.130490413184596]
我々は、PointNet++を導入し、ポイントクラウドのマルチスケールのディープ表現を取得し、提案したInteractive Feature Fusionに適応させる。
提案手法は,KITTIベンチマークにおいて,マルチスケールな特徴融合を使わずに優れた性能を実現し,他の手法よりも優れる。
論文 参考訳(メタデータ) (2022-03-30T13:00:27Z) - TransFuse: A Unified Transformer-based Image Fusion Framework using
Self-supervised Learning [5.849513679510834]
画像融合(英: Image fusion)とは、複数のソース画像からの情報を補完情報と統合し、単一の画像の豊かさを改善する技術である。
2段階の手法では、大規模な自然言語データセット上でエンコーダ・デコーダネットワークをトレーニングすることで、タスク固有の大量のトレーニングデータの必要性を回避する。
本稿では, ネットワークがタスク固有の特徴を学習することを奨励する, 破壊再構成に基づく自己指導型学習手法を提案する。
論文 参考訳(メタデータ) (2022-01-19T07:30:44Z) - Learning Deformable Image Registration from Optimization: Perspective,
Modules, Bilevel Training and Beyond [62.730497582218284]
マルチスケールの伝搬により微分同相モデルを最適化する,新しいディープラーニングベースのフレームワークを開発した。
我々は,脳MRIデータにおける画像-アトラス登録,肝CTデータにおける画像-画像登録を含む,3次元ボリュームデータセットにおける画像登録実験の2つのグループを実行する。
論文 参考訳(メタデータ) (2020-04-30T03:23:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。