Fugu-MT 論文翻訳(概要): MMDRFuse: Distilled Mini-Model with Dynamic Refresh for Multi-Modality Image Fusion

論文の概要: MMDRFuse: Distilled Mini-Model with Dynamic Refresh for Multi-Modality Image Fusion

arxiv url: http://arxiv.org/abs/2408.15641v1
Date: Wed, 28 Aug 2024 08:52:33 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-29 16:43:13.069975
Title: MMDRFuse: Distilled Mini-Model with Dynamic Refresh for Multi-Modality Image Fusion
Title（参考訳）: MMDRFuse:マルチモード画像融合のための動的リフレッシュ付き蒸留ミニモデル
Authors: Yanglin Deng, Tianyang Xu, Chunyang Cheng, Xiao-Jun Wu, Josef Kittler,
Abstract要約: この目的を達成するために,動的リフレッシュ戦略(MMDRFuse)を用いた軽量蒸留ミニモデルを提案する。モデルパシモニーを追求するために、合計で113のトレーニング可能なパラメータ(0.44KB)を持つ非常に小さな畳み込みネットワークを得る。いくつかの公開データセットの実験により,本手法はモデル効率と複雑性の点で有望な優位性を示すことが示された。
参考スコア（独自算出の注目度）: 32.38584862347954
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In recent years, Multi-Modality Image Fusion (MMIF) has been applied to many fields, which has attracted many scholars to endeavour to improve the fusion performance. However, the prevailing focus has predominantly been on the architecture design, rather than the training strategies. As a low-level vision task, image fusion is supposed to quickly deliver output images for observation and supporting downstream tasks. Thus, superfluous computational and storage overheads should be avoided. In this work, a lightweight Distilled Mini-Model with a Dynamic Refresh strategy (MMDRFuse) is proposed to achieve this objective. To pursue model parsimony, an extremely small convolutional network with a total of 113 trainable parameters (0.44 KB) is obtained by three carefully designed supervisions. First, digestible distillation is constructed by emphasising external spatial feature consistency, delivering soft supervision with balanced details and saliency for the target network. Second, we develop a comprehensive loss to balance the pixel, gradient, and perception clues from the source images. Third, an innovative dynamic refresh training strategy is used to collaborate history parameters and current supervision during training, together with an adaptive adjust function to optimise the fusion network. Extensive experiments on several public datasets demonstrate that our method exhibits promising advantages in terms of model efficiency and complexity, with superior performance in multiple image fusion tasks and downstream pedestrian detection application. The code of this work is publicly available at https://github.com/yanglinDeng/MMDRFuse.
Abstract（参考訳）: 近年,Multi-Modality Image Fusion (MMIF) が多くの分野に適用され,多くの研究者が融合性能の向上に尽力している。しかしながら、主流となっているのは、トレーニング戦略ではなく、アーキテクチャ設計に重点を置いていることです。低レベルの視覚タスクとして、画像融合は、下流タスクの観察とサポートのための出力イメージを迅速に提供することを目的としている。したがって、過剰な計算とストレージのオーバーヘッドは避けるべきである。本研究では, この目的を達成するために, 動的リフレッシュ戦略(MMDRFuse)を用いた軽量蒸留ミニモデルを提案する。モデルパシモニーを追求するために、3つの注意深く設計された監督者によって、訓練可能なパラメータが113 KB(0.44 KB)の非常に小さな畳み込みネットワークが得られた。第一に、消化可能な蒸留は、外部空間の特徴の整合性を強調し、標的ネットワークに対するバランスの取れた細部と塩分濃度でソフトな監視を提供することによって構築される。第2に,画像からの画素,勾配,知覚の手がかりのバランスをとるために,包括的損失を開発する。第3に、履歴パラメータと現在の監視を協調するために革新的な動的リフレッシュトレーニング戦略と、融合ネットワークを最適化するための適応調整関数が使用される。提案手法は,複数の画像融合タスクや下流歩行者検出アプリケーションにおいて優れた性能を示すとともに,モデル効率と複雑性の観点から有望な優位性を示すことを示す。この作業のコードはhttps://github.com/yanglinDeng/MMDRFuse.comで公開されている。

関連論文リスト

Towards Unified Semantic and Controllable Image Fusion: A Diffusion Transformer Approach [99.80480649258557]
DiTFuseは命令駆動のフレームワークで、単一のモデル内でセマンティクスを意識した融合を実行する。パブリックなIVIF、MFF、MEFベンチマークの実験では、より優れた量的および質的な性能、よりシャープなテクスチャ、より優れたセマンティック保持が確認されている。
論文参考訳（メタデータ） (2025-12-08T05:04:54Z)
FusionFM: All-in-One Multi-Modal Image Fusion with Flow Matching [42.22268167379098]
我々は、画像融合をソースモーダルから融合画像分布への直接確率的輸送として定式化する。タスク毎に最も信頼性の高い擬似ラベルを選択するためにタスク認識選択関数を用いる。マルチタスクシナリオでは、弾力的な重み強化と経験的再生機構を統合し、クロスタスク性能を維持する。
論文参考訳（メタデータ） (2025-11-17T02:56:48Z)
Efficient Rectified Flow for Image Fusion [48.330480065862474]
本稿では,画像融合のための1ステップの効率的な拡散モデルであるRFfusionを提案する。また,画像融合に適したタスク固有の変分オートエンコーダアーキテクチャを提案する。提案手法は,推算速度と融合品質の両方の観点から,他の最先端手法よりも優れている。
論文参考訳（メタデータ） (2025-09-20T06:21:00Z)
PIF-Net: Ill-Posed Prior Guided Multispectral and Hyperspectral Image Fusion via Invertible Mamba and Fusion-Aware LoRA [0.16385815610837165]
マルチスペクトル・ハイパースペクトル画像融合(MHIF)の目的は、豊富なスペクトル情報と細かな空間的詳細を同時に持つ高品質な画像を生成することである。これまでの研究では、データ修正が原因で生じる不適切な性質を効果的に扱っていなかった。 PIF-Net という名前の融合フレームワークを提案し,多重スペクトル画像とハイパースペクトル画像とを効果的に融合させる。
論文参考訳（メタデータ） (2025-08-01T09:17:17Z)
An Efficient and Mixed Heterogeneous Model for Image Restoration [71.85124734060665]
現在の主流のアプローチは、CNN、Transformers、Mambasの3つのアーキテクチャパラダイムに基づいている。混合構造融合に基づく効率的で汎用的なIRモデルであるRestorMixerを提案する。
論文参考訳（メタデータ） (2025-04-15T08:19:12Z)
DynaSeg: A Deep Dynamic Fusion Method for Unsupervised Image Segmentation Incorporating Feature Similarity and Spatial Continuity [0.5755004576310334]
我々は、革新的な教師なしイメージセグメンテーションアプローチであるDynaSegを紹介する。従来の方法とは異なり、DynaSegは画像の特徴に柔軟に対応する動的重み付け方式を採用している。 DynaSegは、予測されたクラスタ数が1つに収束する可能性のある、過小評価の失敗を防ぐ。
論文参考訳（メタデータ） (2024-05-09T00:30:45Z)
FusionMamba: Dynamic Feature Enhancement for Multimodal Image Fusion with Mamba [19.761723108363796]
FusionMamba はコンピュータビジョンタスクにおいて CNN や Vision Transformers (ViT) が直面する課題を克服することを目的としている。このフレームワークは動的畳み込みとチャネルアテンション機構を統合することで、視覚的状態空間モデルMambaを改善している。実験により、FusionMambaは様々なマルチモーダル画像融合タスクや下流実験で最先端の性能を達成することが示された。
論文参考訳（メタデータ） (2024-04-15T06:37:21Z)
Efficient-3DiM: Learning a Generalizable Single-image Novel-view Synthesizer in One Day [63.96075838322437]
シングルイメージのノベルビューシンセサイザーを学習するためのフレームワークを提案する。当社のフレームワークは,トレーニング時間を10日以内から1日未満に短縮することが可能です。
論文参考訳（メタデータ） (2023-10-04T17:57:07Z)
MLF-DET: Multi-Level Fusion for Cross-Modal 3D Object Detection [54.52102265418295]
MLF-DETと呼ばれる,高性能なクロスモーダル3DオブジェクトDrectionのための,新規かつ効果的なマルチレベルフュージョンネットワークを提案する。特徴レベルの融合では、マルチスケールのボクセル特徴と画像の特徴を密集したマルチスケールのボクセル画像融合(MVI)モジュールを提示する。本稿では,画像のセマンティクスを利用して検出候補の信頼度を補正するFCR(Feature-cued Confidence Rectification)モジュールを提案する。
論文参考訳（メタデータ） (2023-07-18T11:26:02Z)
Flow Matching in Latent Space [2.9330609943398525]
フローマッチングは、印象的な経験的パフォーマンスを示す生成モデルをトレーニングするフレームワークである。本稿では,事前学習されたオートエンコーダの潜時空間にフローマッチングを適用し,計算効率を向上させることを提案する。我々の研究は、条件生成タスクのフローマッチングへの様々な条件の統合における先駆的な貢献である。
論文参考訳（メタデータ） (2023-07-17T17:57:56Z)
A Task-guided, Implicitly-searched and Meta-initialized Deep Model for Image Fusion [69.10255211811007]
本稿では,課題の多い現実シナリオにおいて,画像融合問題に対処するためのタスク誘導,インプリシト検索,メタ一般化(TIM)深層モデルを提案する。具体的には、画像融合の教師なし学習プロセスを導くために、下流タスクからの情報を組み込む制約付き戦略を提案する。このフレームワーク内に暗黙の探索スキームを設計し、高速な融合モデルのためのコンパクトなアーキテクチャを自動で発見する。
論文参考訳（メタデータ） (2023-05-25T08:54:08Z)
Searching a Compact Architecture for Robust Multi-Exposure Image Fusion [55.37210629454589]
2つの大きなスタブリングブロックは、画素の不一致や非効率な推論など、開発を妨げる。本研究では,高機能なマルチ露光画像融合のための自己アライメントとディテールリプレクションモジュールを取り入れたアーキテクチャ検索に基づくパラダイムを提案する。提案手法は様々な競争方式より優れており、一般的なシナリオではPSNRが3.19%向上し、不整合シナリオでは23.5%向上した。
論文参考訳（メタデータ） (2023-05-20T17:01:52Z)
LRRNet: A Novel Representation Learning Guided Fusion Network for Infrared and Visible Images [98.36300655482196]
我々は,融合タスクを数学的に定式化し,その最適解とそれを実装可能なネットワークアーキテクチャとの接続を確立する。特に、融合タスクに学習可能な表現アプローチを採用し、融合ネットワークアーキテクチャの構築は学習可能なモデルを生成する最適化アルゴリズムによって導かれる。この新しいネットワークアーキテクチャに基づいて、赤外線および可視光画像を融合するために、エンドツーエンドの軽量核融合ネットワークを構築する。
論文参考訳（メタデータ） (2023-04-11T12:11:23Z)
Interactive Multi-scale Fusion of 2D and 3D Features for Multi-object Tracking [23.130490413184596]
我々は、PointNet++を導入し、ポイントクラウドのマルチスケールのディープ表現を取得し、提案したInteractive Feature Fusionに適応させる。提案手法は,KITTIベンチマークにおいて,マルチスケールな特徴融合を使わずに優れた性能を実現し,他の手法よりも優れる。
論文参考訳（メタデータ） (2022-03-30T13:00:27Z)
TransFuse: A Unified Transformer-based Image Fusion Framework using Self-supervised Learning [5.849513679510834]
画像融合(英: Image fusion)とは、複数のソース画像からの情報を補完情報と統合し、単一の画像の豊かさを改善する技術である。 2段階の手法では、大規模な自然言語データセット上でエンコーダ・デコーダネットワークをトレーニングすることで、タスク固有の大量のトレーニングデータの必要性を回避する。本稿では, ネットワークがタスク固有の特徴を学習することを奨励する, 破壊再構成に基づく自己指導型学習手法を提案する。
論文参考訳（メタデータ） (2022-01-19T07:30:44Z)
Learning Deformable Image Registration from Optimization: Perspective, Modules, Bilevel Training and Beyond [62.730497582218284]
マルチスケールの伝搬により微分同相モデルを最適化する,新しいディープラーニングベースのフレームワークを開発した。我々は,脳MRIデータにおける画像-アトラス登録,肝CTデータにおける画像-画像登録を含む,3次元ボリュームデータセットにおける画像登録実験の2つのグループを実行する。
論文参考訳（メタデータ） (2020-04-30T03:23:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。