論文の概要: Bi-level Dynamic Learning for Jointly Multi-modality Image Fusion and
Beyond
- arxiv url: http://arxiv.org/abs/2305.06720v1
- Date: Thu, 11 May 2023 10:55:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-12 15:12:41.099502
- Title: Bi-level Dynamic Learning for Jointly Multi-modality Image Fusion and
Beyond
- Title(参考訳): 連立多モード画像融合のためのバイレベル動的学習
- Authors: Zhu Liu and Jinyuan Liu and Guanyao Wu and Long Ma and Xin Fan and
Risheng Liu
- Abstract要約: 補完特性とカスケード二重タスク関連モジュールを融合する画像融合モジュールを構築した。
本研究では, 高速な1次近似により対応する勾配を計算し, 融合学習のための勾配のバランスをとるための動的重み付けアグリゲーションを提案する。
- 参考スコア(独自算出の注目度): 50.556961575275345
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, multi-modality scene perception tasks, e.g., image fusion and scene
understanding, have attracted widespread attention for intelligent vision
systems. However, early efforts always consider boosting a single task
unilaterally and neglecting others, seldom investigating their underlying
connections for joint promotion. To overcome these limitations, we establish
the hierarchical dual tasks-driven deep model to bridge these tasks.
Concretely, we firstly construct an image fusion module to fuse complementary
characteristics and cascade dual task-related modules, including a
discriminator for visual effects and a semantic network for feature
measurement. We provide a bi-level perspective to formulate image fusion and
follow-up downstream tasks. To incorporate distinct task-related responses for
image fusion, we consider image fusion as a primary goal and dual modules as
learnable constraints. Furthermore, we develop an efficient first-order
approximation to compute corresponding gradients and present dynamic weighted
aggregation to balance the gradients for fusion learning. Extensive experiments
demonstrate the superiority of our method, which not only produces visually
pleasant fused results but also realizes significant promotion for detection
and segmentation than the state-of-the-art approaches.
- Abstract(参考訳): 近年、画像融合やシーン理解といったマルチモーダルシーン認識タスクが、インテリジェントな視覚システムに広く注目を集めている。
しかし、初期の取り組みは常に一方的なタスクを一方的に強化し、他のタスクを無視することを考慮し、共同プロモーションの基盤となるコネクションを調査することはほとんどなかった。
これらの制約を克服するために、これらのタスクをブリッジする階層的なデュアルタスク駆動のディープモデルを確立する。
具体的には,視覚効果の判別器や特徴量計測のセマンティックネットワークを含む,補完特性とカスケード二重タスク関連モジュールを融合する画像融合モジュールを構築する。
我々は、画像融合とフォローアップ下流タスクを定式化するバイレベル視点を提供する。
画像融合に異なるタスク関連応答を組み込むため,画像融合を第一目標とし,二重モジュールを学習可能な制約と考える。
さらに, 対応する勾配を計算するための効率的な一階近似法を開発し, 融合学習のための勾配のバランスをとるために動的重み付けアグリゲーションを提示する。
広汎な実験により,視覚的に快く融合した結果が得られるだけでなく,検出とセグメンテーションが最先端の手法よりも顕著に促進されることを示す。
関連論文リスト
- IVGF: The Fusion-Guided Infrared and Visible General Framework [41.07925395888705]
赤外および可視の両モードタスクは、相補的な情報を融合することで、極端な場面でも堅牢なパフォーマンスを達成することができる。
我々は、多くの高レベル視覚タスクに容易に拡張可能な、統合誘導型赤外線可視光一般フレームワークIVGFを提案する。
論文 参考訳(メタデータ) (2024-09-02T06:38:37Z) - Dual-modal Prior Semantic Guided Infrared and Visible Image Fusion for Intelligent Transportation System [22.331591533400402]
インテリジェントトランスポートシステム(ITS)における赤外線および可視画像融合(IVF)の役割
本稿では,2つのモーダリティ戦略に基づく先行的意味誘導画像融合法を提案する。
論文 参考訳(メタデータ) (2024-03-24T16:41:50Z) - From Text to Pixels: A Context-Aware Semantic Synergy Solution for
Infrared and Visible Image Fusion [66.33467192279514]
我々は、テキスト記述から高レベルなセマンティクスを活用し、赤外線と可視画像のセマンティクスを統合するテキスト誘導多モード画像融合法を提案する。
本手法は,視覚的に優れた融合結果を生成するだけでなく,既存の手法よりも高い検出mAPを達成し,最先端の結果を得る。
論文 参考訳(メタデータ) (2023-12-31T08:13:47Z) - Multi-interactive Feature Learning and a Full-time Multi-modality
Benchmark for Image Fusion and Segmentation [66.15246197473897]
多モード画像融合とセグメンテーションは、自律走行とロボット操作において重要な役割を果たす。
画像融合とtextbfSegmentation のための textbfMulti-textbfinteractive textbfFeature Learning アーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-08-04T01:03:58Z) - A Task-guided, Implicitly-searched and Meta-initialized Deep Model for
Image Fusion [69.10255211811007]
本稿では,課題の多い現実シナリオにおいて,画像融合問題に対処するためのタスク誘導,インプリシト検索,メタ一般化(TIM)深層モデルを提案する。
具体的には、画像融合の教師なし学習プロセスを導くために、下流タスクからの情報を組み込む制約付き戦略を提案する。
このフレームワーク内に暗黙の探索スキームを設計し、高速な融合モデルのためのコンパクトなアーキテクチャを自動で発見する。
論文 参考訳(メタデータ) (2023-05-25T08:54:08Z) - Breaking Free from Fusion Rule: A Fully Semantic-driven Infrared and
Visible Image Fusion [51.22863068854784]
赤外線と可視画像の融合はコンピュータビジョンの分野において重要な役割を果たす。
従来のアプローチでは、損失関数の様々な融合ルールを設計する努力が続けられていた。
セマンティックガイダンスを十分に活用する意味レベル融合ネットワークを開発した。
論文 参考訳(メタデータ) (2022-11-22T13:59:59Z) - CoCoNet: Coupled Contrastive Learning Network with Multi-level Feature
Ensemble for Multi-modality Image Fusion [72.8898811120795]
我々は、赤外線と可視画像の融合を実現するために、CoCoNetと呼ばれるコントラスト学習ネットワークを提案する。
本手法は,主観的評価と客観的評価の両面において,最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2022-11-20T12:02:07Z) - Unsupervised Image Fusion Method based on Feature Mutual Mapping [16.64607158983448]
上記の問題に対処するために,教師なし適応画像融合法を提案する。
入力元画像間の画素の接続を計測するグローバルマップを構築した。
本手法は視覚的知覚と客観的評価の両方において優れた性能を実現する。
論文 参考訳(メタデータ) (2022-01-25T07:50:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。