論文の概要: One Model for ALL: Low-Level Task Interaction Is a Key to Task-Agnostic Image Fusion
- arxiv url: http://arxiv.org/abs/2502.19854v2
- Date: Sun, 09 Mar 2025 06:49:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:40:23.690495
- Title: One Model for ALL: Low-Level Task Interaction Is a Key to Task-Agnostic Image Fusion
- Title(参考訳): allの1つのモデル:タスク非依存画像融合の鍵となる低レベルタスクインタラクション
- Authors: Chunyang Cheng, Tianyang Xu, Zhenhua Feng, Xiaojun Wu, ZhangyongTang, Hui Li, Zeyang Zhang, Sara Atito, Muhammad Awais, Josef Kittler,
- Abstract要約: 本稿では,デジタル写真融合から低レベルの視覚タスクを活用することを提案する。
提案されたGIFNetは、多様な融合タスクをサポートし、単一のモデルで、目に見えるシナリオと見えないシナリオの両方で高いパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 38.16599550115468
- License:
- Abstract: Advanced image fusion methods mostly prioritise high-level missions, where task interaction struggles with semantic gaps, requiring complex bridging mechanisms. In contrast, we propose to leverage low-level vision tasks from digital photography fusion, allowing for effective feature interaction through pixel-level supervision. This new paradigm provides strong guidance for unsupervised multimodal fusion without relying on abstract semantics, enhancing task-shared feature learning for broader applicability. Owning to the hybrid image features and enhanced universal representations, the proposed GIFNet supports diverse fusion tasks, achieving high performance across both seen and unseen scenarios with a single model. Uniquely, experimental results reveal that our framework also supports single-modality enhancement, offering superior flexibility for practical applications. Our code will be available at https://github.com/AWCXV/GIFNet.
- Abstract(参考訳): 高度な画像融合法は、タスクの相互作用が意味的ギャップに悩まされ、複雑なブリッジ機構を必要とする、高レベルのミッションを優先する。
対照的に、我々はデジタル写真融合から低レベルの視覚タスクを活用することを提案し、ピクセルレベルの監視を通じて効果的な特徴相互作用を可能にする。
この新しいパラダイムは、抽象的な意味論に頼ることなく、教師なしのマルチモーダル融合のための強力なガイダンスを提供し、より広い適用性のためにタスク共有機能学習を強化する。
ハイブリッド画像機能と拡張ユニバーサル表現を所有し、提案されたGIFNetは、様々な融合タスクをサポートし、単一のモデルで見るシナリオと見えないシナリオの両方で高いパフォーマンスを達成する。
実験結果から,本フレームワークは単一モダリティ向上もサポートし,実用アプリケーションに優れた柔軟性を提供することが明らかとなった。
私たちのコードはhttps://github.com/AWCXV/GIFNetで公開されます。
関連論文リスト
- Fusion from Decomposition: A Self-Supervised Approach for Image Fusion and Beyond [74.96466744512992]
画像融合の本質は、ソース画像からの相補的な情報を統合することである。
DeFusion++は、画像融合の品質を高め、下流の高レベル視覚タスクの有効性を高める、汎用的な融合表現を生成する。
論文 参考訳(メタデータ) (2024-10-16T06:28:49Z) - Task-Customized Mixture of Adapters for General Image Fusion [51.8742437521891]
一般画像融合は、マルチソース画像から重要な情報を統合することを目的としている。
本稿では, 汎用画像融合用アダプタ(TC-MoA)を新たに提案し, 統一モデルにおける様々な融合タスクを適応的に促進する。
論文 参考訳(メタデータ) (2024-03-19T07:02:08Z) - Multi-interactive Feature Learning and a Full-time Multi-modality
Benchmark for Image Fusion and Segmentation [66.15246197473897]
多モード画像融合とセグメンテーションは、自律走行とロボット操作において重要な役割を果たす。
画像融合とtextbfSegmentation のための textbfMulti-textbfinteractive textbfFeature Learning アーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-08-04T01:03:58Z) - A Task-guided, Implicitly-searched and Meta-initialized Deep Model for
Image Fusion [69.10255211811007]
本稿では,課題の多い現実シナリオにおいて,画像融合問題に対処するためのタスク誘導,インプリシト検索,メタ一般化(TIM)深層モデルを提案する。
具体的には、画像融合の教師なし学習プロセスを導くために、下流タスクからの情報を組み込む制約付き戦略を提案する。
このフレームワーク内に暗黙の探索スキームを設計し、高速な融合モデルのためのコンパクトなアーキテクチャを自動で発見する。
論文 参考訳(メタデータ) (2023-05-25T08:54:08Z) - Bi-level Dynamic Learning for Jointly Multi-modality Image Fusion and
Beyond [50.556961575275345]
補完特性とカスケード二重タスク関連モジュールを融合する画像融合モジュールを構築した。
本研究では, 高速な1次近似により対応する勾配を計算し, 融合学習のための勾配のバランスをとるための動的重み付けアグリゲーションを提案する。
論文 参考訳(メタデータ) (2023-05-11T10:55:34Z) - Generative Modeling for Multi-task Visual Learning [40.96212750592383]
様々な視覚的認知タスクにおいて有用な共有生成モデルを学ぶという,新しい問題を考える。
本稿では,識別型マルチタスクネットワークと生成ネットワークを結合して,汎用的なマルチタスク指向生成モデリングフレームワークを提案する。
我々のフレームワークは、最先端のマルチタスクアプローチよりも一貫して優れています。
論文 参考訳(メタデータ) (2021-06-25T03:42:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。