論文の概要: EvaNet: Towards More Efficient and Consistent Infrared and Visible Image Fusion Assessment
- arxiv url: http://arxiv.org/abs/2604.02896v1
- Date: Fri, 03 Apr 2026 09:12:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 17:20:24.422438
- Title: EvaNet: Towards More Efficient and Consistent Infrared and Visible Image Fusion Assessment
- Title(参考訳): EvaNet: より効率的で一貫性のある赤外線と可視画像の融合評価を目指す
- Authors: Chunyang Cheng, Tianyang Xu, Xiao-Jun Wu, Tao Zhou, Hui Li, Zhangyong Tang, Josef Kittler,
- Abstract要約: 画像融合研究において評価は不可欠であるが、既存の指標のほとんどは、適切な適応なしに他の視覚タスクから直接借用されている。
画像融合に適した統合評価フレームワークを提案する。
我々の学習に基づく評価パラダイムは、様々な標準画像融合ベンチマークにおいて、優れた効率(最大1000倍高速)とより優れた一貫性を提供する。
- 参考スコア(独自算出の注目度): 63.853717062482815
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluation is essential in image fusion research, yet most existing metrics are directly borrowed from other vision tasks without proper adaptation. These traditional metrics, often based on complex image transformations, not only fail to capture the true quality of the fusion results but also are computationally demanding. To address these issues, we propose a unified evaluation framework specifically tailored for image fusion. At its core is a lightweight network designed efficiently to approximate widely used metrics, following a divide-and-conquer strategy. Unlike conventional approaches that directly assess similarity between fused and source images, we first decompose the fusion result into infrared and visible components. The evaluation model is then used to measure the degree of information preservation in these separated components, effectively disentangling the fusion evaluation process. During training, we incorporate a contrastive learning strategy and inform our evaluation model by perceptual scene assessment provided by a large language model. Last, we propose the first consistency evaluation framework, which measures the alignment between image fusion metrics and human visual perception, using both independent no-reference scores and downstream tasks performance as objective references. Extensive experiments show that our learning-based evaluation paradigm delivers both superior efficiency (up to 1,000 times faster) and greater consistency across a range of standard image fusion benchmarks. Our code will be publicly available at https://github.com/AWCXV/EvaNet.
- Abstract(参考訳): 画像融合研究において評価は不可欠であるが、既存の指標のほとんどは、適切な適応なしに他の視覚タスクから直接借用されている。
これらの伝統的なメトリクスは、しばしば複雑な画像変換に基づいており、融合結果の真の品質を捉えることに失敗するだけでなく、計算的に要求される。
これらの課題に対処するため,画像融合に適した統合評価フレームワークを提案する。
コアとなるのは、ディバイド・アンド・コンカの戦略に従って、広く使用されているメトリクスを効率的に近似するように設計された軽量ネットワークである。
融合画像とソース画像の類似性を直接評価する従来の手法とは異なり、まず融合結果を赤外線と可視成分に分解する。
そして、これらの分離されたコンポーネントにおける情報保存の度合いを測定するために評価モデルを使用し、融合評価プロセスを効果的に切り離す。
学習中は、対照的な学習戦略を取り入れ、大きな言語モデルによって提供される知覚的シーンアセスメントによって評価モデルに通知する。
最後に,画像融合計測値と人間の視覚知覚との整合性を測定する第1の整合性評価フレームワークを提案する。
大規模な実験により、我々の学習に基づく評価パラダイムは、様々な標準画像融合ベンチマークにおいて、より優れた効率(最大1000倍高速)とより優れた一貫性をもたらすことが示された。
私たちのコードはhttps://github.com/AWCXV/EvaNet.comで公開されます。
関連論文リスト
- Bridging Human Evaluation to Infrared and Visible Image Fusion [54.71406895277533]
赤外線および可視画像融合(IVIF)は、シーン知覚を高めるために相補的なモダリティを統合する。
現在の手法は、主に手作りの損失と客観的なメトリクスの最適化に重点を置いており、しばしば人間の視覚的嗜好と一致しない融合結果をもたらす。
人間の評価を赤外線と可視画像の融合に橋渡しするフィードバック強化フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-04T09:23:57Z) - Holistic Evaluation for Interleaved Text-and-Image Generation [19.041251355695973]
我々はインターリーブドベンチ(InterleavedBench)について紹介する。
また、GPT-4oをベースとした強力な基準フリーメトリックであるInterleavedEvalを提案し、正確で説明可能な評価を行う。
論文 参考訳(メタデータ) (2024-06-20T18:07:19Z) - From Text to Pixels: A Context-Aware Semantic Synergy Solution for
Infrared and Visible Image Fusion [66.33467192279514]
我々は、テキスト記述から高レベルなセマンティクスを活用し、赤外線と可視画像のセマンティクスを統合するテキスト誘導多モード画像融合法を提案する。
本手法は,視覚的に優れた融合結果を生成するだけでなく,既存の手法よりも高い検出mAPを達成し,最先端の結果を得る。
論文 参考訳(メタデータ) (2023-12-31T08:13:47Z) - PAIF: Perception-Aware Infrared-Visible Image Fusion for Attack-Tolerant
Semantic Segmentation [50.556961575275345]
対向シーンにおけるセグメンテーションの堅牢性を促進するための認識認識型融合フレームワークを提案する。
我々は,先進の競争相手に比べて15.3% mIOUの利得で,ロバスト性を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2023-08-08T01:55:44Z) - A Task-guided, Implicitly-searched and Meta-initialized Deep Model for
Image Fusion [69.10255211811007]
本稿では,課題の多い現実シナリオにおいて,画像融合問題に対処するためのタスク誘導,インプリシト検索,メタ一般化(TIM)深層モデルを提案する。
具体的には、画像融合の教師なし学習プロセスを導くために、下流タスクからの情報を組み込む制約付き戦略を提案する。
このフレームワーク内に暗黙の探索スキームを設計し、高速な融合モデルのためのコンパクトなアーキテクチャを自動で発見する。
論文 参考訳(メタデータ) (2023-05-25T08:54:08Z) - Unsupervised Image Fusion Using Deep Image Priors [7.549952136964352]
Deep Image Prior (DIP)法により、画像復元が完全にトレーニングデータ無しで行えるようになった。
本稿では,画像融合を逆問題として定式化しながら,新たな損失計算構造をDIPの枠組みで紹介する。
論文 参考訳(メタデータ) (2021-10-18T17:38:35Z) - Summarize and Search: Learning Consensus-aware Dynamic Convolution for
Co-Saliency Detection [139.10628924049476]
人間は、まず、グループ全体のコンセンサス知識を要約し、その後、各画像内の対応するオブジェクトを検索することで、共相検出を行う。
以前の方法は、通常、最初のプロセスで堅牢性、スケーラビリティ、安定性を欠き、第2のプロセスでイメージ機能とコンセンサス機能を融合させる。
本稿では,新たなコンセンサスを考慮した動的畳み込みモデルを提案する。
論文 参考訳(メタデータ) (2021-10-01T12:06:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。