論文の概要: Bridging Human Evaluation to Infrared and Visible Image Fusion
- arxiv url: http://arxiv.org/abs/2603.03871v1
- Date: Wed, 04 Mar 2026 09:23:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-05 21:29:15.248608
- Title: Bridging Human Evaluation to Infrared and Visible Image Fusion
- Title(参考訳): 赤外線・可視画像融合による人体評価
- Authors: Jinyuan Liu, Xingyuan Li, Qingyun Mei, Haoyuan Xu, Zhiying Jiang, Long Ma, Risheng Liu, Xin Fan,
- Abstract要約: 赤外線および可視画像融合(IVIF)は、シーン知覚を高めるために相補的なモダリティを統合する。
現在の手法は、主に手作りの損失と客観的なメトリクスの最適化に重点を置いており、しばしば人間の視覚的嗜好と一致しない融合結果をもたらす。
人間の評価を赤外線と可視画像の融合に橋渡しするフィードバック強化フレームワークを提案する。
- 参考スコア(独自算出の注目度): 54.71406895277533
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Infrared and visible image fusion (IVIF) integrates complementary modalities to enhance scene perception. Current methods predominantly focus on optimizing handcrafted losses and objective metrics, often resulting in fusion outcomes that do not align with human visual preferences. This challenge is further exacerbated by the ill-posed nature of IVIF, which severely limits its effectiveness in human perceptual environments such as security surveillance and driver assistance systems. To address these limitations, we propose a feedback reinforcement framework that bridges human evaluation to infrared and visible image fusion. To address the lack of human-centric evaluation metrics and data, we introduce the first large-scale human feedback dataset for IVIF, containing multidimensional subjective scores and artifact annotations, and enriched by a fine-tuned large language model with expert review. Based on this dataset, we design a domain-specific reward function and train a reward model to quantify perceptual quality. Guided by this reward, we fine-tune the fusion network through Group Relative Policy Optimization, achieving state-of-the-art performance that better aligns fused images with human aesthetics. Code is available at https://github.com/ALKA-Wind/EVAFusion.
- Abstract(参考訳): 赤外線および可視画像融合(IVIF)は、シーン知覚を高めるために相補的なモダリティを統合する。
現在の手法は、主に手作りの損失と客観的なメトリクスの最適化に重点を置いており、しばしば人間の視覚的嗜好と一致しない融合結果をもたらす。
この課題は、セキュリティ監視や運転支援システムといった人間の知覚環境において、その効果を著しく制限するIVIFの誤った性質によってさらに悪化している。
これらの制約に対処するために,人間の評価を赤外線と可視光融合に橋渡しするフィードバック強化フレームワークを提案する。
人中心評価指標とデータ不足に対処するため,多次元の主観的スコアとアーティファクトアノテーションを含むIVIFのための大規模なフィードバックデータセットを導入した。
このデータセットに基づいて、ドメイン固有の報酬関数を設計し、報酬モデルをトレーニングし、知覚品質を定量化する。
この報酬に導かれ、私たちはグループ相対政策最適化を通じて融合ネットワークを微調整し、融合した画像と人間の美学をより良く整合させる最先端のパフォーマンスを達成する。
コードはhttps://github.com/ALKA-Wind/EVAFusion.comで入手できる。
関連論文リスト
- DFVO: Learning Darkness-free Visible and Infrared Image Disentanglement and Fusion All at Once [57.15043822199561]
可視・赤外画像のアンタングル化と融合を同時に行うためのダークネスフリーネットワーク(DFVO)を提案する。
DFVOは、従来の2段階のカスケードトレーニング(エンハンスメントと融合)を置き換えるために、ケースケードマルチタスクアプローチを採用している
提案手法は,定性的および定量的評価の観点から,最先端の代替品よりも優れている。
論文 参考訳(メタデータ) (2025-05-07T15:59:45Z) - OCCO: LVM-guided Infrared and Visible Image Fusion Framework based on Object-aware and Contextual COntrastive Learning [19.22887628187884]
オブジェクト認識とコンテキスト協調学習を備えた新しいLVM誘導型融合フレームワークを提案する。
また、モダリティ差による融合画像における情報衝突を解決するために、新しい特徴相互作用融合ネットワークを設計する。
提案手法の有効性を検証し、下流視覚課題においても例外的な性能を示す。
論文 参考訳(メタデータ) (2025-03-24T12:57:23Z) - Infrared and Visible Image Fusion: From Data Compatibility to Task Adaption [65.06388526722186]
赤外線可視画像融合はコンピュータビジョンにおいて重要な課題である。
この急成長する領域に対処する、最近の包括的な調査が欠如している。
本稿では,共通学習に基づくIVIF手法の解明のための多次元フレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-18T13:17:34Z) - SSPFusion: A Semantic Structure-Preserving Approach for Infrared and Visible Image Fusion [15.513687345562499]
マルチモーダル画像融合のための意味的構造保存融合法を提案する。
本手法は, 定性評価と定量的評価の両面で, 9つの最先端手法より優れていることを示す。
論文 参考訳(メタデータ) (2023-09-26T08:13:32Z) - PAIF: Perception-Aware Infrared-Visible Image Fusion for Attack-Tolerant
Semantic Segmentation [50.556961575275345]
対向シーンにおけるセグメンテーションの堅牢性を促進するための認識認識型融合フレームワークを提案する。
我々は,先進の競争相手に比べて15.3% mIOUの利得で,ロバスト性を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2023-08-08T01:55:44Z) - CoCoNet: Coupled Contrastive Learning Network with Multi-level Feature Ensemble for Multi-modality Image Fusion [68.78897015832113]
我々は、赤外線と可視画像の融合を実現するために、CoCoNetと呼ばれるコントラスト学習ネットワークを提案する。
本手法は,主観的評価と客観的評価の両面において,最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2022-11-20T12:02:07Z) - Infrared and Visible Image Fusion via Interactive Compensatory Attention
Adversarial Learning [7.995162257955025]
本稿では, 融合バランスを改善するために, 生成的対角訓練に基づく新しいエンド・ツー・エンド・モードを提案する。
特にジェネレータでは、トリプルパスを持つマルチレベルエンコーダデコーダネットワークを構築し、赤外線および可視経路を採用し、さらなる強度と情報勾配を提供する。
さらに、二重判別器は、融合した結果とソース画像の類似した分布を特定するように設計されており、生成器はよりバランスの取れた結果を生成するように最適化されている。
論文 参考訳(メタデータ) (2022-03-29T08:28:14Z) - Contextual Fusion For Adversarial Robustness [0.0]
ディープニューラルネットワークは、通常、1つの特定の情報ストリームを処理し、様々な種類の敵の摂動に影響を受けやすいように設計されている。
そこで我々はPlaces-CNNとImagenet-CNNから並列に抽出した背景特徴と前景特徴を組み合わせた融合モデルを開発した。
グラデーションをベースとした攻撃では,フュージョンは乱れのないデータの性能を低下させることなく,分類の大幅な改善を可能にする。
論文 参考訳(メタデータ) (2020-11-18T20:13:23Z) - Appearance Consensus Driven Self-Supervised Human Mesh Recovery [67.20942777949793]
単眼画像から人間のポーズや形状を推定する自己教師付きメッシュ回復フレームワークを提案する。
標準モデルに基づく3次元ポーズ推定ベンチマークの最先端結果を得る。
その結果、色付きメッシュ予測により、ポーズや形状推定以外にも、さまざまな外観関連タスクにフレームワークの使用が開放される。
論文 参考訳(メタデータ) (2020-08-04T05:40:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。