論文の概要: Bringing Multimodal Large Language Models to Infrared-Visible Image Fusion Quality Assessment
- arxiv url: http://arxiv.org/abs/2605.06969v1
- Date: Thu, 07 May 2026 21:38:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.6349
- Title: Bringing Multimodal Large Language Models to Infrared-Visible Image Fusion Quality Assessment
- Title(参考訳): マルチモーダル大言語モデルによる赤外線可視画像融合品質評価
- Authors: Yuchen Guo, Junli Gong, Yao Lu, Xintong Xu, Yiuming Cheung, Weifeng Su,
- Abstract要約: 赤外線可視画像融合(IVIF)は、熱情報と詳細な空間構造を単一の融合画像に統合し、知覚を高めることを目的としている。
近年のIVIF報酬モデリングの取り組みは人間の評価から学ぶが、集計されたスコアにスカラー回帰を用いる。
本稿では,MLLMを用いて人間の視覚知覚を再現し,連続的な品質スコアを生成するFuScoreを紹介する。
- 参考スコア(独自算出の注目度): 48.882448108261826
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Infrared-Visible image fusion (IVIF) aims to integrate thermal information and detailed spatial structures into a single fused image to enhance perception. However, existing evaluation approaches tend to over-optimize both hand-crafted no-reference statistics and full-reference metrics that treat the source images as pseudo ground truths. Recent IVIF reward-modelling efforts learn from human ratings but use scalar regression on aggregated scores, neither leveraging the reasoning of Multimodal Large Language Models (MLLMs) nor encoding per-image perceptual ambiguity in their supervision, but naively introducing MLLMs with discrete one-hot supervision likewise collapses fused images of similar quality into different rating levels. To address this, we introduce FuScore, which utilizes an MLLM to mimic human visual perception by producing continuous quality score, rather than discrete level predictions, enabling fine-grained discrimination among fused images of similar quality. We exploit the agreement among four IVIF-specific sub-dimensions to construct a per-image soft label whose sharpness reflects how consensual the overall judgment is. We further introduce a tripartite objective combining per-image distributional supervision, within-source-pair Thurstone fidelity for method-level ordering, and cross-source-pair Thurstone fidelity for scene-level ordering across scenes. Extensive experiments demonstrate that FuScore achieves state-of-the-art correlation with human visual preferences.
- Abstract(参考訳): 赤外線可視画像融合(IVIF)は、熱情報と詳細な空間構造を単一の融合画像に統合し、知覚を高めることを目的としている。
しかし、既存の評価手法では、手作りのノン参照統計と、ソースイメージを擬似基底真理として扱うフル参照メトリクスの両方を過度に最適化する傾向にある。
近年のIVIF報酬モデリングは、人間の評価から学習するが、多モーダル大言語モデル(MLLM)の推論や、その監督におけるイメージ毎の曖昧さの符号化を活用せず、類似品質の融合画像を異なる評価レベルに分解する。
MLLMを用いたFuscoreは、離散レベル予測ではなく、連続的な品質スコアを生成して人間の視覚知覚を模倣し、類似品質の融合画像間できめ細かな識別を可能にする。
我々は,IVIF固有の4つのサブ次元間の合意を利用して,そのシャープさが,全体的判断の一致性を反映した画像ごとのソフトラベルを構築する。
さらに,映像ごとの分布管理,メソッドレベルの順序付けのためのソース内サーストーンの忠実度,シーン間の順序付けのためのソース内サーストーンの忠実度を組み合わせた三部構成の目的についても紹介する。
大規模な実験により、FuScoreは人間の視覚的嗜好と最先端の相関を達成した。
関連論文リスト
- DiffCap-Bench: A Comprehensive, Challenging, Robust Benchmark for Image Difference Captioning [26.88130913151649]
画像差分キャプション(IDC)は、2つの画像の違いを正確に識別する言語記述を生成する。
DiffCap-Benchは10の異なるカテゴリをカバーする総合的なIDCベンチマークである。
また,人間の有意差分リストに基づくLCM-as-a-Judge評価プロトコルを提案する。
論文 参考訳(メタデータ) (2026-05-06T05:12:41Z) - Causal Disentanglement for Full-Reference Image Quality Assessment [21.96346718260435]
本稿では,因果推論と疎結合表現学習に基づく新しいFR-IQAパラダイムを提案する。
本手法は,潜在表現への介入によって導かれる因果解離過程として劣化推定を定式化する。
本手法は, 完全教師付き, ラベルなし, ラベルなしの標準IQAベンチマークにおいて, 高い競合性能を実現する。
論文 参考訳(メタデータ) (2026-04-23T13:18:13Z) - Bridging Human Evaluation to Infrared and Visible Image Fusion [54.71406895277533]
赤外線および可視画像融合(IVIF)は、シーン知覚を高めるために相補的なモダリティを統合する。
現在の手法は、主に手作りの損失と客観的なメトリクスの最適化に重点を置いており、しばしば人間の視覚的嗜好と一致しない融合結果をもたらす。
人間の評価を赤外線と可視画像の融合に橋渡しするフィードバック強化フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-04T09:23:57Z) - MMAR: Towards Lossless Multi-Modal Auto-Regressive Probabilistic Modeling [64.09238330331195]
本稿では,MMAR(Multi-Modal Auto-Regressive)確率モデルフレームワークを提案する。
離散化の手法とは異なり、MMARは情報損失を効率的に回避するために、連続的に評価された画像トークンを取り入れている。
また,数値安定性問題に対処する理論的に実証された手法と,タスク目標の生成と理解のバランスをとるトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2024-10-14T17:57:18Z) - DP-IQA: Utilizing Diffusion Prior for Blind Image Quality Assessment in the Wild [73.6767681305851]
野生のブラインド画像品質評価(IQA)は重大な課題を呈している。
大規模なトレーニングデータの収集が困難であることを考えると、厳密な一般化モデルを開発するために限られたデータを活用することは、未解決の問題である。
事前訓練されたテキスト・ツー・イメージ(T2I)拡散モデルの堅牢な画像認識能力により,新しいIQA法,拡散先行に基づくIQAを提案する。
論文 参考訳(メタデータ) (2024-05-30T12:32:35Z) - Bridging the Gap between Multi-focus and Multi-modal: A Focused
Integration Framework for Multi-modal Image Fusion [5.417493475406649]
MMIF(Multi-Modal Image fusion)は、異なるモダリティ画像からの貴重な情報を融合画像に統合する。
本稿では,協調型統合とモダリティ情報抽出のためのMMIFフレームワークを提案する。
提案アルゴリズムは、視覚知覚と定量的評価において最先端の手法を超越することができる。
論文 参考訳(メタデータ) (2023-11-03T12:58:39Z) - Paired Image-to-Image Translation Quality Assessment Using Multi-Method
Fusion [0.0]
本稿では,画像品質の信号のペア化と変換を併用して,後者の類似性と仮説的基底真理を推定する手法を提案する。
我々は,深部画像構造とテクスチャ類似性(DISTS)を予測するために,勾配型回帰器のアンサンブルを用いたマルチメソッドフュージョン(MMF)モデルを訓練した。
分析の結果,測定時間と予測精度の間にトレードオフが生じ,特徴制約を課すことが判明した。
論文 参考訳(メタデータ) (2022-05-09T11:05:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。