論文の概要: IF-Bench: Benchmarking and Enhancing MLLMs for Infrared Images with Generative Visual Prompting
- arxiv url: http://arxiv.org/abs/2512.09663v1
- Date: Wed, 10 Dec 2025 14:01:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-11 15:14:53.543599
- Title: IF-Bench: Benchmarking and Enhancing MLLMs for Infrared Images with Generative Visual Prompting
- Title(参考訳): IF-Bench: 生成的ビジュアルプロンプティングによる赤外線画像のベンチマークとMLLMの強化
- Authors: Tao Zhang, Yuyang Hong, Yang Xia, Kun Ding, Zeyu Zhang, Ying Wang, Shiming Xiang, Chunhong Pan,
- Abstract要約: 我々は、赤外線画像のマルチモーダル理解を評価するための最初の高品質なベンチマークIF-Benchを紹介する。
IF-Benchは、23の赤外線データセットから得られた499のイメージと、680の慎重にキュレートされた視覚的質問応答ペアで構成されている。
我々は、高度な画像編集モデルを利用して、赤外線画像を意味的に空間的に整合したRGBに変換する、訓練不要な生成視覚プロンプト(GenViP)手法を提案する。
- 参考スコア(独自算出の注目度): 32.68235981550104
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in multimodal large language models (MLLMs) have led to impressive progress across various benchmarks. However, their capability in understanding infrared images remains unexplored. To address this gap, we introduce IF-Bench, the first high-quality benchmark designed for evaluating multimodal understanding of infrared images. IF-Bench consists of 499 images sourced from 23 infrared datasets and 680 carefully curated visual question-answer pairs, covering 10 essential dimensions of image understanding. Based on this benchmark, we systematically evaluate over 40 open-source and closed-source MLLMs, employing cyclic evaluation, bilingual assessment, and hybrid judgment strategies to enhance the reliability of the results. Our analysis reveals how model scale, architecture, and inference paradigms affect infrared image comprehension, providing valuable insights for this area. Furthermore, we propose a training-free generative visual prompting (GenViP) method, which leverages advanced image editing models to translate infrared images into semantically and spatially aligned RGB counterparts, thereby mitigating domain distribution shifts. Extensive experiments demonstrate that our method consistently yields significant performance improvements across a wide range of MLLMs. The benchmark and code are available at https://github.com/casiatao/IF-Bench.
- Abstract(参考訳): MLLM(Multimodal large language model)の最近の進歩は、様々なベンチマークにおいて顕著な進歩をもたらした。
しかし、赤外線画像の理解能力は未解明のままである。
このギャップに対処するために、赤外線画像のマルチモーダル理解を評価するために設計された最初の高品質なベンチマークIF-Benchを紹介する。
IF-Benchは、23の赤外線データセットから得られた499の画像と、680の慎重にキュレートされた視覚的質問応答ペアで構成され、画像理解の10つの必須次元をカバーする。
このベンチマークに基づいて,40以上のオープンソースおよびクローズドソースMLLMを体系的に評価し,循環評価,バイリンガル評価,ハイブリッド判定戦略を用いて結果の信頼性を高める。
我々の分析では、モデルスケール、アーキテクチャ、推論パラダイムが赤外線画像の理解にどのように影響するかを明らかにし、この分野の貴重な洞察を提供する。
さらに、先進的な画像編集モデルを利用して、赤外線画像を意味的かつ空間的に整合したRGBに変換し、ドメイン分布シフトを緩和する、訓練不要な生成視覚プロンプト(GenViP)手法を提案する。
広範囲なMLLMにおいて,本手法は高い性能向上をもたらすことが実証された。
ベンチマークとコードはhttps://github.com/casiatao/IF-Bench.comで公開されている。
関連論文リスト
- DuGI-MAE: Improving Infrared Mask Autoencoders via Dual-Domain Guidance [20.484726951373602]
本稿では,MAE(DuGI-MAE)に基づくデュアルドメイン誘導赤外線基盤モデルを提案する。
まず,トークンエントロピーに基づく決定論的マスキング戦略を設計し,情報性を高めるために高エントロピートークンのみを復元する。
次に、Dual-Domain Guidance (DDG)モジュールを導入し、同時にグローバルトークンの関係をキャプチャし、赤外線画像に存在する非一様背景雑音を適応的にフィルタリングする。
Inf-590Kで事前訓練されたDuGI-MAEは、赤外線オブジェクト検出、セマンティックセグメンテーション、小さなターゲット検出など、さまざまな下流タスクにまたがる強力な一般化機能を示す
論文 参考訳(メタデータ) (2025-12-04T06:45:20Z) - SGDFuse: SAM-Guided Diffusion for High-Fidelity Infrared and Visible Image Fusion [65.80051636480836]
本稿では,Segment Anything Model(SAM)によって導かれる条件拡散モデルを提案する。
このフレームワークは2段階のプロセスで動作し、まずマルチモーダルな特徴の予備的な融合を行い、その後、拡散モデルの粗大な分極生成を駆動する条件としてセマンティックマスクを利用する。
SGDFuseは主観的評価と客観的評価の両方において最先端の性能を発揮することを示す。
論文 参考訳(メタデータ) (2025-08-07T10:58:52Z) - CoLLM: A Large Language Model for Composed Image Retrieval [76.29725148964368]
Composed Image Retrieval (CIR)は、マルチモーダルクエリに基づいた画像検索を目的とした複雑なタスクである。
本稿では,イメージキャプションペアからトリプレットをオンザフライで生成するワンストップフレームワークであるCoLLMを提案する。
我々はLarge Language Models (LLMs) を利用して参照画像の埋め込みと修正テキストを生成する。
論文 参考訳(メタデータ) (2025-03-25T17:59:50Z) - Multi-Domain Biometric Recognition using Body Embeddings [51.36007967653781]
身体埋め込みは中波長赤外線(MWIR)領域と長波長赤外線(LWIR)領域の顔埋め込みよりも優れていた。
我々は、IJB-MDFデータセット上でのベンチマーク結果を確立するために、ビジョントランスフォーマーアーキテクチャを活用している。
また, クロスエントロピーとトリプルト損失の単純な組み合わせで, VISデータにのみ事前訓練された体モデルを微調整することで, 最先端のmAPスコアが得られることを示す。
論文 参考訳(メタデータ) (2025-03-13T22:38:18Z) - Pink: Unveiling the Power of Referential Comprehension for Multi-modal
LLMs [49.88461345825586]
本稿では,MLLMの微細な画像理解能力を高めるための新しい枠組みを提案する。
本稿では,既存のデータセットのアノテーションを活用して,命令チューニングデータセットを低コストで構築する手法を提案する。
本研究では,Qwen-VLよりも5.2%精度が向上し,Kosmos-2の精度が24.7%向上したことを示す。
論文 参考訳(メタデータ) (2023-10-01T05:53:15Z) - SSPFusion: A Semantic Structure-Preserving Approach for Infrared and Visible Image Fusion [15.513687345562499]
マルチモーダル画像融合のための意味的構造保存融合法を提案する。
本手法は, 定性評価と定量的評価の両面で, 9つの最先端手法より優れていることを示す。
論文 参考訳(メタデータ) (2023-09-26T08:13:32Z) - Fusion of Infrared and Visible Images based on Spatial-Channel
Attentional Mechanism [3.388001684915793]
Infrared and visible image fusion (IVIF) の革新的アプローチであるAMFusionNetを提案する。
可視光源からのテクスチャ特徴と赤外線画像からの熱的詳細を同化することにより,包括的情報に富んだ画像を生成する。
提案手法は, 品質と量の観点から, 最先端のアルゴリズムより優れている。
論文 参考訳(メタデータ) (2023-08-25T21:05:11Z) - Multi-Scale Iterative Refinement Network for RGB-D Salient Object
Detection [7.062058947498447]
RGB画像の様々なスケールや解像度に、様々な特徴レベルの意味的ギャップがあるため、健全な視覚的手がかりが現れる。
同様のサージェントパターンは、クロスモーダルなディープイメージとマルチスケールバージョンで利用できる。
注意に基づく融合モジュール (ABF) を設計し, 相互相関に対処する。
論文 参考訳(メタデータ) (2022-01-24T10:33:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。