論文の概要: DUALVISION: RGB-Infrared Multimodal Large Language Models for Robust Visual Reasoning
- arxiv url: http://arxiv.org/abs/2604.18829v1
- Date: Mon, 20 Apr 2026 20:51:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 22:41:49.484715
- Title: DUALVISION: RGB-Infrared Multimodal Large Language Models for Robust Visual Reasoning
- Title(参考訳): DUALVISION:ロバストなビジュアル推論のためのRGB赤外線マルチモーダル大言語モデル
- Authors: Abrar Majeedi, Zhiyuan Ruan, Ziyi Zhao, Hongcheng Wang, Jianglin Lu, Yin Li,
- Abstract要約: マルチモーダル大言語モデル(MLLM)は、RGB画像を用いた視覚知覚と推論タスクにおいて、優れた性能を達成している。
霧、ぼやけ、低照度などの一般的な劣化下では壊れやすい。
パッチレベルのローカライズド・クロスアテンションにより、IR-RGB情報をMLLMに効率的に組み込む軽量融合モジュールであるVISIONを提案する。
- 参考スコア(独自算出の注目度): 9.159590863386706
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Multimodal large language models (MLLMs) have achieved impressive performance on visual perception and reasoning tasks with RGB imagery, yet they remain fragile under common degradations, such as fog, blur, or low-light conditions. Infrared (IR) imaging, a well-established complement to RGB, offers inherent robustness in these conditions, but its integration into MLLMs remains underexplored. To bridge this gap, we propose DUALVISION, a lightweight fusion module that efficiently incorporates IR-RGB information into MLLMs via patch-level localized cross-attention. To support training and evaluation and to facilitate future research, we also introduce DV-204K, a dataset of ~25K publicly available aligned IR-RGB image pairs with 204K modality-specific QA annotations, and DV-500, a benchmark of 500 IR-RGB image pairs with 500 QA pairs designed for evaluating cross-modal reasoning. Leveraging these datasets, we benchmark both open- and closed-source MLLMs and demonstrate that DUALVISION delivers strong empirical performance under a wide range of visual degradations. Our code and dataset are available at https://abrarmajeedi.github.io/dualvision.
- Abstract(参考訳): MLLM(Multimodal large language model)は、RGB画像による視覚知覚や推論タスクにおいて印象的な性能を達成しているが、霧、ぼやけ、低照度といった一般的な劣化下では脆弱である。
赤外線(IR)イメージングは、RGBのよく確立された補体であり、これらの条件に固有の堅牢性をもたらすが、MLLMへの統合は未解明のままである。
このギャップを埋めるために,パッチレベルの局所的クロスアテンションを通じて,IR-RGB情報をMLLMに効率的に組み込む軽量融合モジュールであるDUALVISIONを提案する。
トレーニングと評価を支援し,今後の研究を促進するために,204Kのモダリティ特異的なQAアノテーションを備えた約25KのIR-RGBイメージペアのデータセットであるDV-204Kと,500のIR-RGBイメージペアと500のQAペアのベンチマークであるDV-500を導入する。
これらのデータセットを活用することで、オープンソースMLLMとクローズドソースMLLMの両方をベンチマークし、DUALVISIONが広範囲の視覚的劣化の下で強力な経験的パフォーマンスを提供することを示す。
私たちのコードとデータセットはhttps://abrarmajeedi.github.io/dualvision.comで公開されています。
関連論文リスト
- RGBX-R1: Visual Modality Chain-of-Thought Guided Reinforcement Learning for Multimodal Grounding [69.98331019544166]
MLLM(Multimodal Large Language Models)は主にRGBモダリティに基づいて事前訓練されている。
RGBX-R1はMLLMの知覚と推論能力を高めるためのフレームワークである。
論文 参考訳(メタデータ) (2026-01-31T04:13:57Z) - Few-Shot LoRA Adaptation of a Flow-Matching Foundation Model for Cross-Spectral Object Detection [0.726437825413781]
ビジョンの基礎モデルは、主にRGBデータに基づいて訓練されている。
多くの安全クリティカルなアプリケーションは赤外線(IR)や合成開口レーダ(SAR)のような非可視モードに依存している。
本稿では,主にRGB画像上で事前学習した単一フローマッチング基盤モデルを,クロススペクトル変換器として再利用できるかどうかを考察する。
論文 参考訳(メタデータ) (2026-01-07T20:41:26Z) - IF-Bench: Benchmarking and Enhancing MLLMs for Infrared Images with Generative Visual Prompting [32.68235981550104]
我々は、赤外線画像のマルチモーダル理解を評価するための最初の高品質なベンチマークIF-Benchを紹介する。
IF-Benchは、23の赤外線データセットから得られた499のイメージと、680の慎重にキュレートされた視覚的質問応答ペアで構成されている。
我々は、高度な画像編集モデルを利用して、赤外線画像を意味的に空間的に整合したRGBに変換する、訓練不要な生成視覚プロンプト(GenViP)手法を提案する。
論文 参考訳(メタデータ) (2025-12-10T14:01:02Z) - Rethinking Facial Expression Recognition in the Era of Multimodal Large Language Models: Benchmark, Datasets, and Beyond [116.65158801881984]
MLLMの表情推論能力の向上を目的とした後学習戦略を提案する。
We developed a unified and interpretable FER foundation model called UniFER-7B。
論文 参考訳(メタデータ) (2025-11-01T03:53:00Z) - Collaborating Vision, Depth, and Thermal Signals for Multi-Modal Tracking: Dataset and Algorithm [103.36490810025752]
既存のマルチモーダルオブジェクト追跡アプローチは、主にRGB-DepthやRGB-Thermalのようなデュアルモーダルパラダイムに焦点を当てている。
本研究は、可視RGB、深度(D)、熱赤外(TIR)を含む3つの相補的なモードを利用する、新しいマルチモーダルトラッキングタスクを導入する。
我々はRDTTrackと呼ばれる新しいマルチモーダルトラッカーを提案する。これは、事前訓練されたRGBのみのトラッカーモデルを活用することで、ロバストトラッカーのためのトリモーダル情報を統合する。
論文 参考訳(メタデータ) (2025-09-29T13:05:15Z) - RGB-Th-Bench: A Dense benchmark for Visual-Thermal Understanding of Vision Language Models [11.050867144875435]
RGB-Th-Benchは、視覚言語モデル(VLM)によるRGB-熱画像ペアの理解能力を評価するために設計された最初のベンチマークである。
我々は、19の最先端VLMに対して広範囲な評価を行い、RGB-サーマル理解における大きな性能差を明らかにした。
以上の結果から, 最強モデルでさえ熱画像の理解に苦慮し, 性能はRGBベースの能力に強く制約されていることが明らかとなった。
論文 参考訳(メタデータ) (2025-03-25T13:43:47Z) - DiffV2IR: Visible-to-Infrared Diffusion Model via Vision-Language Understanding [43.85632218045282]
DiffV2IRは、プログレッシブラーニングモジュール(PLM)と視覚言語理解モジュール(VLUM)の2つの要素からなる画像翻訳のための新しいフレームワークである。
PLMは、多段階知識学習を活用して、フルレンジからターゲット波長への赤外線遷移を実現する適応拡散モデルアーキテクチャを備えている。
VLUMにはビジョン・ランゲージ理解が組み込まれており、様々な環境条件下で、50万枚の赤外線画像を含む大きな赤外線データセットIR-500Kも収集している。
論文 参考訳(メタデータ) (2025-03-24T17:58:09Z) - DUT-LFSaliency: Versatile Dataset and Light Field-to-RGB Saliency
Detection [104.50425501764806]
ライトフィールドサリエンシー検出のための汎用性の高いアプリケーションを可能にする大規模なデータセットを紹介します。
本論文では,フォカルストリームとRGBストリームからなる非対称2ストリームモデルを提案する。
実験は、我々の焦点ストリームが最先端のパフォーマンスを達成することを実証する。
論文 参考訳(メタデータ) (2020-12-30T11:53:27Z) - Siamese Network for RGB-D Salient Object Detection and Beyond [113.30063105890041]
共有ネットワークバックボーンを通じてRGBと深度入力の両方から学習するための新しいフレームワークが提案されている。
5つの一般的な指標を用いた総合的な実験は、設計されたフレームワークが堅牢なRGB-D塩分濃度検出器をもたらすことを示している。
また、JL-DCFをRGB-Dセマンティックセマンティックセマンティクスフィールドにリンクし、いくつかのセマンティクスセマンティクスモデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2020-08-26T06:01:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。