論文の概要: RGB-Th-Bench: A Dense benchmark for Visual-Thermal Understanding of Vision Language Models
- arxiv url: http://arxiv.org/abs/2503.19654v1
- Date: Tue, 25 Mar 2025 13:43:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-26 16:52:45.039773
- Title: RGB-Th-Bench: A Dense benchmark for Visual-Thermal Understanding of Vision Language Models
- Title(参考訳): RGB-Th-Bench:視覚言語モデルの視覚熱理解のための複雑なベンチマーク
- Authors: Mehdi Moshtaghi, Siavash H. Khajavi, Joni Pajarinen,
- Abstract要約: RGB-Th-Benchは、視覚言語モデル(VLM)によるRGB-熱画像ペアの理解能力を評価するために設計された最初のベンチマークである。
我々は、19の最先端VLMに対して広範囲な評価を行い、RGB-サーマル理解における大きな性能差を明らかにした。
以上の結果から, 最強モデルでさえ熱画像の理解に苦慮し, 性能はRGBベースの能力に強く制約されていることが明らかとなった。
- 参考スコア(独自算出の注目度): 11.050867144875435
- License:
- Abstract: We introduce RGB-Th-Bench, the first benchmark designed to evaluate the ability of Vision-Language Models (VLMs) to comprehend RGB-Thermal image pairs. While VLMs have demonstrated remarkable progress in visual reasoning and multimodal understanding, their evaluation has been predominantly limited to RGB-based benchmarks, leaving a critical gap in assessing their capabilities in infrared vision tasks. Existing visible-infrared datasets are either task-specific or lack high-quality annotations necessary for rigorous model evaluation. To address these limitations, RGB-Th-Bench provides a comprehensive evaluation framework covering 14 distinct skill dimensions, with a total of 1,600+ expert-annotated Yes/No questions. The benchmark employs two accuracy metrics: a standard question-level accuracy and a stricter skill-level accuracy, which evaluates model robustness across multiple questions within each skill dimension. This design ensures a thorough assessment of model performance, including resilience to adversarial and hallucinated responses. We conduct extensive evaluations on 19 state-of-the-art VLMs, revealing significant performance gaps in RGB-Thermal understanding. Our results show that even the strongest models struggle with thermal image comprehension, with performance heavily constrained by their RGB-based capabilities. Additionally, the lack of large-scale application-specific and expert-annotated thermal-caption-pair datasets in pre-training is an important reason of the observed performance gap. RGB-Th-Bench highlights the urgent need for further advancements in multimodal learning to bridge the gap between visible and thermal image understanding. The dataset is available through this link, and the evaluation code will also be made publicly available.
- Abstract(参考訳): RGB-Th-Benchは、視覚言語モデル(VLM)によるRGB-熱画像ペアの理解能力を評価するために設計された最初のベンチマークである。
VLMは視覚的推論やマルチモーダル理解において顕著な進歩を見せているが、その評価は主にRGBベースのベンチマークに限られており、赤外線視覚タスクにおけるその能力を評価する上で重要なギャップを残している。
既存の可視赤外線データセットはタスク固有のものか、厳密なモデル評価に必要な高品質なアノテーションが欠如している。
これらの制限に対処するため、RGB-Th-Benchは14の異なるスキルディメンションをカバーする包括的な評価フレームワークを提供する。
このベンチマークでは、標準的な質問レベルの精度と、より厳密なスキルレベルの精度の2つの精度指標が採用されている。
この設計により、反発応答や幻覚応答に対するレジリエンスを含むモデル性能の徹底的な評価が保証される。
我々は、19の最先端VLMに対して広範囲な評価を行い、RGB-サーマル理解における大きな性能差を明らかにした。
以上の結果から, 最強モデルでさえ熱画像の理解に苦慮し, 性能はRGBベースの能力に強く制約されていることが明らかとなった。
さらに、事前トレーニングにおいて、大規模アプリケーション固有の、専門家が注釈付けしたサーマルキャプションペアデータセットが欠如していることは、観測されたパフォーマンスギャップの重要な理由である。
RGB-Th-Benchは、可視画像と熱画像の理解のギャップを埋めるために、マルチモーダル学習のさらなる進歩の必要性を強調している。
データセットはこのリンクを通じて利用可能であり、評価コードも公開されている。
関連論文リスト
- IAM: Enhancing RGB-D Instance Segmentation with New Benchmarks [4.3266254914862445]
RGB-Dセグメンテーションは、RGBのみの手法よりもリッチなシーン理解を約束する。
インスタンスレベルのRGB-Dセグメンテーションデータセットは比較的少ない。
インスタンスレベルで区別された3つのRGB-Dインスタンスセグメンテーションベンチマークを導入する。
本稿では,RGB-Dデータ統合のための簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2025-01-03T08:03:24Z) - Leveraging Color Channel Independence for Improved Unsupervised Object Detection [7.030688465389997]
コンピュータビジョンにおける教師なし学習において,RGB画像が最適な色空間であるという一般的な仮定に挑戦する。
新たなカラーチャネルの予測を行う場合には,モデルの改善が期待できる。
合成色空間の使用は、基本的に計算オーバーヘッドを伴わずに実装することができる。
論文 参考訳(メタデータ) (2024-12-19T18:28:37Z) - Diffusion-based RGB-D Semantic Segmentation with Deformable Attention Transformer [10.982521876026281]
本稿では,RGB-Dセマンティックセグメンテーション問題に対処する拡散型フレームワークを提案する。
本研究では,デフォルマブルアテンション変換器をエンコーダとして利用し,奥行き画像から特徴を抽出することにより,デフォルマブルアテンション変換器の特性を効果的に把握できることを実証する。
論文 参考訳(メタデータ) (2024-09-23T15:23:01Z) - Towards RGB-NIR Cross-modality Image Registration and Beyond [21.475871648254564]
本稿では,RGB(可視)-NIR(近赤外)クロスモダリティ画像登録の領域に着目した。
まずRGB-NIR画像登録(RGB-NIR-IRegis)ベンチマークを示す。
次に、可視画像と赤外線画像の非一貫性な局所的特徴がモデル性能に与える影響を明らかにするために、いくつかの指標を設計する。
論文 参考訳(メタデータ) (2024-05-30T10:25:50Z) - Confidence-Aware RGB-D Face Recognition via Virtual Depth Synthesis [48.59382455101753]
2D顔認証は、照明、閉塞、ポーズの変化により、制約のない環境において課題に遭遇する。
近年の研究では、深度情報を組み込んだRGB-D顔認証に焦点が当てられている。
本研究では,まず,深度モデル事前学習のための3次元Morphable Modelsによって生成された多様な深度データセットを構築する。
そこで本研究では,手軽に利用できるRGBと深度モデルを利用したドメイン非依存の事前学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-11T09:12:24Z) - Students taught by multimodal teachers are superior action recognizers [41.821485757189656]
エゴセントリックなビデオ理解の焦点は、手動物体の相互作用をモデル化することである。
しかし、RGBフレームを入力として受信する標準モデル -- CNN、ビジョントランスフォーマーなど -- は、オブジェクト検出、光フロー、オーディオなどの追加のモダリティを利用することで、そのパフォーマンスがさらに向上する。
本研究の目的は、RGB画像のみを推論時に入力として使用しながら、そのようなマルチモーダルアプローチの性能を維持することである。
論文 参考訳(メタデータ) (2022-10-09T19:37:17Z) - Dual Swin-Transformer based Mutual Interactive Network for RGB-D Salient
Object Detection [67.33924278729903]
本研究では,Dual Swin-Transformerを用いたMutual Interactive Networkを提案する。
視覚入力における長距離依存をモデル化するために,RGBと奥行きモードの両方の機能抽出器としてSwin-Transformerを採用している。
5つの標準RGB-D SODベンチマークデータセットに関する総合的な実験は、提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2022-06-07T08:35:41Z) - RGB-D Saliency Detection via Cascaded Mutual Information Minimization [122.8879596830581]
既存のRGB-Dサリエンシ検出モデルは、RGBと深さを効果的にマルチモーダル学習を実現するために明示的に奨励するものではない。
本稿では,RGB画像と深度データ間のマルチモーダル情報を「明示的」にモデル化するために,相互情報最小化による新しい多段階学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-15T12:31:27Z) - Learning Selective Mutual Attention and Contrast for RGB-D Saliency
Detection [145.4919781325014]
クロスモーダル情報を効果的に融合する方法は、RGB-Dの有能な物体検出の鍵となる問題である。
多くのモデルは特徴融合戦略を用いるが、低次点対点融合法によって制限されている。
本研究では,異なるモダリティから注目とコンテキストを融合させることにより,新たな相互注意モデルを提案する。
論文 参考訳(メタデータ) (2020-10-12T08:50:10Z) - Siamese Network for RGB-D Salient Object Detection and Beyond [113.30063105890041]
共有ネットワークバックボーンを通じてRGBと深度入力の両方から学習するための新しいフレームワークが提案されている。
5つの一般的な指標を用いた総合的な実験は、設計されたフレームワークが堅牢なRGB-D塩分濃度検出器をもたらすことを示している。
また、JL-DCFをRGB-Dセマンティックセマンティックセマンティクスフィールドにリンクし、いくつかのセマンティクスセマンティクスモデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2020-08-26T06:01:05Z) - RGB-D Salient Object Detection: A Survey [195.83586883670358]
様々な観点からRGB-Dに基づくSODモデルを総合的に調査する。
また、このドメインからSODモデルと人気のあるベンチマークデータセットもレビューします。
今後の研究に向けたRGB-DベースのSODの課題と方向性について論じる。
論文 参考訳(メタデータ) (2020-08-01T10:01:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。