論文の概要: HRScene: How Far Are VLMs from Effective High-Resolution Image Understanding?
- arxiv url: http://arxiv.org/abs/2504.18406v2
- Date: Tue, 29 Apr 2025 16:20:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.808352
- Title: HRScene: How Far Are VLMs from Effective High-Resolution Image Understanding?
- Title(参考訳): HRScene: VLMは高分解能画像からどこまで遠いのか?
- Authors: Yusen Zhang, Wenliang Zheng, Aashrith Madasu, Peng Shi, Ryo Kamoi, Hao Zhou, Zhuoyang Zou, Shu Zhao, Sarkar Snigdha Sarathi Das, Vipul Gupta, Xiaoxin Lu, Nan Zhang, Ranran Haoran Zhang, Avitej Iyer, Renze Lou, Wenpeng Yin, Rui Zhang,
- Abstract要約: 高分解能画像(HRI)の理解は、病理画像や農業用空中画像など、多数のピクセルで画像を処理することを目的としている。
HRI理解を評価するためのVision Large Language Modelsの包括的なベンチマークが欠如している。
HRSceneは、リッチなシーンでのHRI理解のための新しい統一ベンチマークである。
- 参考スコア(独自算出の注目度): 35.448442187659865
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: High-resolution image (HRI) understanding aims to process images with a large number of pixels, such as pathological images and agricultural aerial images, both of which can exceed 1 million pixels. Vision Large Language Models (VLMs) can allegedly handle HRIs, however, there is a lack of a comprehensive benchmark for VLMs to evaluate HRI understanding. To address this gap, we introduce HRScene, a novel unified benchmark for HRI understanding with rich scenes. HRScene incorporates 25 real-world datasets and 2 synthetic diagnostic datasets with resolutions ranging from 1,024 $\times$ 1,024 to 35,503 $\times$ 26,627. HRScene is collected and re-annotated by 10 graduate-level annotators, covering 25 scenarios, ranging from microscopic to radiology images, street views, long-range pictures, and telescope images. It includes HRIs of real-world objects, scanned documents, and composite multi-image. The two diagnostic evaluation datasets are synthesized by combining the target image with the gold answer and distracting images in different orders, assessing how well models utilize regions in HRI. We conduct extensive experiments involving 28 VLMs, including Gemini 2.0 Flash and GPT-4o. Experiments on HRScene show that current VLMs achieve an average accuracy of around 50% on real-world tasks, revealing significant gaps in HRI understanding. Results on synthetic datasets reveal that VLMs struggle to effectively utilize HRI regions, showing significant Regional Divergence and lost-in-middle, shedding light on future research.
- Abstract(参考訳): 高分解能画像 (HRI) の理解は,100万画素を超えうる病理画像や農業用空中画像など,多数のピクセルで画像を処理することを目的としている。
視覚大言語モデル(VLM)は、HRIを扱えると言われているが、HRIの理解を評価するための総合的なベンチマークが欠如している。
このギャップに対処するために、リッチなシーンでのHRI理解のための新しい統一ベンチマークであるHRSceneを紹介する。
HRSceneには25の現実世界のデータセットと2つの合成診断データセットがあり、解像度は1,024$\times$1,024から35,503$\times$26,627までである。
HRSceneは、顕微鏡画像から放射線画像、ストリートビュー、長距離画像、望遠鏡画像まで、25のシナリオをカバーする10の大学院レベルのアノテーションによって収集され、再注釈される。
これには現実世界のオブジェクトのHRI、スキャンされたドキュメント、複合マルチイメージが含まれる。
2つの診断評価データセットは、対象画像と金の回答とを組み合わせ、異なる順序で像を逸脱させ、モデルがHRI内の領域をどのようにうまく利用するかを評価することによって合成される。
Gemini 2.0 Flash や GPT-4o など 28 個の VLM に関する広範な実験を行った。
HRSceneの実験では、現在のVLMは実世界のタスクで平均50%の精度を達成しており、HRI理解において大きなギャップがあることが示されている。
合成データセットの結果から,VLMはHRI領域の有効利用に苦慮していることが明らかとなった。
関連論文リスト
- GAIA: A Global, Multi-modal, Multi-scale Vision-Language Dataset for Remote Sensing Image Analysis [17.83602731408318]
本稿では,マルチスケール,マルチセンサ,マルチモーダルリモートセンシング(RS)画像解析のための新しいデータセットであるGAIAを紹介する。
GAIAは205,150個の厳密にキュレートされたRS画像テキストペアで構成され、異なる空間解像度に関連付けられたRSの多種多様さを表す。
GAIAは、RS画像分類、クロスモーダル検索、画像キャプションタスクの性能を大幅に改善する。
論文 参考訳(メタデータ) (2025-02-13T18:52:14Z) - SMILE-UHURA Challenge -- Small Vessel Segmentation at Mesoscopic Scale from Ultra-High Resolution 7T Magnetic Resonance Angiograms [60.35639972035727]
公開されている注釈付きデータセットの欠如は、堅牢で機械学習駆動のセグメンテーションアルゴリズムの開発を妨げている。
SMILE-UHURAチャレンジは、7T MRIで取得したTime-of-Flightアンジオグラフィーの注釈付きデータセットを提供することで、公開されている注釈付きデータセットのギャップに対処する。
Diceスコアは、それぞれのデータセットで0.838 $pm$0.066と0.716 $pm$ 0.125まで到達し、平均パフォーマンスは0.804 $pm$ 0.15までになった。
論文 参考訳(メタデータ) (2024-11-14T17:06:00Z) - SR-CACO-2: A Dataset for Confocal Fluorescence Microscopy Image Super-Resolution [7.770202118479678]
低解像度画像をアップスケーリングして高解像度画像(HR)を生成することで、画像品質の回復に、一像超解像(SISR)のマシン/ディープ学習法を適用することができる。
SISR法は、公開データの豊富さから、写真リアル画像にうまく応用されている。
我々は,3種類の蛍光マーカーに印加された低解像度と高解像度の画像対からなる,SR-CACO-2と呼ばれる大規模な走査共焦点顕微鏡データセットを提案する。
論文 参考訳(メタデータ) (2024-06-13T14:30:35Z) - An Early Investigation into the Utility of Multimodal Large Language Models in Medical Imaging [0.3029213689620348]
医用画像解析のためのGemini(textitgemini-1.0-pro-vision-latst)モデルとGPT-4Vモデルの可能性を探る。
Gemini AIとGPT-4Vはどちらも、まず実画像と合成画像の分類に使用され、次に入力画像の解釈と解析を行う。
本研究で紹介した早期研究は,網膜眼底鏡および肺X線像の分類と解釈を支援するMLLMの可能性についての知見を提供するものである。
論文 参考訳(メタデータ) (2024-06-02T08:29:23Z) - VHM: Versatile and Honest Vision Language Model for Remote Sensing Image Analysis [48.06425266787859]
本稿では,リモートセンシング画像解析のためのVersatile and Honest Vision Language Model (VHM) を提案する。
VHMは、リッチコンテンツキャプション(VersaD)を備えた大規模リモートセンシング画像テキストデータセットと、事実と偽造的質問(HnstD)の両方からなる正直な命令データセット上に構築されている。
実験では,VHMはシーン分類,視覚的質問応答,視覚的接地といった共通タスクにおいて,様々な視覚言語モデルよりも優れていた。
論文 参考訳(メタデータ) (2024-03-29T14:50:43Z) - CMRxRecon: An open cardiac MRI dataset for the competition of
accelerated image reconstruction [62.61209705638161]
ディープラーニングベースのCMRイメージングアルゴリズムへの関心が高まっている。
ディープラーニング手法は大規模なトレーニングデータセットを必要とする。
このデータセットには300人の被験者のマルチコントラスト、マルチビュー、マルチスライス、マルチコイルCMRイメージングデータが含まれている。
論文 参考訳(メタデータ) (2023-09-19T15:14:42Z) - Object Detection in Hyperspectral Image via Unified Spectral-Spatial
Feature Aggregation [55.9217962930169]
S2ADetは、高スペクトル画像に固有の豊富なスペクトル情報と空間補完情報を利用する物体検出器である。
S2ADetは既存の最先端メソッドを超え、堅牢で信頼性の高い結果を達成する。
論文 参考訳(メタデータ) (2023-06-14T09:01:50Z) - AlignTransformer: Hierarchical Alignment of Visual Regions and Disease
Tags for Medical Report Generation [50.21065317817769]
本稿では,Align Hierarchical Attention (AHA)とMulti-Grained Transformer (MGT)モジュールを含むAlign Transformerフレームワークを提案する。
パブリックなIU-XrayとMIMIC-CXRデータセットの実験は、AlignTransformerが2つのデータセットの最先端メソッドと競合する結果が得られることを示している。
論文 参考訳(メタデータ) (2022-03-18T13:43:53Z) - Robust deep learning-based semantic organ segmentation in hyperspectral
images [29.342448910787773]
開腹手術で得られたスペクトル画像データに基づく全シーンのセマンティックセマンティックセマンティクスは,現在までほとんど注目されていない。
開腹手術で得られた豚のハイパースペクトルイメージング(HSI)データに基づく以下の研究課題について検討する。
完全自動手術シーン理解において,HSIは強力な画像モダリティとなる可能性が示唆された。
論文 参考訳(メタデータ) (2021-11-09T20:37:38Z) - RCoNet: Deformable Mutual Information Maximization and High-order
Uncertainty-aware Learning for Robust COVID-19 Detection [12.790651338952005]
2019年のコロナウイルス(COVID-19)感染は世界中に広まり、現在、世界中で大きな医療課題となっている。
胸部X線(CXR)画像中のCOVID-19の検出はCTよりも高速で低コストであり, 診断, 評価, 治療に有用である。
Em Deformable Mutual Information Maximization (DeIM), em Mixed High-order Moment Feature (MMMF) と em Multi- を併用した,ロバストな COVID-19 検出のための新しいディープネットワークである em RCoNet$k_s$ を提案する。
論文 参考訳(メタデータ) (2021-02-22T15:13:42Z) - Hyperspectral Image Super-Resolution with Spectral Mixup and
Heterogeneous Datasets [99.92564298432387]
ハイパースペクトル画像(HSI)超解像(SR)の研究
HSI SRは高次元データと限られたトレーニング例によって特徴づけられる。
これにより、非分布サンプルに対する記憶や感度などのニューラルネットワークの望ましくない動作が悪化する。
論文 参考訳(メタデータ) (2021-01-19T12:19:53Z) - Localized Motion Artifact Reduction on Brain MRI Using Deep Learning
with Effective Data Augmentation Techniques [2.0591563268976274]
In-Scanner MotionはMRIの画質を低下させる
深層学習に基づくMRIアーティファクト縮小モデル(DMAR)を導入し,脳MRIスキャンにおける頭部運動アーティファクトの局在と補正を行う。
論文 参考訳(メタデータ) (2020-07-10T03:30:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。