論文の概要: ReXInTheWild: A Unified Benchmark for Medical Photograph Understanding
- arxiv url: http://arxiv.org/abs/2603.19517v1
- Date: Thu, 19 Mar 2026 22:54:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 19:48:38.914412
- Title: ReXInTheWild: A Unified Benchmark for Medical Photograph Understanding
- Title(参考訳): ReXInTheWild:医学写真理解のための統一ベンチマーク
- Authors: Oishi Banerjee, Sung Eun Kim, Alexandra N. Willauer, Julius M. Kernbach, Abeer Rihan Alomaish, Reema Abdulwahab S. Alghamdi, Hassan Rayhan Alomaish, Mohammed Baharoon, Xiaoman Zhang, Julian Nicolas Acosta, Christine Zhou, Pranav Rajpurkar,
- Abstract要約: ReXInTheWildは,7つの臨床トピックにまたがる,955のクリニカル認定多重選択質問のベンチマークである。
Gemini-3の精度は78%、Claude Opus 4.5 (72%) と GPT-5 (68%) が続く。
体系的エラー解析はまた、低レベルの幾何学的誤りから高レベルの推論失敗まで、一般的なエラーの4つのカテゴリを明らかにしている。
- 参考スコア(独自算出の注目度): 33.868464991344354
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Everyday photographs taken with ordinary cameras are already widely used in telemedicine and other online health conversations, yet no comprehensive benchmark evaluates whether vision-language models can interpret their medical content. Analyzing these images requires both fine-grained natural image understanding and domain-specific medical reasoning, a combination that challenges both general-purpose and specialized models. We introduce ReXInTheWild, a benchmark of 955 clinician-verified multiple-choice questions spanning seven clinical topics across 484 photographs sourced from the biomedical literature. When evaluated on ReXInTheWild, leading multimodal large language models show substantial performance variation: Gemini-3 achieves 78% accuracy, followed by Claude Opus 4.5 (72%) and GPT-5 (68%), while the medical specialist model MedGemma reaches only 37%. A systematic error analysis also reveals four categories of common errors, ranging from low-level geometric errors to high-level reasoning failures and requiring different mitigation strategies. ReXInTheWild provides a challenging, clinically grounded benchmark at the intersection of natural image understanding and medical reasoning. The dataset is available on HuggingFace.
- Abstract(参考訳): 通常のカメラで撮影される写真は、すでに遠隔医療やその他のオンライン健康会話で広く使われているが、視覚言語モデルが医療コンテンツを解釈できるかどうかを総合的に評価するベンチマークは行われていない。
これらの画像を分析するには、詳細な自然画像理解とドメイン固有の医学的推論の両方が必要である。
今回紹介するReXInTheWildは, バイオメディカル文献から得られた484枚の写真から, 7つの臨床トピックにまたがる, 955 のクリニカル認定多重選択質問のベンチマークである。
Gemini-3は精度が78%、Claude Opus 4.5 (72%) と GPT-5 (68%) が続く一方、医療専門家モデルのMedGemmaはわずか37%である。
体系的エラー解析はまた、低レベルの幾何学的誤りから高レベルの推論失敗、異なる緩和戦略を必要とする4つの共通エラーのカテゴリも明らかにしている。
ReXInTheWildは、自然画像の理解と医学的推論の交差点で、難しい、臨床的に根拠のあるベンチマークを提供する。
データセットはHuggingFaceで入手できる。
関連論文リスト
- DeepGI: Explainable Deep Learning for Gastrointestinal Image Classification [0.0]
この研究は、可変照明、ゆらぎのあるカメラアングル、頻繁な画像アーティファクトなど、一般的な内視鏡的課題に直面している。
最高性能のVGG16とMobileNetV2はそれぞれ96.5%の精度を達成した。
このアプローチには、Grad-CAM視覚化による説明可能なAIが含まれており、モデル予測に最も影響を及ぼす画像領域の識別を可能にする。
論文 参考訳(メタデータ) (2025-11-26T22:35:57Z) - TemMed-Bench: Evaluating Temporal Medical Image Reasoning in Vision-Language Models [54.48710348910535]
既存の医学推論ベンチマークは、主に1回の訪問からの画像に基づいて患者の状態を分析することに焦点を当てている。
臨床訪問における患者の状態の変化を分析するための最初のベンチマークであるTemMed-Benchを紹介する。
論文 参考訳(メタデータ) (2025-09-29T17:51:26Z) - MedBLINK: Probing Basic Perception in Multimodal Language Models for Medicine [12.333678882957377]
このような知覚能力に対してこれらのモデルを探索するためのベンチマークであるMedblinkを紹介する。
メドブリンクは、複数の画像モダリティと解剖学的領域にまたがる8つの臨床的に有意義なタスクにまたがっており、1,605枚の画像に対して1,429個の多重選択質問を出している。
ヒトのアノテータは96.4%の精度を達成しているが、最高のパフォーマンスモデルは65%にしか達していない。
論文 参考訳(メタデータ) (2025-08-04T23:19:18Z) - Rethinking Whole-Body CT Image Interpretation: An Abnormality-Centric Approach [57.86418347491272]
全身に404例の異常所見を呈する包括的階層分類システムを提案する。
複数平面および全人体領域からの14.5K以上のCT画像を含むデータセットを寄贈し,19K以上の異常に対する接地アノテーションを念頭に提供した。
OminiAbnorm-CTは,テキストクエリに基づいて,多面的および全身的なCT画像に異常な所見を自動的に検出し,記述することができる。
論文 参考訳(メタデータ) (2025-06-03T17:57:34Z) - MedFrameQA: A Multi-Image Medical VQA Benchmark for Clinical Reasoning [24.9872402922819]
既存の医療用VQAベンチマークは、主にシングルイメージ分析に焦点を当てている。
医療用VQAにおけるマルチイメージ推論を明示的に評価する最初のベンチマークであるMedFrameQAを紹介する。
論文 参考訳(メタデータ) (2025-05-22T17:46:11Z) - MedIAnomaly: A comparative study of anomaly detection in medical images [26.319602363581442]
異常検出(AD)は、期待される正常なパターンから逸脱する異常なサンプルを検出することを目的としている。
医学的ADのための多くの方法が出現したにもかかわらず、公平で包括的な評価が欠如しているため、明確な結論が得られなかった。
本稿では,この問題に対処するため,比較を統一したベンチマークを構築した。
論文 参考訳(メタデータ) (2024-04-06T06:18:11Z) - QUBIQ: Uncertainty Quantification for Biomedical Image Segmentation Challenge [93.61262892578067]
医用画像分割作業の不確実性、特にラター間変動性は重要な課題である。
この可変性は、自動セグメンテーションアルゴリズムの開発と評価に直接影響を及ぼす。
バイオメディカル画像量化チャレンジ(QUBIQ)における不確実性の定量化のベンチマーク結果を報告する。
論文 参考訳(メタデータ) (2024-03-19T17:57:24Z) - Adapting Visual-Language Models for Generalizable Anomaly Detection in Medical Images [68.42215385041114]
本稿では,CLIPモデルを用いた医用異常検出のための軽量な多レベル適応と比較フレームワークを提案する。
提案手法では,複数の残像アダプタを事前学習した視覚エンコーダに統合し,視覚的特徴の段階的向上を実現する。
医学的異常検出ベンチマーク実験により,本手法が現在の最先端モデルを大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2024-03-19T09:28:19Z) - ACAT: Adversarial Counterfactual Attention for Classification and
Detection in Medical Imaging [41.202147558260336]
画像特徴を異なるスケールで変調するソフト空間アテンションマスクを得るために,サリエンシマップを用いたフレームワークを提案する。
ACATは、脳CTスキャンの病変の基準分類精度を71.39%から72.55%に引き上げ、肺CTスキャンの新型コロナウイルス関連所見を67.71%から70.84%に引き上げた。
論文 参考訳(メタデータ) (2023-03-27T17:43:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。