論文の概要: Medical thinking with multiple images
- arxiv url: http://arxiv.org/abs/2604.16506v1
- Date: Tue, 14 Apr 2026 18:51:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.0371
- Title: Medical thinking with multiple images
- Title(参考訳): 複数画像を用いた医学的思考
- Authors: Zonghai Yao, Benlu Wang, Yifan Zhang, Junda Wang, Iris Xia, Zhipeng Tang, Shuo Han, Feiyun Ouyang, Zhichao Yang, Arman Cohan, Hong Yu,
- Abstract要約: 我々はMedThinkVQAを紹介した。MedThinkVQAは、複数の画像で考えるためのエキスパートアノテーション付きベンチマークである。
データセットは720のテストケースを含む8,067ケースを含み、1ケースあたり平均6.62イメージである。
テストセットでは、最高のクローズドソースモデルであるClaude-4.6-Opus、Gemini-3-Pro、GPT-5.2-xhighは57.2%、55.3%、54.9%の精度しか達成できなかった。
- 参考スコア(独自算出の注目度): 44.04557445622649
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models perform well on many medical QA benchmarks, but real clinical reasoning often requires integrating evidence across multiple images rather than interpreting a single view. We introduce MedThinkVQA, an expert-annotated benchmark for thinking with multiple images, where models must interpret each image, combine cross-view evidence, and answer diagnostic questions with intermediate supervision and step-level evaluation. The dataset contains 8,067 cases, including 720 test cases, with an average of 6.62 images per case, substantially denser than prior work, whose expert-level benchmarks use at most 1.43 images per case. On the test set, the best closed-source models, Claude-4.6-Opus, Gemini-3-Pro, and GPT-5.2-xhigh, reach only 57.2%, 55.3%, and 54.9% accuracy, while GPT-5-mini and GPT-5-nano reach 39.7% and 30.8%. Strong open-source models lag behind, led by Qwen3.5-397B-A17B at 52.2% and Qwen3.5-27B at 50.6%. Further analysis identifies grounded multi-image reasoning as the main bottleneck: models often fail to extract, align, and compose evidence across views before higher-level inference can help. Providing expert single-image cues and cross-image summaries improves performance, whereas replacing them with self-generated intermediates reduces accuracy. Step-level analysis shows that over 70% of errors arise from image reading and cross-view integration. Scaling results further show that additional inference-time computation helps only when visual grounding is already reliable; when early evidence extraction is weak, longer reasoning yields limited or unstable gains and can amplify misread cues. These results suggest that the key challenge is not reasoning length alone, but reliable mechanisms for grounding, aligning, and composing distributed evidence across real-world multimodal clinical inputs.
- Abstract(参考訳): 大規模言語モデルは、多くの医学的QAベンチマークでよく機能するが、実際の臨床推論では、単一のビューを解釈するのではなく、複数の画像にエビデンスを統合する必要があることが多い。
我々はMedThinkVQAを紹介した。MedThinkVQAは、複数のイメージで考えるためのエキスパートアノテーション付きベンチマークで、モデルが各イメージを解釈し、クロスビューエビデンスを組み合わせ、診断質問に中間監督とステップレベルの評価で答えなければならない。
データセットには8,067のケースが含まれており、テストケースは720で、1ケースあたり平均6.62イメージであり、専門家レベルのベンチマークでは1ケース当たり1.43イメージが使用される。
テストセットでは、最高のクローズドソースモデルであるClaude-4.6-Opus、Gemini-3-Pro、GPT-5.2-xhighが57.2%、55.3%、54.9%の精度で、GPT-5-miniとGPT-5-nanoは39.7%、30.8%である。
Qwen3.5-397B-A17Bは52.2%、Qwen3.5-27Bは50.6%だった。
モデルはしばしば、より高いレベルの推論が役立つ前に、ビューをまたいで抽出し、調整し、エビデンスを構成するのに失敗します。
熟練したシングルイメージのキューとクロスイメージのサマリーを提供することでパフォーマンスが向上する一方、自己生成中間体で置き換えることで精度が低下する。
ステップレベルの分析は、画像読み込みとクロスビュー統合によって70%以上のエラーが発生することを示している。
初期の証拠抽出が弱い場合、より長い推論は限定的あるいは不安定なゲインをもたらし、誤読の手がかりを増幅することができる。
これらの結果から, 実際のマルチモーダル臨床インプットにまたがる, 根拠, 整合性, 構成の信頼性が示唆された。
関連論文リスト
- ReXInTheWild: A Unified Benchmark for Medical Photograph Understanding [33.868464991344354]
ReXInTheWildは,7つの臨床トピックにまたがる,955のクリニカル認定多重選択質問のベンチマークである。
Gemini-3の精度は78%、Claude Opus 4.5 (72%) と GPT-5 (68%) が続く。
体系的エラー解析はまた、低レベルの幾何学的誤りから高レベルの推論失敗まで、一般的なエラーの4つのカテゴリを明らかにしている。
論文 参考訳(メタデータ) (2026-03-19T22:54:28Z) - MultiHaystack: Benchmarking Multimodal Retrieval and Reasoning over 40K Images, Videos, and Documents [57.32877731797049]
MultiHaystackは、大規模なクロスモーダル条件下での検索と推論の両方を評価するために設計された最初のベンチマークである。
モデルが対応するエビデンスを付与した場合,その性能は,全コーパスからそのエビデンスを取得するために必要な場合,急激に低下することがわかった。
論文 参考訳(メタデータ) (2026-03-05T21:43:02Z) - ProImage-Bench: Rubric-Based Evaluation for Professional Image Generation [151.75112778479468]
本研究では,技術記述から科学的に正確な図形を合成する必要がある専門的な画像生成について検討する。
実際の教科書やテクニカルレポートから収集した654個の図形に対して,詳細な画像指示と,精度を6,076の基準と44,131のバイナリチェックに分解するルーリックの階層を構築した。
ProImage-Bench上でいくつかの代表的なテキスト・ツー・イメージモデルをベンチマークし、オープンドメイン性能が強いにもかかわらず、最良のベースモデルは0.791の精度と0.553の基準スコアにしか達しないことを示した。
論文 参考訳(メタデータ) (2025-12-13T07:13:43Z) - MIRAGE: Agentic Framework for Multimodal Misinformation Detection with Web-Grounded Reasoning [0.6475163438744868]
我々は、マルチモーダル検証を4つのシーケンシャルモジュールに分解する推論時モデルプラガブルエージェントフレームワークであるMIRAGEを提案する。
視覚的妥当性評価は、AI生成した画像を検出し、クロスモーダルな一貫性分析は、Webエビデンスにおけるアウト・オブ・コンテクストの再利用、検索強化された事実チェックの根拠を特定する。
MIRAGEは、ターゲットとするWeb検索、構造化された出力、引用リンクされた有理数を用いた視覚言語モデル推論をオーケストレーションする。
論文 参考訳(メタデータ) (2025-10-20T14:40:26Z) - COREVQA: A Crowd Observation and Reasoning Entailment Visual Question Answering Benchmark [3.5018278981067685]
COREVQA (Crowd Observations and Reasoning Entailment) は5608の画像と合成生成された真/偽のステートメントペアのベンチマークである。
以上の結果から,トップパフォーマンスのVLMでも80%以下で精度が向上し,他のモデルも大幅に悪化した。
論文 参考訳(メタデータ) (2025-07-17T04:47:47Z) - Traceable Evidence Enhanced Visual Grounded Reasoning: Evaluation and Methodology [87.65242416688146]
TreeBenchは、ビジュアルグラウンド推論の診断ベンチマークである。
TreeVGRは、強化学習と共同でローカライゼーションと推論を監督する訓練パラダイムである。
論文 参考訳(メタデータ) (2025-07-10T17:59:58Z) - MedFrameQA: A Multi-Image Medical VQA Benchmark for Clinical Reasoning [24.9872402922819]
既存の医療用VQAベンチマークは、主にシングルイメージ分析に焦点を当てている。
医療用VQAにおけるマルチイメージ推論を明示的に評価する最初のベンチマークであるMedFrameQAを紹介する。
論文 参考訳(メタデータ) (2025-05-22T17:46:11Z) - ChartMuseum: Testing Visual Reasoning Capabilities of Large Vision-Language Models [48.99485386990197]
視覚的推論によってのみ解決可能な合成データセットを用いてケーススタディを行う。
次に、1,162人の専門家が注釈を付けた質問を含む新しいチャート質問回答(QA)ベンチマークであるChartMuseumを紹介します。
人間は93%の精度を達成しているが、最高のパフォーマンスモデルであるGemini-2.5-Proは63.0%しか達成できず、主要なオープンソースであるLVLM Qwen2.5-VL-72B-Instructは38.5%しか達成していない。
論文 参考訳(メタデータ) (2025-05-19T17:59:27Z) - FLIP Reasoning Challenge [20.706469085872516]
本稿では,人間の検証タスクに基づいてAI推論能力を評価するためのベンチマークであるFLIPデータセットを紹介する。
FLIPの課題は、4つのイメージの2つの順序をユーザに提供することだ。
我々の実験は、視覚言語モデル(VLM)と大規模言語モデル(LLM)の両方を活用して、最先端のモデルを評価する。
論文 参考訳(メタデータ) (2025-04-16T17:07:16Z) - Benchmarking Reasoning Robustness in Large Language Models [76.79744000300363]
新規データや不完全データでは,性能が著しく低下することがわかった。
これらの結果は、厳密な論理的推論に対するリコールへの依存を浮き彫りにした。
本稿では,情報不足によって引き起こされる幻覚を利用して推論ギャップを明らかにする,Math-RoBと呼ばれる新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2025-03-06T15:36:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。