論文の概要: Gastric-X: A Multimodal Multi-Phase Benchmark Dataset for Advancing Vision-Language Models in Gastric Cancer Analysis
- arxiv url: http://arxiv.org/abs/2603.19516v1
- Date: Thu, 19 Mar 2026 22:47:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 19:48:38.91357
- Title: Gastric-X: A Multimodal Multi-Phase Benchmark Dataset for Advancing Vision-Language Models in Gastric Cancer Analysis
- Title(参考訳): Gastric-X: 胃癌診断におけるビジョンランゲージモデルの改善のためのマルチモーダルマルチパスベンチマークデータセット
- Authors: Sheng Lu, Hao Chen, Rui Yin, Juyan Ba, Yu Zhang, Yuanzhe Li,
- Abstract要約: Gastric-Xは、胃がん分析のための大規模なベンチマークであり、1.7Kの症例を提供する。
5つのコアタスクにおいて,最新の視覚言語モデルの有効性を体系的に検討する。
我々は,ガストリクスを,医師の認知的・明白な推論プロセスとマシンインテリジェンスを整合させるためのステップとして捉えている。
- 参考スコア(独自算出の注目度): 10.801293378989
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent vision-language models (VLMs) have shown strong generalization and multimodal reasoning abilities in natural domains. However, their application to medical diagnosis remains limited by the lack of comprehensive and structured datasets that capture real clinical workflows. To advance the development of VLMs for clinical applications, particularly in gastric cancer, we introduce Gastric-X, a large-scale multimodal benchmark for gastric cancer analysis providing 1.7K cases. Each case in Gastric-X includes paired resting and dynamic CT scans, endoscopic image, a set of structured biochemical indicators, expert-authored diagnostic notes, and bounding box annotations of tumor regions, reflecting realistic clinical conditions. We systematically examine the capability of recent VLMs on five core tasks: Visual Question Answering (VQA), report generation, cross-modal retrieval, disease classification, and lesion localization. These tasks simulate critical stages of clinical workflow, from visual understanding and reasoning to multimodal decision support. Through this evaluation, we aim not only to assess model performance but also to probe the nature of VLM understanding: Can current VLMs meaningfully correlate biochemical signals with spatial tumor features and textual reports? We envision Gastric-X as a step toward aligning machine intelligence with the cognitive and evidential reasoning processes of physicians, and as a resource to inspire the development of next-generation medical VLMs.
- Abstract(参考訳): 近年の視覚言語モデル(VLM)は、自然領域において強力な一般化とマルチモーダル推論能力を示している。
しかし、それらの医療診断への応用は、実際の臨床ワークフローをキャプチャする包括的で構造化されたデータセットの欠如によって制限されている。
胃癌に対する VLM の開発を進展させるため,1.7K の胃癌解析のための大規模マルチモーダルベンチマークである Gastric-X を導入する。
胃Xのそれぞれの症例には、ペアレストとダイナミックCTスキャン、内視鏡画像、構造化された生化学的指標のセット、専門家が認可した診断ノート、および腫瘍領域のバウンディングボックスアノテーションが含まれており、現実的な臨床症状を反映している。
VQA(Visual Question Answering),レポート生成,クロスモーダル検索,疾患分類,病変局所化の5つのタスクにおいて,最新のVLMの有効性を体系的に検討した。
これらのタスクは、視覚的理解や推論からマルチモーダルな意思決定支援に至るまで、臨床ワークフローの重要な段階をシミュレートする。
この評価を通じて、我々はモデルの性能を評価するだけでなく、VLMの理解の性質を探究することを目的としている:現在のVLMは、生化学信号と空間的な腫瘍の特徴とテキストレポートとを有意に相関できるだろうか?
我々は,ガストリクスXを,医師の認知的・明白な推論プロセスと機械知能を整合させるためのステップであり,次世代の医用VLMの開発を刺激する資源であると考えている。
関連論文リスト
- Sim4Seg: Boosting Multimodal Multi-disease Medical Diagnosis Segmentation with Region-Aware Vision-Language Similarity Masks [54.00822479127598]
医療診断(MDS)という医用視覚言語タスクについて紹介する。
MDSは、医療画像に対する臨床クエリを理解し、対応するセグメンテーションマスクと診断結果を生成することを目的としている。
診断セグメンテーションの性能を向上させる新しいフレームワークであるSim4Segを提案する。
論文 参考訳(メタデータ) (2025-11-10T03:22:42Z) - A Narrative Review on Large AI Models in Lung Cancer Screening, Diagnosis, and Treatment Planning [8.431488361911754]
肺がんは世界中で最も流行し、致命的な疾患の1つである。
大規模AIモデルの最近の進歩は、医療画像理解と臨床的意思決定を大幅に強化した。
本稿では, 肺がん検診, 診断, 予後, 治療における大規模AIモデルの適用状況について, 系統的に検討する。
論文 参考訳(メタデータ) (2025-06-08T17:42:24Z) - EndoBench: A Comprehensive Evaluation of Multi-Modal Large Language Models for Endoscopy Analysis [62.00431604976949]
EndoBenchは、内視鏡的プラクティスの全スペクトルにわたるMLLMを評価するために特別に設計された最初の包括的なベンチマークである。
我々は、汎用、医療特化、プロプライエタリMLLMを含む23の最先端モデルをベンチマークする。
私たちの実験では、プロプライエタリなMLLMは、オープンソースや医療専門のモデルよりも優れていますが、それでも人間の専門家を追い越しています。
論文 参考訳(メタデータ) (2025-05-29T16:14:34Z) - ChatEXAONEPath: An Expert-level Multimodal Large Language Model for Histopathology Using Whole Slide Images [19.661619004001654]
本稿では,WSIを用いた病理組織学のエキスパートレベルのMLLMについて紹介する。
62.9%の受け入れ率でChatEXAONEPathを用いて病理像を診断できることを実証した。
提案モデルでは, 膵臓WSIsと臨床経過を種々のがんタイプから理解することができる。
論文 参考訳(メタデータ) (2025-04-17T15:33:17Z) - GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。
GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。
38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文 参考訳(メタデータ) (2024-08-06T17:59:21Z) - Potential of Multimodal Large Language Models for Data Mining of Medical Images and Free-text Reports [51.45762396192655]
特にGemini-Vision-Series (Gemini) と GPT-4-Series (GPT-4) は、コンピュータビジョンのための人工知能のパラダイムシフトを象徴している。
本研究は,14の医用画像データセットを対象に,Gemini,GPT-4,および4つの一般的な大規模モデルの性能評価を行った。
論文 参考訳(メタデータ) (2024-07-08T09:08:42Z) - Foundational Models for Pathology and Endoscopy Images: Application for Gastric Inflammation [0.0]
ファンデーションモデル(FM)は、多様なデータに基づいて訓練され、幅広いユースケースに適用できる機械学習モデルまたはディープラーニングモデルである。
FMは内視鏡とそれに続く病理画像解析の精度を高めるための有望なソリューションを提供する。
本総説は,FMを臨床実践に組み込むことの複雑さをナビゲートする上で,研究者や実践者にとってのロードマップを提供することを目的としている。
論文 参考訳(メタデータ) (2024-06-26T10:51:44Z) - Dr-LLaVA: Visual Instruction Tuning with Symbolic Clinical Grounding [53.629132242389716]
VLM(Vision-Language Models)は、医用画像を分析し、自然言語の相互作用に関与することによって、臨床医を支援する。
VLMはしばしば「幻覚的」な振る舞いを示し、文脈的マルチモーダル情報に基づかないテキスト出力を生成する。
本稿では,臨床推論の象徴的表現を用いて医療知識にVLMを基盤とする新たなアライメントアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-29T23:19:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。