論文の概要: MedGEN-Bench: Contextually entangled benchmark for open-ended multimodal medical generation
- arxiv url: http://arxiv.org/abs/2511.13135v1
- Date: Mon, 17 Nov 2025 08:41:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:25.012747
- Title: MedGEN-Bench: Contextually entangled benchmark for open-ended multimodal medical generation
- Title(参考訳): MedGEN-Bench:オープンエンドマルチモーダル医療生成のための文脈的絡み合ったベンチマーク
- Authors: Junjie Yang, Yuhao Yan, Gang Wu, Yuxuan Wang, Ruoyu Liang, Xinjie Jiang, Xiang Wan, Fenglei Fan, Yongquan Zhang, Feiwei Qin, Changmiao Wan,
- Abstract要約: 我々は,医療用AI研究の進展を目的とした総合的マルチモーダルベンチマークであるtextscMedGEN-Benchを紹介する。
MedGEN-Benchは、6つの画像モダリティ、16の臨床的タスク、28のサブタスクにまたがる6,422のエキスパート検証済み画像テキストペアからなる。
我々は,画素レベルのメトリクス,意味的テキスト分析,専門家が指導する臨床関連度スコアなどを統合した3段階評価フレームワークを新たに導入した。
- 参考スコア(独自算出の注目度): 38.870983176459525
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As Vision-Language Models (VLMs) increasingly gain traction in medical applications, clinicians are progressively expecting AI systems not only to generate textual diagnoses but also to produce corresponding medical images that integrate seamlessly into authentic clinical workflows. Despite the growing interest, existing medical visual benchmarks present notable limitations. They often rely on ambiguous queries that lack sufficient relevance to image content, oversimplify complex diagnostic reasoning into closed-ended shortcuts, and adopt a text-centric evaluation paradigm that overlooks the importance of image generation capabilities. To address these challenges, we introduce \textsc{MedGEN-Bench}, a comprehensive multimodal benchmark designed to advance medical AI research. MedGEN-Bench comprises 6,422 expert-validated image-text pairs spanning six imaging modalities, 16 clinical tasks, and 28 subtasks. It is structured into three distinct formats: Visual Question Answering, Image Editing, and Contextual Multimodal Generation. What sets MedGEN-Bench apart is its focus on contextually intertwined instructions that necessitate sophisticated cross-modal reasoning and open-ended generative outputs, moving beyond the constraints of multiple-choice formats. To evaluate the performance of existing systems, we employ a novel three-tier assessment framework that integrates pixel-level metrics, semantic text analysis, and expert-guided clinical relevance scoring. Using this framework, we systematically assess 10 compositional frameworks, 3 unified models, and 5 VLMs.
- Abstract(参考訳): VLM(Vision-Language Models)が医療応用において勢いを増すにつれて、臨床医は、AIシステムがテキスト診断を生成するだけでなく、実際の臨床ワークフローにシームレスに統合された対応する医療画像を生成することを、徐々に期待している。
関心が高まっているにもかかわらず、既存の医用ビジュアル・ベンチマークには顕著な制限がある。
画像コンテンツに十分な関連性を持たない曖昧なクエリを頼りにし、複雑な診断推論を閉じたショートカットに過度に単純化し、画像生成機能の重要性を無視するテキスト中心評価パラダイムを採用することも多い。
これらの課題に対処するために,医療用AI研究を推進すべく設計された総合的マルチモーダルベンチマークである‘textsc{MedGEN-Bench} を導入する。
MedGEN-Benchは、6つの画像モダリティ、16の臨床的タスク、28のサブタスクにまたがる6,422のエキスパート検証済み画像テキストペアからなる。
Visual Question Answering、Image Editing、Contextual Multimodal Generationの3つの異なるフォーマットで構成されている。
MedGEN-Benchとの違いは、洗練されたクロスモーダル推論とオープンな生成出力を必要とし、複数の選択フォーマットの制約を超えて、文脈的に相互に絡み合った命令に焦点を合わせることである。
既存のシステムの性能を評価するために、画素レベルのメトリクス、意味テキスト分析、専門家が指導する臨床関連度スコアを統合した3層評価フレームワークを新たに導入した。
このフレームワークを用いて,10のコンポジションフレームワーク,3つの統一モデル,5つのVLMを体系的に評価する。
関連論文リスト
- UniMedVL: Unifying Medical Multimodal Understanding And Generation Through Observation-Knowledge-Analysis [41.864457631668806]
画像理解と生成タスクの同時解析のための医用統合マルチモーダルモデルUniMedVLを紹介する。
UniMedVLは5つの医用画像理解ベンチマークにおいて優れた性能を示し、8つの医用画像モダリティにまたがる生成品質のモデルに適合する。
論文 参考訳(メタデータ) (2025-10-17T14:54:58Z) - TemMed-Bench: Evaluating Temporal Medical Image Reasoning in Vision-Language Models [54.48710348910535]
既存の医学推論ベンチマークは、主に1回の訪問からの画像に基づいて患者の状態を分析することに焦点を当てている。
臨床訪問における患者の状態の変化を分析するための最初のベンチマークであるTemMed-Benchを紹介する。
論文 参考訳(メタデータ) (2025-09-29T17:51:26Z) - MedAtlas: Evaluating LLMs for Multi-Round, Multi-Task Medical Reasoning Across Diverse Imaging Modalities and Clinical Text [25.102399692530245]
MedAtlasは、現実的な医学的推論タスクにおいて、大きな言語モデルを評価するための新しいベンチマークフレームワークである。
MedAtlasの特徴は、マルチターン・ダイアログ、マルチモーダル・メディカル・イメージ・インタラクション、マルチタスク統合、高臨床的忠実性である。
それぞれの症例は、実際の診断から派生したもので、テキスト医療史とCT、MRI、PET、超音波、X線などの複数の画像モダリティの時間的相互作用を取り入れている。
論文 参考訳(メタデータ) (2025-08-13T17:32:17Z) - MedSeg-R: Reasoning Segmentation in Medical Images with Multimodal Large Language Models [48.24824129683951]
本稿では,複雑で暗黙的な医療指導に基づくセグメンテーションマスク作成を目的とした新しい課題である医用画像推論セグメンテーションを紹介する。
そこで本稿では,MLLMの推論能力を利用して臨床問題を理解するエンドツーエンドフレームワークであるMedSeg-Rを提案する。
1)画像の解釈と複雑な医用命令の理解を行い,マルチモーダルな中間トークンを生成するグローバルコンテキスト理解モジュール,2)これらのトークンをデコードして正確なセグメンテーションマスクを生成するピクセルレベルのグラウンドモジュールである。
論文 参考訳(メタデータ) (2025-06-12T08:13:38Z) - RadIR: A Scalable Framework for Multi-Grained Medical Image Retrieval via Radiology Report Mining [64.66825253356869]
本稿では,複数の粒度で画像の類似度を決定するために,高密度ラジオロジーレポートを利用した新しい手法を提案する。
我々は、胸部X線用MIMIC-IRとCTスキャン用CTRATE-IRの2つの総合的な医用画像検索データセットを構築した。
RadIR-CXR と Model-ChestCT という2つの検索システムを開発し,従来の画像画像検索と画像レポート検索に優れた性能を示す。
論文 参考訳(メタデータ) (2025-03-06T17:43:03Z) - Text-Promptable Propagation for Referring Medical Image Sequence Segmentation [20.724643106195852]
Ref-MISSは、自然言語の記述に基づいて、医学画像の配列に解剖学的構造を分割することを目的としている。
既存の2Dおよび3Dセグメンテーションモデルは、医用画像のシーケンスを通して興味のあるオブジェクトを明示的に追跡するのに苦労する。
医用画像のシーケンスセグメンテーションを参照するためのモデルとして,テキスト・プロンプタブル・プロパゲーション(TPP)を提案する。
論文 参考訳(メタデータ) (2025-02-16T12:13:11Z) - A Generative Framework for Bidirectional Image-Report Understanding in Chest Radiography [1.2289361708127877]
Multi-Stage Adaptive Vision-Language Tuning (MAViLT)は、視覚に基づく理解のためのマルチモーダル推論と生成を強化するために設計された新しいフレームワークである。
MAViLTは、臨床勾配重み付きトークン化プロセスと階層的な微調整戦略を取り入れており、正確な放射線学レポートを生成し、テキストから現実的なCXRを合成し、視覚に基づく臨床質問に答えることができる。
我々は、MIMIC-CXRとインディアナ大学CXRの2つのベンチマークデータセット上でMAViLTを評価し、すべてのタスクで最先端の結果を得る。
論文 参考訳(メタデータ) (2025-02-09T15:02:57Z) - QUBIQ: Uncertainty Quantification for Biomedical Image Segmentation Challenge [93.61262892578067]
医用画像分割作業の不確実性、特にラター間変動性は重要な課題である。
この可変性は、自動セグメンテーションアルゴリズムの開発と評価に直接影響を及ぼす。
バイオメディカル画像量化チャレンジ(QUBIQ)における不確実性の定量化のベンチマーク結果を報告する。
論文 参考訳(メタデータ) (2024-03-19T17:57:24Z) - Eye-gaze Guided Multi-modal Alignment for Medical Representation Learning [65.54680361074882]
アイゲイズガイドマルチモーダルアライメント(EGMA)フレームワークは、アイゲイズデータを利用して、医用視覚的特徴とテキスト的特徴のアライメントを改善する。
我々は4つの医療データセット上で画像分類と画像テキスト検索の下流タスクを行う。
論文 参考訳(メタデータ) (2024-03-19T03:59:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。