論文の概要: MedSG-Bench: A Benchmark for Medical Image Sequences Grounding
- arxiv url: http://arxiv.org/abs/2505.11852v1
- Date: Sat, 17 May 2025 05:31:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:10.894506
- Title: MedSG-Bench: A Benchmark for Medical Image Sequences Grounding
- Title(参考訳): MedSG-Bench: 医用画像シーケンスのベンチマーク
- Authors: Jingkun Yue, Siqi Zhang, Zinan Jia, Huihuan Xu, Zongbo Han, Xiaohong Liu, Guangyu Wang,
- Abstract要約: 既存の医用ビジュアルグラウンドベンチマークは、主に単一イメージのシナリオに焦点を当てている。
実世界の臨床応用には、しばしばシーケンシャルな画像が含まれる。
MedSG-Benchは、メディカルイメージシークエンスグラウンド用に調整された最初のベンチマークである。
- 参考スコア(独自算出の注目度): 10.531471642547835
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual grounding is essential for precise perception and reasoning in multimodal large language models (MLLMs), especially in medical imaging domains. While existing medical visual grounding benchmarks primarily focus on single-image scenarios, real-world clinical applications often involve sequential images, where accurate lesion localization across different modalities and temporal tracking of disease progression (e.g., pre- vs. post-treatment comparison) require fine-grained cross-image semantic alignment and context-aware reasoning. To remedy the underrepresentation of image sequences in existing medical visual grounding benchmarks, we propose MedSG-Bench, the first benchmark tailored for Medical Image Sequences Grounding. It comprises eight VQA-style tasks, formulated into two paradigms of the grounding tasks, including 1) Image Difference Grounding, which focuses on detecting change regions across images, and 2) Image Consistency Grounding, which emphasizes detection of consistent or shared semantics across sequential images. MedSG-Bench covers 76 public datasets, 10 medical imaging modalities, and a wide spectrum of anatomical structures and diseases, totaling 9,630 question-answer pairs. We benchmark both general-purpose MLLMs (e.g., Qwen2.5-VL) and medical-domain specialized MLLMs (e.g., HuatuoGPT-vision), observing that even the advanced models exhibit substantial limitations in medical sequential grounding tasks. To advance this field, we construct MedSG-188K, a large-scale instruction-tuning dataset tailored for sequential visual grounding, and further develop MedSeq-Grounder, an MLLM designed to facilitate future research on fine-grained understanding across medical sequential images. The benchmark, dataset, and model are available at https://huggingface.co/MedSG-Bench
- Abstract(参考訳): マルチモーダル大言語モデル(MLLM)では,特に医用画像領域において,視覚的接地は正確な認識と推論に不可欠である。
既存の医用ビジュアルグラウンドベンチマークは、主に単一イメージのシナリオに焦点を当てているが、実世界の臨床応用では、様々なモダリティにわたる正確な病変の局所化と、疾患進行の時間的追跡(例えば、前処理と後処理の比較)は、きめ細かいクロスイメージのセマンティックアライメントとコンテキスト認識推論を必要とする。
既存の医用ビジュアルグラウンドティングベンチマークにおける画像シーケンスの表現不足を改善するために,医用画像シーケンスグラウンドディングに適した最初のベンチマークであるMedSG-Benchを提案する。
VQAスタイルの8つのタスクで構成されており、グラウンドリングタスクの2つのパラダイムに定式化されている。
1)画像間の変化領域の検出に焦点をあてた画像差接地
2)画像整合性グラウンドリングでは,連続的な画像間での一貫性や共有のセマンティクスの検出が重視される。
MedSG-Benchは76の公開データセット、10の医療画像モダリティ、および幅広い解剖学的構造と疾患をカバーし、計9,630の質問応答対をカバーしている。
汎用MLLM(例, Qwen2.5-VL)と医療分野特化MLLM(例, HuatuoGPT-vision)の双方をベンチマークし, 先進モデルにおいても, 医学的逐次接地作業にかなりの限界があることを示した。
この領域を推し進めるために、シーケンシャルな視覚的接地に適した大規模インストラクションチューニングデータセットであるMedSG-188Kを構築し、医用シーケンシャル画像の詳細な理解を促進するためのMLLMであるMedSeq-Grounderを開発した。
ベンチマーク、データセット、モデルはhttps://huggingface.co/MedSG-Benchで公開されている。
関連論文リスト
- PRS-Med: Position Reasoning Segmentation with Vision-Language Model in Medical Imaging [6.411386758550256]
PRS-Medは、視覚言語モデルとセグメンテーション機能を統合し、正確なセグメンテーションマスクとそれに対応する空間推論出力の両方を生成するフレームワークである。
MMRSデータセットは、医療画像における位置推論データの欠如に対処するために、多様な空間的な質問応答ペアを提供する。
論文 参考訳(メタデータ) (2025-05-17T06:42:28Z) - Unlocking the Power of Spatial and Temporal Information in Medical Multimodal Pre-training [99.2891802841936]
我々は,空間的・時間的微粒なモデリングのためのMed-STフレームワークを提案する。
空間モデリングでは、Med-STはMixture of View Expert (MoVE)アーキテクチャを使用して、正面と横の両方のビューから異なる視覚的特徴を統合する。
時間的モデリングのために,フォワードマッピング分類 (FMC) とリバースマッピング回帰 (RMR) による新たな双方向サイクル整合性目標を提案する。
論文 参考訳(メタデータ) (2024-05-30T03:15:09Z) - Adapting Visual-Language Models for Generalizable Anomaly Detection in Medical Images [68.42215385041114]
本稿では,CLIPモデルを用いた医用異常検出のための軽量な多レベル適応と比較フレームワークを提案する。
提案手法では,複数の残像アダプタを事前学習した視覚エンコーダに統合し,視覚的特徴の段階的向上を実現する。
医学的異常検出ベンチマーク実験により,本手法が現在の最先端モデルを大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2024-03-19T09:28:19Z) - C^2M-DoT: Cross-modal consistent multi-view medical report generation
with domain transfer network [67.97926983664676]
ドメイン転送ネットワーク(C2M-DoT)を用いたクロスモーダルなマルチビュー医療レポート生成を提案する。
C2M-DoTは、すべてのメトリクスで最先端のベースラインを大幅に上回る。
論文 参考訳(メタデータ) (2023-10-09T02:31:36Z) - Exploring Transfer Learning in Medical Image Segmentation using Vision-Language Models [0.8878802873945023]
本研究では,視覚言語モデルから2次元医用画像への移行に関する最初の体系的研究を紹介する。
VLSMは画像のみのセグメンテーションモデルと比較して競合性能を示すが、全てのVLSMは言語プロンプトから追加情報を利用するわけではない。
論文 参考訳(メタデータ) (2023-08-15T11:28:21Z) - Utilizing Segment Anything Model For Assessing Localization of GRAD-CAM
in Medical Imaging [0.0]
衛生マップアルゴリズムは、医療画像を含む複数の分野に適用されている。
現在の研究は、画像内の医学的異常に基づいて、唾液マップの局所化を評価することで能力を調べる。
本稿では,既存のメトリクスの精度を高めるために,SAM(Seegment Anything Model)の利用を提案する。
論文 参考訳(メタデータ) (2023-06-24T19:54:50Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Training Like a Medical Resident: Context-Prior Learning Toward Universal Medical Image Segmentation [38.61227663176952]
医用画像理解基盤モデルの構築を目的としたパラダイムであるユニバーサル・メディカルイメージ・セグメンテーションへのシフトを提案する。
医用画像セグメンテーションにおけるデータの異質性やアノテーションの違いに対処する新しい文脈優先学習手法であるHermesを開発した。
論文 参考訳(メタデータ) (2023-06-04T17:39:08Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z) - AlignTransformer: Hierarchical Alignment of Visual Regions and Disease
Tags for Medical Report Generation [50.21065317817769]
本稿では,Align Hierarchical Attention (AHA)とMulti-Grained Transformer (MGT)モジュールを含むAlign Transformerフレームワークを提案する。
パブリックなIU-XrayとMIMIC-CXRデータセットの実験は、AlignTransformerが2つのデータセットの最先端メソッドと競合する結果が得られることを示している。
論文 参考訳(メタデータ) (2022-03-18T13:43:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。