論文の概要: M3Retrieve: Benchmarking Multimodal Retrieval for Medicine
- arxiv url: http://arxiv.org/abs/2510.06888v1
- Date: Wed, 08 Oct 2025 11:08:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.450925
- Title: M3Retrieve: Benchmarking Multimodal Retrieval for Medicine
- Title(参考訳): M3Retrieve: マルチモーダル検索のベンチマーク
- Authors: Arkadeep Acharya, Akash Ghosh, Pradeepika Verma, Kitsuchart Pasupa, Sriparna Saha, Priti Singh,
- Abstract要約: マルチモーダル医療検索モデルのベンチマークであるM3Retrieveをリリースする。
M3Retrieveは5つのドメイン、16の医療分野、4つの異なるタスクにまたがる。
本ベンチマークでは,様々な医療分野に特有な課題を探るため,主要なマルチモーダル検索モデルの評価を行った。
- 参考スコア(独自算出の注目度): 20.495948250806325
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the increasing use of RetrievalAugmented Generation (RAG), strong retrieval models have become more important than ever. In healthcare, multimodal retrieval models that combine information from both text and images offer major advantages for many downstream tasks such as question answering, cross-modal retrieval, and multimodal summarization, since medical data often includes both formats. However, there is currently no standard benchmark to evaluate how well these models perform in medical settings. To address this gap, we introduce M3Retrieve, a Multimodal Medical Retrieval Benchmark. M3Retrieve, spans 5 domains,16 medical fields, and 4 distinct tasks, with over 1.2 Million text documents and 164K multimodal queries, all collected under approved licenses. We evaluate leading multimodal retrieval models on this benchmark to explore the challenges specific to different medical specialities and to understand their impact on retrieval performance. By releasing M3Retrieve, we aim to enable systematic evaluation, foster model innovation, and accelerate research toward building more capable and reliable multimodal retrieval systems for medical applications. The dataset and the baselines code are available in this github page https://github.com/AkashGhosh/M3Retrieve.
- Abstract(参考訳): RetrievalAugmented Generation (RAG)の使用の増加に伴い、強力な検索モデルがこれまで以上に重要になっている。
医療において、テキストと画像の両方からの情報を組み合わせたマルチモーダル検索モデルは、質問応答、クロスモーダル検索、マルチモーダル要約といった多くの下流タスクに大きな利点をもたらす。
しかしながら、これらのモデルが医療的環境でどれだけうまく機能するかを評価するための標準ベンチマークは今のところ存在しない。
このギャップに対処するために、マルチモーダル医療検索ベンチマークであるM3Retrieveを紹介する。
M3Retrieveは5つのドメイン、16の医療分野、4つの異なるタスクにまたがっており、120万以上のテキストドキュメントと164Kのマルチモーダルクエリが承認されたライセンスの下で収集されている。
本ベンチマークでは,様々な医療分野に特有な課題を探求し,検索性能への影響を明らかにするため,主要なマルチモーダル検索モデルの評価を行った。
M3Retrieveをリリースすることで、系統的な評価を可能にし、モデル革新を奨励し、医療応用のためのより有能で信頼性の高いマルチモーダル検索システムの構築に向けた研究を加速することを目指している。
データセットとベースラインコードは、このgithubページ https://github.com/AkashGhosh/M3Retrieveで公開されている。
関連論文リスト
- A Multimodal LLM Approach for Visual Question Answering on Multiparametric 3D Brain MRI [31.111739327390925]
mpLLMは、3次元脳MRI上での視覚的質問応答のための、迅速な条件付き階層的混合処理アーキテクチャである。
mpLLMは、複数の相互関連3Dモダリティを融合するために、モダリティレベルおよびトークンレベルのプロジェクションエキスパートをルートする。
mpLLMは、複数のmpMRIデータセットにおいて、強い医用VLMベースラインを平均5.3%上回る。
論文 参考訳(メタデータ) (2025-09-30T07:30:30Z) - MedGemma Technical Report [75.88152277443179]
MedGemmaは、Gemma 3 4Bと27Bをベースとした医療ビジョン言語基盤モデルの集合体である。
MedGemmaは、画像とテキストの高度な医学的理解と推論を実証する。
また、SigLIPから派生した医用目視エンコーダであるMedSigLIPを紹介する。
論文 参考訳(メタデータ) (2025-07-07T17:01:44Z) - InfiMed: Low-Resource Medical MLLMs with Advancing Understanding and Reasoning [19.791150694039466]
InfiMed-SFT-3B と InfiMed-RL-3B は7つのマルチモーダル医療ベンチマークで最先端のパフォーマンスを実現する。
InfiMed-RL-3Bの平均精度は59.2%であり、InternVL3-8Bのような大型モデルよりも57.3%高い。
論文 参考訳(メタデータ) (2025-05-29T10:31:57Z) - Benchmarking Retrieval-Augmented Generation in Multi-Modal Contexts [56.7225771305861]
本稿では,マルチモーダル大規模言語モデルの有効性を評価するためのベンチマークであるMulti-Modal Retrieval-Augmented Generation (M$2$RAG)を紹介する。
このベンチマークは、イメージキャプション、マルチモーダル質問応答、マルチモーダル事実検証、イメージリランクの4つのタスクで構成されている。
MLLMのコンテキスト利用能力を高めるため,マルチモーダル検索型インストラクションチューニング(MM-RAIT)も導入する。
論文 参考訳(メタデータ) (2025-02-24T16:25:25Z) - MedTrinity-25M: A Large-scale Multimodal Dataset with Multigranular Annotations for Medicine [53.01393667775077]
本稿では,医療用大規模マルチモーダルデータセットであるMedTrinity-25Mを紹介する。
65以上の疾患に対する多彩なアノテーションを備えた10のモダリティで、2500万以上の画像をカバーしている。
画像テキストペアの可用性に制限がある既存のマルチモーダルデータセットとは異なり、我々は最初の自動パイプラインを開発した。
論文 参考訳(メタデータ) (2024-08-06T02:09:35Z) - Med-MoE: Mixture of Domain-Specific Experts for Lightweight Medical Vision-Language Models [17.643421997037514]
差別的, 生成的両マルチモーダル医療課題に対処する新しい枠組みを提案する。
Med-MoEの学習は、マルチモーダル医療アライメント、命令チューニングとルーティング、ドメイン固有のMoEチューニングの3つのステップで構成されている。
我々のモデルは最先端のベースラインに匹敵する性能を達成できる。
論文 参考訳(メタデータ) (2024-04-16T02:35:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。