論文の概要: M3Retrieve: Benchmarking Multimodal Retrieval for Medicine
- arxiv url: http://arxiv.org/abs/2510.06888v1
- Date: Wed, 08 Oct 2025 11:08:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.450925
- Title: M3Retrieve: Benchmarking Multimodal Retrieval for Medicine
- Title(参考訳): M3Retrieve: マルチモーダル検索のベンチマーク
- Authors: Arkadeep Acharya, Akash Ghosh, Pradeepika Verma, Kitsuchart Pasupa, Sriparna Saha, Priti Singh,
- Abstract要約: マルチモーダル医療検索モデルのベンチマークであるM3Retrieveをリリースする。
M3Retrieveは5つのドメイン、16の医療分野、4つの異なるタスクにまたがる。
本ベンチマークでは,様々な医療分野に特有な課題を探るため,主要なマルチモーダル検索モデルの評価を行った。
- 参考スコア(独自算出の注目度): 20.495948250806325
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the increasing use of RetrievalAugmented Generation (RAG), strong retrieval models have become more important than ever. In healthcare, multimodal retrieval models that combine information from both text and images offer major advantages for many downstream tasks such as question answering, cross-modal retrieval, and multimodal summarization, since medical data often includes both formats. However, there is currently no standard benchmark to evaluate how well these models perform in medical settings. To address this gap, we introduce M3Retrieve, a Multimodal Medical Retrieval Benchmark. M3Retrieve, spans 5 domains,16 medical fields, and 4 distinct tasks, with over 1.2 Million text documents and 164K multimodal queries, all collected under approved licenses. We evaluate leading multimodal retrieval models on this benchmark to explore the challenges specific to different medical specialities and to understand their impact on retrieval performance. By releasing M3Retrieve, we aim to enable systematic evaluation, foster model innovation, and accelerate research toward building more capable and reliable multimodal retrieval systems for medical applications. The dataset and the baselines code are available in this github page https://github.com/AkashGhosh/M3Retrieve.
- Abstract(参考訳): RetrievalAugmented Generation (RAG)の使用の増加に伴い、強力な検索モデルがこれまで以上に重要になっている。
医療において、テキストと画像の両方からの情報を組み合わせたマルチモーダル検索モデルは、質問応答、クロスモーダル検索、マルチモーダル要約といった多くの下流タスクに大きな利点をもたらす。
しかしながら、これらのモデルが医療的環境でどれだけうまく機能するかを評価するための標準ベンチマークは今のところ存在しない。
このギャップに対処するために、マルチモーダル医療検索ベンチマークであるM3Retrieveを紹介する。
M3Retrieveは5つのドメイン、16の医療分野、4つの異なるタスクにまたがっており、120万以上のテキストドキュメントと164Kのマルチモーダルクエリが承認されたライセンスの下で収集されている。
本ベンチマークでは,様々な医療分野に特有な課題を探求し,検索性能への影響を明らかにするため,主要なマルチモーダル検索モデルの評価を行った。
M3Retrieveをリリースすることで、系統的な評価を可能にし、モデル革新を奨励し、医療応用のためのより有能で信頼性の高いマルチモーダル検索システムの構築に向けた研究を加速することを目指している。
データセットとベースラインコードは、このgithubページ https://github.com/AkashGhosh/M3Retrieveで公開されている。
関連論文リスト
- MRMR: A Realistic and Expert-Level Multidisciplinary Benchmark for Reasoning-Intensive Multimodal Retrieval [87.24221266746686]
MRMRは,集中的推論を必要とする,最初のエキスパートレベルのマルチディシプリナマルチモーダル検索ベンチマークである。
さまざまな専門分野にわたる検索システムに挑戦し、ドメイン間のきめ細かいモデル比較を可能にする。
クエリは推論集約的であり、画像は顕微鏡スライドの診断などの深い解釈を必要とする。
論文 参考訳(メタデータ) (2025-10-10T16:14:56Z) - A Multimodal LLM Approach for Visual Question Answering on Multiparametric 3D Brain MRI [31.111739327390925]
mpLLMは、3次元脳MRI上での視覚的質問応答のための、迅速な条件付き階層的混合処理アーキテクチャである。
mpLLMは、複数の相互関連3Dモダリティを融合するために、モダリティレベルおよびトークンレベルのプロジェクションエキスパートをルートする。
mpLLMは、複数のmpMRIデータセットにおいて、強い医用VLMベースラインを平均5.3%上回る。
論文 参考訳(メタデータ) (2025-09-30T07:30:30Z) - MIRA: A Novel Framework for Fusing Modalities in Medical RAG [6.044279952668295]
MLLMにおける実測精度の最適化を目的としたMIRA(Multimodal Intelligent Retrieval and Augmentation)フレームワークを提案する。
MIRAは,(1)検索コンテキスト数を動的に調整して事実リスクを管理する校正再考・再配置モジュール,(2)画像埋め込みと医用知識ベースを統合した医用RAGフレームワークと,効率的なマルチモーダル推論を行うクエリ・リライトモジュールの2つの主要コンポーネントから構成される。
論文 参考訳(メタデータ) (2025-07-10T16:33:50Z) - MedGemma Technical Report [75.88152277443179]
MedGemmaは、Gemma 3 4Bと27Bをベースとした医療ビジョン言語基盤モデルの集合体である。
MedGemmaは、画像とテキストの高度な医学的理解と推論を実証する。
また、SigLIPから派生した医用目視エンコーダであるMedSigLIPを紹介する。
論文 参考訳(メタデータ) (2025-07-07T17:01:44Z) - Lingshu: A Generalist Foundation Model for Unified Multimodal Medical Understanding and Reasoning [57.873833577058]
医療知識の豊富なマルチモーダルデータセットを構築した。
次に医学専門のMLLMであるLingshuを紹介します。
Lingshuは、医療専門知識の組み込みとタスク解決能力の向上のために、マルチステージトレーニングを行っている。
論文 参考訳(メタデータ) (2025-06-08T08:47:30Z) - InfiMed: Low-Resource Medical MLLMs with Advancing Understanding and Reasoning [19.791150694039466]
InfiMed-SFT-3B と InfiMed-RL-3B は7つのマルチモーダル医療ベンチマークで最先端のパフォーマンスを実現する。
InfiMed-RL-3Bの平均精度は59.2%であり、InternVL3-8Bのような大型モデルよりも57.3%高い。
論文 参考訳(メタデータ) (2025-05-29T10:31:57Z) - Benchmarking Retrieval-Augmented Multimodal Generation for Document Question Answering [60.062194349648195]
Document Visual Question Answering (DocVQA)は、長いマルチモーダル文書の処理において2つの課題に直面している。
現在の文書検索拡張生成法(DocRAG)はテキスト中心のアプローチによって制限されている。
MMDocRAGは,多ページのクロスモーダルエビデンスチェーンを持つ4,055のエキスパートアノテーション付きQAペアを特徴とする総合ベンチマークである。
論文 参考訳(メタデータ) (2025-05-22T09:52:57Z) - R2MED: A Benchmark for Reasoning-Driven Medical Retrieval [21.743193381874878]
推論駆動型医療検索のために設計された最初のベンチマークであるR2MEDを紹介する。
Q&A参照検索、臨床証拠検索、臨床症例検索の3つのタスクにまたがる876のクエリで構成されている。
我々はR2MED上で広く使われている15の検索システムを評価し,最良モデルでさえ31.4 nDCG@10しか達成できないことを確認した。
論文 参考訳(メタデータ) (2025-05-20T16:15:30Z) - Benchmarking Retrieval-Augmented Generation in Multi-Modal Contexts [56.7225771305861]
本稿では,マルチモーダル大規模言語モデルの有効性を評価するためのベンチマークであるMulti-Modal Retrieval-Augmented Generation (M$2$RAG)を紹介する。
このベンチマークは、イメージキャプション、マルチモーダル質問応答、マルチモーダル事実検証、イメージリランクの4つのタスクで構成されている。
MLLMのコンテキスト利用能力を高めるため,マルチモーダル検索型インストラクションチューニング(MM-RAIT)も導入する。
論文 参考訳(メタデータ) (2025-02-24T16:25:25Z) - MedTrinity-25M: A Large-scale Multimodal Dataset with Multigranular Annotations for Medicine [53.01393667775077]
本稿では,医療用大規模マルチモーダルデータセットであるMedTrinity-25Mを紹介する。
65以上の疾患に対する多彩なアノテーションを備えた10のモダリティで、2500万以上の画像をカバーしている。
画像テキストペアの可用性に制限がある既存のマルチモーダルデータセットとは異なり、我々は最初の自動パイプラインを開発した。
論文 参考訳(メタデータ) (2024-08-06T02:09:35Z) - Med-MoE: Mixture of Domain-Specific Experts for Lightweight Medical Vision-Language Models [17.643421997037514]
差別的, 生成的両マルチモーダル医療課題に対処する新しい枠組みを提案する。
Med-MoEの学習は、マルチモーダル医療アライメント、命令チューニングとルーティング、ドメイン固有のMoEチューニングの3つのステップで構成されている。
我々のモデルは最先端のベースラインに匹敵する性能を達成できる。
論文 参考訳(メタデータ) (2024-04-16T02:35:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。