論文の概要: R2MED: A Benchmark for Reasoning-Driven Medical Retrieval
- arxiv url: http://arxiv.org/abs/2505.14558v1
- Date: Tue, 20 May 2025 16:15:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:53.565988
- Title: R2MED: A Benchmark for Reasoning-Driven Medical Retrieval
- Title(参考訳): R2MED: 推論駆動型医療検索のためのベンチマーク
- Authors: Lei Li, Xiao Zhou, Zheng Liu,
- Abstract要約: 推論駆動型医療検索のために設計された最初のベンチマークであるR2MEDを紹介する。
Q&A参照検索、臨床証拠検索、臨床症例検索の3つのタスクにまたがる876のクエリで構成されている。
我々はR2MED上で広く使われている15の検索システムを評価し,最良モデルでさえ31.4 nDCG@10しか達成できないことを確認した。
- 参考スコア(独自算出の注目度): 21.743193381874878
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current medical retrieval benchmarks primarily emphasize lexical or shallow semantic similarity, overlooking the reasoning-intensive demands that are central to clinical decision-making. In practice, physicians often retrieve authoritative medical evidence to support diagnostic hypotheses. Such evidence typically aligns with an inferred diagnosis rather than the surface form of a patient's symptoms, leading to low lexical or semantic overlap between queries and relevant documents. To address this gap, we introduce R2MED, the first benchmark explicitly designed for reasoning-driven medical retrieval. It comprises 876 queries spanning three tasks: Q&A reference retrieval, clinical evidence retrieval, and clinical case retrieval. These tasks are drawn from five representative medical scenarios and twelve body systems, capturing the complexity and diversity of real-world medical information needs. We evaluate 15 widely-used retrieval systems on R2MED and find that even the best model achieves only 31.4 nDCG@10, demonstrating the benchmark's difficulty. Classical re-ranking and generation-augmented retrieval methods offer only modest improvements. Although large reasoning models improve performance via intermediate inference generation, the best results still peak at 41.4 nDCG@10. These findings underscore a substantial gap between current retrieval techniques and the reasoning demands of real clinical tasks. We release R2MED as a challenging benchmark to foster the development of next-generation medical retrieval systems with enhanced reasoning capabilities. Data and code are available at https://github.com/R2MED/R2MED
- Abstract(参考訳): 現在の医学検索ベンチマークでは、主に語彙的または浅い意味的類似性を強調しており、臨床的な意思決定の中心となる推論集約的な要求を見越している。
実際には、医師は診断仮説を支持するために権威ある医学的証拠を回収することが多い。
このようなエビデンスは通常、患者の症状の表面形ではなく、推測された診断と一致し、クエリと関連するドキュメントの間の語彙的あるいは意味的な重複が低い。
このギャップに対処するために、推論駆動型医療検索のために明示的に設計された最初のベンチマークであるR2MEDを導入する。
Q&A参照検索、臨床証拠検索、臨床症例検索の3つのタスクにまたがる876のクエリで構成されている。
これらのタスクは、5つの代表的な医療シナリオと12の身体システムから引き出され、現実世界の医療情報のニーズの複雑さと多様性を捉えている。
我々はR2MED上で広く使われている15の検索システムを評価し、最良のモデルでさえ31.4 nDCG@10しか達成できないことを発見し、ベンチマークの難しさを実証した。
古典的なリグレードとジェネレーション拡張された検索方法は、わずかに改善されているだけである。
大きな推論モデルでは中間推論生成により性能が向上するが、最良の結果はまだ41.4 nDCG@10である。
これらの知見は、現在の検索技術と実際の臨床課題の推論要求との間に大きなギャップがあることを示唆している。
我々はR2MEDを、推論機能を強化した次世代医療検索システムの開発を促進するための、挑戦的なベンチマークとしてリリースする。
データとコードはhttps://github.com/R2MED/R2MEDで入手できる。
関連論文リスト
- Diffusion-driven SpatioTemporal Graph KANsformer for Medical Examination Recommendation [21.649569475134403]
AIベースの医療診断と治療における勧告システムは、医療におけるAIの重要な構成要素である。
まず医療検査勧告のタスクを定式化する。
最初の段階では,タスク適応拡散モデルを用いてレコメンデーション指向の情報を抽出する。
第2段階では、複雑な空間的および時間的関係を同時にモデル化する拡散グラフスフォーマが提案される。
論文 参考訳(メタデータ) (2025-05-12T10:47:59Z) - Talk Before You Retrieve: Agent-Led Discussions for Better RAG in Medical QA [17.823588070044217]
本稿では,医療質問応答システムを強化するためのプラグアンドプレイモジュールであるDisdisuss-RAGを提案する。
本手法では,多ターンブレインストーミングをエミュレートする医療専門家のチームを編成し,検索内容の関連性を向上する要約エージェントを提案する。
4つのベンチマーク医学QAデータセットによる実験結果から、DEC-RAGはMedRAGより一貫して優れていた。
論文 参考訳(メタデータ) (2025-04-30T01:37:44Z) - MedAgentsBench: Benchmarking Thinking Models and Agent Frameworks for Complex Medical Reasoning [34.93995619867384]
LLM(Large Language Models)は、既存の医学的質問応答ベンチマークで素晴らしいパフォーマンスを示している。
MedAgentsBenchは、多段階の臨床推論、診断の定式化、および治療計画シナリオを必要とする医学的問題に焦点を当てたベンチマークである。
論文 参考訳(メタデータ) (2025-03-10T15:38:44Z) - CliniQ: A Multi-faceted Benchmark for Electronic Health Record Retrieval with Semantic Match Assessment [11.815222175336695]
我々は、このギャップに対処するために、新しい公開 EHR 検索ベンチマークである CliniQ を導入する。
我々は、MIMIC-IIIのICDコードと処方薬ラベルとともに、1000の放電サマリーノートに基づくベンチマークを構築した。
我々は,従来の正確なマッチングから一般的な高密度検索まで,さまざまな検索手法を総合的に評価する。
論文 参考訳(メタデータ) (2025-02-10T08:33:47Z) - MedCoT: Medical Chain of Thought via Hierarchical Expert [48.91966620985221]
本稿では,新しい階層的検証手法であるMedCoTについて述べる。
生体画像検査における解釈可能性と精度を高めるように設計されている。
4つの標準Med-VQAデータセットに対する実験的評価は、MedCoTが既存の最先端アプローチを上回ることを示している。
論文 参考訳(メタデータ) (2024-12-18T11:14:02Z) - Medchain: Bridging the Gap Between LLM Agents and Clinical Practice through Interactive Sequential Benchmarking [58.25862290294702]
臨床ワークフローの5つの重要な段階をカバーする12,163の臨床症例のデータセットであるMedChainを提示する。
フィードバック機構とMCase-RAGモジュールを統合したAIシステムであるMedChain-Agentも提案する。
論文 参考訳(メタデータ) (2024-12-02T15:25:02Z) - Comprehensive and Practical Evaluation of Retrieval-Augmented Generation Systems for Medical Question Answering [70.44269982045415]
Retrieval-augmented Generation (RAG) は,大規模言語モデル (LLM) の性能向上のための有望なアプローチとして登場した。
医療用QAデータセットに様々な補助的要素を提供するMedRGB(MedRGB)を導入する。
実験結果から,検索した文書のノイズや誤情報の処理能力に限界があることが判明した。
論文 参考訳(メタデータ) (2024-11-14T06:19:18Z) - AutoMIR: Effective Zero-Shot Medical Information Retrieval without Relevance Labels [19.90354530235266]
本稿では,自己学習仮説文書埋め込み (SL-HyDE) という新しい手法を導入し,この問題に対処する。
SL-HyDEは、与えられたクエリに基づいて仮説文書を生成するために、大きな言語モデル(LLM)をジェネレータとして利用する。
実世界の医療シナリオを基盤とした総合的な評価フレームワークとして,中国医療情報検索ベンチマーク(CMIRB)を提案する。
論文 参考訳(メタデータ) (2024-10-26T02:53:20Z) - Semi-Supervised Variational Reasoning for Medical Dialogue Generation [70.838542865384]
医療対話生成には,患者の状態と医師の行動の2つの重要な特徴がある。
医療対話生成のためのエンドツーエンドの変分推論手法を提案する。
行動分類器と2つの推論検出器から構成される医師政策ネットワークは、拡張推論能力のために提案される。
論文 参考訳(メタデータ) (2021-05-13T04:14:35Z) - MedDG: An Entity-Centric Medical Consultation Dataset for Entity-Aware
Medical Dialogue Generation [86.38736781043109]
MedDGという12種類の消化器疾患に関連する大規模医用対話データセットを構築し,公開する。
MedDGデータセットに基づく2種類の医療対話タスクを提案する。1つは次のエンティティ予測であり、もう1つは医師の反応生成である。
実験結果から,プレトレイン言語モデルと他のベースラインは,両方のタスクに苦戦し,データセットの性能が劣ることがわかった。
論文 参考訳(メタデータ) (2020-10-15T03:34:33Z) - BiteNet: Bidirectional Temporal Encoder Network to Predict Medical
Outcomes [53.163089893876645]
本稿では,患者の医療旅行におけるコンテキスト依存と時間的関係を捉える,新たな自己注意機構を提案する。
エンド・ツー・エンドの双方向時間エンコーダネットワーク(BiteNet)が患者の旅路の表現を学習する。
実世界のEHRデータセットを用いた2つの教師付き予測と2つの教師なしクラスタリングタスクにおける手法の有効性を評価した。
論文 参考訳(メタデータ) (2020-09-24T00:42:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。