論文の概要: AutoMIR: Effective Zero-Shot Medical Information Retrieval without Relevance Labels
- arxiv url: http://arxiv.org/abs/2410.20050v1
- Date: Sat, 26 Oct 2024 02:53:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-29 12:21:35.290449
- Title: AutoMIR: Effective Zero-Shot Medical Information Retrieval without Relevance Labels
- Title(参考訳): AutoMIR: 関連ラベルのない効果的なゼロショット医療情報検索
- Authors: Lei Li, Xiangxu Zhang, Xiao Zhou, Zheng Liu,
- Abstract要約: 本稿では,自己学習仮説文書埋め込み (SL-HyDE) という新しい手法を導入し,この問題に対処する。
SL-HyDEは、与えられたクエリに基づいて仮説文書を生成するために、大きな言語モデル(LLM)をジェネレータとして利用する。
実世界の医療シナリオを基盤とした総合的な評価フレームワークとして,中国医療情報検索ベンチマーク(CMIRB)を提案する。
- 参考スコア(独自算出の注目度): 19.90354530235266
- License:
- Abstract: Medical information retrieval (MIR) is essential for retrieving relevant medical knowledge from diverse sources, including electronic health records, scientific literature, and medical databases. However, achieving effective zero-shot dense retrieval in the medical domain poses substantial challenges due to the lack of relevance-labeled data. In this paper, we introduce a novel approach called Self-Learning Hypothetical Document Embeddings (SL-HyDE) to tackle this issue. SL-HyDE leverages large language models (LLMs) as generators to generate hypothetical documents based on a given query. These generated documents encapsulate key medical context, guiding a dense retriever in identifying the most relevant documents. The self-learning framework progressively refines both pseudo-document generation and retrieval, utilizing unlabeled medical corpora without requiring any relevance-labeled data. Additionally, we present the Chinese Medical Information Retrieval Benchmark (CMIRB), a comprehensive evaluation framework grounded in real-world medical scenarios, encompassing five tasks and ten datasets. By benchmarking ten models on CMIRB, we establish a rigorous standard for evaluating medical information retrieval systems. Experimental results demonstrate that SL-HyDE significantly surpasses existing methods in retrieval accuracy while showcasing strong generalization and scalability across various LLM and retriever configurations. CMIRB data and evaluation code are publicly available at: https://github.com/CMIRB-benchmark/CMIRB.
- Abstract(参考訳): 医療情報検索(MIR)は、電子的な健康記録、科学文献、医療データベースなど、様々な情報源から関連する医療情報を取得するために不可欠である。
しかし, 医療領域におけるゼロショット高密度検索を効果的に行うには, 関連ラベルデータがないため, 重大な課題が生じる。
本稿では,自己学習型仮説文書埋め込み (SL-HyDE) という新しい手法を導入し,この問題に対処する。
SL-HyDEは、与えられたクエリに基づいて仮説文書を生成するために、大きな言語モデル(LLM)をジェネレータとして利用する。
これらの生成された文書は、重要な医療コンテキストをカプセル化し、最も関連性の高い文書を特定するために、密集したレトリバーを導く。
自己学習フレームワークは、関連付けされたデータを必要としない未ラベルの医療コーパスを利用して、擬似文書生成と検索の両方を段階的に洗練する。
さらに,5つのタスクと10のデータセットを含む実世界の医療シナリオを基盤とした総合的な評価フレームワークとして,中国医療情報検索ベンチマーク(CMIRB)を提案する。
CMIRB上で10のモデルをベンチマークすることで、医療情報検索システムを評価するための厳格な基準を確立する。
実験の結果,SL-HyDE は検索精度において既存の手法をはるかに上回り,様々な LLM およびレトリバー構成に対して高い一般化と拡張性を示した。
CMIRBのデータと評価コードは、https://github.com/CMIRB-benchmark/CMIRBで公開されている。
関連論文リスト
- Fact or Guesswork? Evaluating Large Language Model's Medical Knowledge with Structured One-Hop Judgment [108.55277188617035]
大規模言語モデル(LLM)は、様々な下流タスクドメインで広く採用されているが、実際の医学的知識を直接呼び起こし適用する能力はいまだ探索されていない。
既存の医療QAベンチマークの多くは、複雑な推論やマルチホップ推論を評価しており、LSM固有の医療知識を推論能力から切り離すことが困難である。
LLMの1ホップの医療知識を測定するために特別に設計されたデータセットであるMedical Knowledge Judgmentを紹介する。
論文 参考訳(メタデータ) (2025-02-20T05:27:51Z) - Enhancing Health Information Retrieval with RAG by Prioritizing Topical Relevance and Factual Accuracy [0.7673339435080445]
本稿では, 科学的根拠に基づく健康関連文書の検索を促進するために, RAG(Retrieval-Augmented Generation)を駆使した手法を提案する。
特に,3段階のモデルを提案する。第1段階では,科学的文献によって構成された知識ベースから,利用者のクエリを用いて,関連した項目を検索する。
第2段階では、これらのパスは初期クエリとともにLLMによって処理され、コンテキストに関連のあるリッチテキスト(GenText)を生成する。
最終段階では、検索対象の文書を評価・ランク付けする。
論文 参考訳(メタデータ) (2025-02-07T05:19:13Z) - Medchain: Bridging the Gap Between LLM Agents and Clinical Practice through Interactive Sequential Benchmarking [58.25862290294702]
臨床ワークフローの5つの重要な段階をカバーする12,163の臨床症例のデータセットであるMedChainを提示する。
フィードバック機構とMCase-RAGモジュールを統合したAIシステムであるMedChain-Agentも提案する。
論文 参考訳(メタデータ) (2024-12-02T15:25:02Z) - Comprehensive and Practical Evaluation of Retrieval-Augmented Generation Systems for Medical Question Answering [70.44269982045415]
Retrieval-augmented Generation (RAG) は,大規模言語モデル (LLM) の性能向上のための有望なアプローチとして登場した。
医療用QAデータセットに様々な補助的要素を提供するMedRGB(MedRGB)を導入する。
実験結果から,検索した文書のノイズや誤情報の処理能力に限界があることが判明した。
論文 参考訳(メタデータ) (2024-11-14T06:19:18Z) - FEDMEKI: A Benchmark for Scaling Medical Foundation Models via Federated Knowledge Injection [83.54960238236548]
FEDMEKIはデータのプライバシーを守るだけでなく、医療基盤モデルの能力を高める。
FEDMEKIは、医療ファンデーションモデルに対して、直接データを公開することなく、幅広い医療知識から学ぶことを可能にする。
論文 参考訳(メタデータ) (2024-08-17T15:18:56Z) - Improving Medical Reasoning through Retrieval and Self-Reflection with Retrieval-Augmented Large Language Models [18.984165679347026]
Self-BioRAGは、説明文の生成、ドメイン固有の文書の検索、生成したレスポンスの自己参照を専門とする、バイオメディカルテキストに信頼できるフレームワークである。
84kのバイオメディカル・インストラクション・セットを用いて、カスタマイズされた反射トークンで生成された説明を評価できるセルフビオRAGを訓練する。
論文 参考訳(メタデータ) (2024-01-27T02:29:42Z) - Zero-Shot Medical Information Retrieval via Knowledge Graph Embedding [27.14794371879541]
本稿では、ゼロショット医療情報検索(MIR)の新しいアプローチであるMedFusionRankを紹介する。
提案手法は、学習済みのBERTスタイルのモデルを用いて、コンパクトだが情報的なキーワードを抽出する。
これらのキーワードは、医療知識グラフ内の概念エンティティにリンクすることで、ドメイン知識に富む。
論文 参考訳(メタデータ) (2023-10-31T16:26:33Z) - Development and validation of a natural language processing algorithm to
pseudonymize documents in the context of a clinical data warehouse [53.797797404164946]
この研究は、この領域でツールやリソースを共有する際に直面する困難を浮き彫りにしている。
臨床文献のコーパスを12種類に分類した。
私たちは、ディープラーニングモデルと手動ルールの結果をマージして、ハイブリッドシステムを構築します。
論文 参考訳(メタデータ) (2023-03-23T17:17:46Z) - Automatically Extracting Information in Medical Dialogue: Expert System
And Attention for Labelling [0.0]
Expert System and Attention for Labelling (ESAL)は、医療記録から特徴を取り出すための新しいモデルである。
我々は、さまざまなカテゴリのセマンティクスを検索するために、専門家と事前訓練されたBERTの混合を使用します。
実験では,ESALは医療情報分類の性能を大幅に改善した。
論文 参考訳(メタデータ) (2022-11-28T16:49:13Z) - EBOCA: Evidences for BiOmedical Concepts Association Ontology [55.41644538483948]
本論文は,生物医学領域の概念とそれらの関連性を記述するオントロジーであるEBOCAと,それらの関連性を支持するエビデンスを提案する。
DISNETのサブセットから得られるテストデータとテキストからの自動アソシエーション抽出が変換され、実際のシナリオで使用できる知識グラフが作成されるようになった。
論文 参考訳(メタデータ) (2022-08-01T18:47:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。