論文の概要: AutoMIR: Effective Zero-Shot Medical Information Retrieval without Relevance Labels
- arxiv url: http://arxiv.org/abs/2410.20050v1
- Date: Sat, 26 Oct 2024 02:53:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-29 12:21:35.290449
- Title: AutoMIR: Effective Zero-Shot Medical Information Retrieval without Relevance Labels
- Title(参考訳): AutoMIR: 関連ラベルのない効果的なゼロショット医療情報検索
- Authors: Lei Li, Xiangxu Zhang, Xiao Zhou, Zheng Liu,
- Abstract要約: 本稿では,自己学習仮説文書埋め込み (SL-HyDE) という新しい手法を導入し,この問題に対処する。
SL-HyDEは、与えられたクエリに基づいて仮説文書を生成するために、大きな言語モデル(LLM)をジェネレータとして利用する。
実世界の医療シナリオを基盤とした総合的な評価フレームワークとして,中国医療情報検索ベンチマーク(CMIRB)を提案する。
- 参考スコア(独自算出の注目度): 19.90354530235266
- License:
- Abstract: Medical information retrieval (MIR) is essential for retrieving relevant medical knowledge from diverse sources, including electronic health records, scientific literature, and medical databases. However, achieving effective zero-shot dense retrieval in the medical domain poses substantial challenges due to the lack of relevance-labeled data. In this paper, we introduce a novel approach called Self-Learning Hypothetical Document Embeddings (SL-HyDE) to tackle this issue. SL-HyDE leverages large language models (LLMs) as generators to generate hypothetical documents based on a given query. These generated documents encapsulate key medical context, guiding a dense retriever in identifying the most relevant documents. The self-learning framework progressively refines both pseudo-document generation and retrieval, utilizing unlabeled medical corpora without requiring any relevance-labeled data. Additionally, we present the Chinese Medical Information Retrieval Benchmark (CMIRB), a comprehensive evaluation framework grounded in real-world medical scenarios, encompassing five tasks and ten datasets. By benchmarking ten models on CMIRB, we establish a rigorous standard for evaluating medical information retrieval systems. Experimental results demonstrate that SL-HyDE significantly surpasses existing methods in retrieval accuracy while showcasing strong generalization and scalability across various LLM and retriever configurations. CMIRB data and evaluation code are publicly available at: https://github.com/CMIRB-benchmark/CMIRB.
- Abstract(参考訳): 医療情報検索(MIR)は、電子的な健康記録、科学文献、医療データベースなど、様々な情報源から関連する医療情報を取得するために不可欠である。
しかし, 医療領域におけるゼロショット高密度検索を効果的に行うには, 関連ラベルデータがないため, 重大な課題が生じる。
本稿では,自己学習型仮説文書埋め込み (SL-HyDE) という新しい手法を導入し,この問題に対処する。
SL-HyDEは、与えられたクエリに基づいて仮説文書を生成するために、大きな言語モデル(LLM)をジェネレータとして利用する。
これらの生成された文書は、重要な医療コンテキストをカプセル化し、最も関連性の高い文書を特定するために、密集したレトリバーを導く。
自己学習フレームワークは、関連付けされたデータを必要としない未ラベルの医療コーパスを利用して、擬似文書生成と検索の両方を段階的に洗練する。
さらに,5つのタスクと10のデータセットを含む実世界の医療シナリオを基盤とした総合的な評価フレームワークとして,中国医療情報検索ベンチマーク(CMIRB)を提案する。
CMIRB上で10のモデルをベンチマークすることで、医療情報検索システムを評価するための厳格な基準を確立する。
実験の結果,SL-HyDE は検索精度において既存の手法をはるかに上回り,様々な LLM およびレトリバー構成に対して高い一般化と拡張性を示した。
CMIRBのデータと評価コードは、https://github.com/CMIRB-benchmark/CMIRBで公開されている。
関連論文リスト
- Large Language Model Benchmarks in Medical Tasks [11.196196955468992]
本稿では,医療用大規模言語モデル(LLM)タスクに使用される様々なベンチマークデータセットについて調査する。
調査では、データセットをモダリティで分類し、その重要性、データ構造、LLMの開発への影響について論じている。
この論文は、言語多様性、構造化オミクスデータ、および合成に対する革新的なアプローチを含むデータセットの必要性を強調している。
論文 参考訳(メタデータ) (2024-10-28T11:07:33Z) - FEDMEKI: A Benchmark for Scaling Medical Foundation Models via Federated Knowledge Injection [83.54960238236548]
FEDMEKIはデータのプライバシーを守るだけでなく、医療基盤モデルの能力を高める。
FEDMEKIは、医療ファンデーションモデルに対して、直接データを公開することなく、幅広い医療知識から学ぶことを可能にする。
論文 参考訳(メタデータ) (2024-08-17T15:18:56Z) - GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。
GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。
38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文 参考訳(メタデータ) (2024-08-06T17:59:21Z) - SeRTS: Self-Rewarding Tree Search for Biomedical Retrieval-Augmented Generation [50.26966969163348]
大規模言語モデル(LLM)は,検索増強世代(RAG)の進展に伴い,生物医学領域において大きな可能性を示した。
既存の検索強化アプローチは、様々なクエリやドキュメント、特に医療知識クエリに対処する上で、課題に直面している。
モンテカルロ木探索(MCTS)と自己回帰パラダイムに基づく自己回帰木探索(SeRTS)を提案する。
論文 参考訳(メタデータ) (2024-06-17T06:48:31Z) - The METRIC-framework for assessing data quality for trustworthy AI in
medicine: a systematic review [0.0]
信頼できるAIの開発は特に医学において重要である。
ディープラーニング(DL)におけるデータ品質(トレーニング/テスト)の重要性に焦点を当てる。
本稿では,医療訓練データのための特化データ品質フレームワークであるMETRICフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-21T09:15:46Z) - AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。
この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。
高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文 参考訳(メタデータ) (2024-02-15T06:46:48Z) - Improving Medical Reasoning through Retrieval and Self-Reflection with Retrieval-Augmented Large Language Models [18.984165679347026]
Self-BioRAGは、説明文の生成、ドメイン固有の文書の検索、生成したレスポンスの自己参照を専門とする、バイオメディカルテキストに信頼できるフレームワークである。
84kのバイオメディカル・インストラクション・セットを用いて、カスタマイズされた反射トークンで生成された説明を評価できるセルフビオRAGを訓練する。
論文 参考訳(メタデータ) (2024-01-27T02:29:42Z) - Zero-Shot Medical Information Retrieval via Knowledge Graph Embedding [27.14794371879541]
本稿では、ゼロショット医療情報検索(MIR)の新しいアプローチであるMedFusionRankを紹介する。
提案手法は、学習済みのBERTスタイルのモデルを用いて、コンパクトだが情報的なキーワードを抽出する。
これらのキーワードは、医療知識グラフ内の概念エンティティにリンクすることで、ドメイン知識に富む。
論文 参考訳(メタデータ) (2023-10-31T16:26:33Z) - Development and validation of a natural language processing algorithm to
pseudonymize documents in the context of a clinical data warehouse [53.797797404164946]
この研究は、この領域でツールやリソースを共有する際に直面する困難を浮き彫りにしている。
臨床文献のコーパスを12種類に分類した。
私たちは、ディープラーニングモデルと手動ルールの結果をマージして、ハイブリッドシステムを構築します。
論文 参考訳(メタデータ) (2023-03-23T17:17:46Z) - Automatically Extracting Information in Medical Dialogue: Expert System
And Attention for Labelling [0.0]
Expert System and Attention for Labelling (ESAL)は、医療記録から特徴を取り出すための新しいモデルである。
我々は、さまざまなカテゴリのセマンティクスを検索するために、専門家と事前訓練されたBERTの混合を使用します。
実験では,ESALは医療情報分類の性能を大幅に改善した。
論文 参考訳(メタデータ) (2022-11-28T16:49:13Z) - EBOCA: Evidences for BiOmedical Concepts Association Ontology [55.41644538483948]
本論文は,生物医学領域の概念とそれらの関連性を記述するオントロジーであるEBOCAと,それらの関連性を支持するエビデンスを提案する。
DISNETのサブセットから得られるテストデータとテキストからの自動アソシエーション抽出が変換され、実際のシナリオで使用できる知識グラフが作成されるようになった。
論文 参考訳(メタデータ) (2022-08-01T18:47:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。