論文の概要: MMRAG: Multi-Mode Retrieval-Augmented Generation with Large Language Models for Biomedical In-Context Learning
- arxiv url: http://arxiv.org/abs/2502.15954v1
- Date: Fri, 21 Feb 2025 21:36:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:58:35.931924
- Title: MMRAG: Multi-Mode Retrieval-Augmented Generation with Large Language Models for Biomedical In-Context Learning
- Title(参考訳): MMRAG: バイオメディカル・インコンテキスト学習のための大規模言語モデルを用いた多モード検索型生成
- Authors: Zaifu Zhan, Jun Wang, Shuang Zhou, Jiawen Deng, Rui Zhang,
- Abstract要約: 本稿では,新しいMulti-mode Search-augmented Generation (MMRAG) フレームワークを提案する。
MMRAGはランダムモード、トップモード、多様性モード、クラスモードの4つの検索戦略を統合している。
本研究は3つの中核生物医学的NLP課題に対するMRAGの評価である。
- 参考スコア(独自算出の注目度): 16.59236233944259
- License:
- Abstract: Objective: To optimize in-context learning in biomedical natural language processing by improving example selection. Methods: We introduce a novel multi-mode retrieval-augmented generation (MMRAG) framework, which integrates four retrieval strategies: (1) Random Mode, selecting examples arbitrarily; (2) Top Mode, retrieving the most relevant examples based on similarity; (3) Diversity Mode, ensuring variation in selected examples; and (4) Class Mode, selecting category-representative examples. This study evaluates MMRAG on three core biomedical NLP tasks: Named Entity Recognition (NER), Relation Extraction (RE), and Text Classification (TC). The datasets used include BC2GM for gene and protein mention recognition (NER), DDI for drug-drug interaction extraction (RE), GIT for general biomedical information extraction (RE), and HealthAdvice for health-related text classification (TC). The framework is tested with two large language models (Llama2-7B, Llama3-8B) and three retrievers (Contriever, MedCPT, BGE-Large) to assess performance across different retrieval strategies. Results: The results from the Random mode indicate that providing more examples in the prompt improves the model's generation performance. Meanwhile, Top mode and Diversity mode significantly outperform Random mode on the RE (DDI) task, achieving an F1 score of 0.9669, a 26.4% improvement. Among the three retrievers tested, Contriever outperformed the other two in a greater number of experiments. Additionally, Llama 2 and Llama 3 demonstrated varying capabilities across different tasks, with Llama 3 showing a clear advantage in handling NER tasks. Conclusion: MMRAG effectively enhances biomedical in-context learning by refining example selection, mitigating data scarcity issues, and demonstrating superior adaptability for NLP-driven healthcare applications.
- Abstract(参考訳): 目的: 実例選択を改善することにより, 生物医学的自然言語処理における文脈内学習を最適化する。
方法:(1)ランダムモード,任意の例を選択する,(2)トップモード,類似性に基づいて最も関連性の高い例を検索する,(3)多様性モード,選択例のバラツキを保証する,(4)クラスモード,の4つの検索戦略を統合する,新しいマルチモード検索拡張生成(MMRAG)フレームワークを導入する。
本研究は,3つの中核生物医学的NLPタスク(NER),関係抽出(RE),テキスト分類(TC)についてMMRAGを評価した。
BC2GM for gene and protein mention recognition (NER)、DDI for drug-drug interaction extract (RE)、GIT for general biomedical information extract (RE)、HealthAdvice for health-related text classification (TC)である。
このフレームワークは、2つの大きな言語モデル(Llama2-7B、Llama3-8B)と3つのレトリバー(Contriever、MedCPT、BGE-Large)でテストされ、さまざまな検索戦略のパフォーマンスを評価する。
結果: ランダムモードの結果は、プロンプトでより多くのサンプルを提供することで、モデルの生成性能が向上することを示している。
一方、トップモードとダイバーシティモードは、RE(DDI)タスクにおいてランダムモードを著しく上回り、F1スコアは0.9669、26.4%改善した。
試験された3つのレトリバーのうち、コントリバーは他の2つよりも多くの実験で優れていた。
加えて、Llama 2とLlama 3は異なるタスクにまたがるさまざまな機能を示しており、Llama 3はNERタスクを扱う上で明らかな優位性を示している。
結論:MMRAGは,サンプル選択の精錬,データ不足の軽減,NLP駆動型医療アプリケーションへの適応性の向上などにより,バイオメディカル・イン・コンテクスト学習を効果的に促進する。
関連論文リスト
- Leveraging Labelled Data Knowledge: A Cooperative Rectification Learning Network for Semi-supervised 3D Medical Image Segmentation [27.94353306813293]
半教師付き3次元医用画像セグメンテーションは,少ないラベル付きデータと多数の非ラベル付きデータを用いて正確なセグメンテーションを実現することを目的としている。
半教師付き学習法の設計における主な課題は、学習に未学習データを効果的に活用することである。
一貫性学習戦略のための高品質な擬似ラベルを作成するための新しい手法を提案する。
論文 参考訳(メタデータ) (2025-02-17T05:29:50Z) - Cross-Patient Pseudo Bags Generation and Curriculum Contrastive Learning for Imbalanced Multiclassification of Whole Slide Image [5.3961058952354275]
本稿では,従来のWSIに類似した特徴分布を持つサブバッグを生成することによって,詳細な情報を学習することを提案する。
疑似バグ生成アルゴリズムを用いて、WSIの豊富な冗長な情報をさらに活用する。
従来のアプローチとは異なり,我々のフレームワークは,バッグレベルの表現の学習から,マルチインスタンスバッグの特徴分布の理解と活用へと移行している。
論文 参考訳(メタデータ) (2024-11-18T03:35:34Z) - Lessons Learned on Information Retrieval in Electronic Health Records: A Comparison of Embedding Models and Pooling Strategies [8.822087602255504]
大きな言語モデルを臨床領域に適用することは、医療記録を処理するという文脈重大な性質のために困難である。
本稿では, 組込みモデルとプール法の違いが臨床領域の情報検索に与える影響について検討する。
論文 参考訳(メタデータ) (2024-09-23T16:16:08Z) - Brain Tumor Radiogenomic Classification [1.8276368987462532]
2次分類によるグリオ芽腫のMGMTバイオマーカー状態の予測を目的としたRSNA-MICCAI脳腫瘍ラジオゲノミクス分類の試み
データセットはトレーニングセット、トレーニング中に使用された検証セット、最終評価時にのみ使用されるテストの3つの主要なコホートに分割される。
論文 参考訳(メタデータ) (2024-01-11T10:30:09Z) - Genetic InfoMax: Exploring Mutual Information Maximization in
High-Dimensional Imaging Genetics Studies [50.11449968854487]
遺伝子ワイド・アソシエーション(GWAS)は、遺伝的変異と特定の形質の関係を同定するために用いられる。
画像遺伝学の表現学習は、GWASによって引き起こされる固有の課題により、ほとんど探索されていない。
本稿では,GWAS の具体的な課題に対処するために,トランスモーダル学習フレームワーク Genetic InfoMax (GIM) を提案する。
論文 参考訳(メタデータ) (2023-09-26T03:59:21Z) - Multi-Modality Multi-Scale Cardiovascular Disease Subtypes
Classification Using Raman Image and Medical History [2.9315342447802317]
これらの問題に対処する2つのコアモジュールを持つ新しいディープラーニング手法であるM3Sというマルチモードマルチスケールモデルを提案する。
まず,図形角度場(GAF)による様々な解像度画像にRSデータを変換してニュアンスを拡大する。
第2に、RSと医療履歴データを組み合わせて分類能力を高めるために、確率行列と重み行列を用いる。
論文 参考訳(メタデータ) (2023-04-18T22:09:16Z) - Ambiguous Medical Image Segmentation using Diffusion Models [60.378180265885945]
我々は,グループ洞察の分布を学習することで,複数の可算出力を生成する単一拡散モデルに基づくアプローチを提案する。
提案モデルでは,拡散の固有のサンプリングプロセスを利用してセグメンテーションマスクの分布を生成する。
その結果,提案手法は既存の最先端曖昧なセグメンテーションネットワークよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-04-10T17:58:22Z) - Stacking Ensemble Learning in Deep Domain Adaptation for Ophthalmic
Image Classification [61.656149405657246]
ドメイン適応は、十分なラベルデータを取得することが困難な画像分類タスクに有効である。
本稿では,3つのドメイン適応手法を拡張することで,アンサンブル学習を積み重ねるための新しい手法SELDAを提案する。
Age-Related Eye Disease Study (AREDS)ベンチマーク眼科データセットを用いた実験結果から,提案モデルの有効性が示された。
論文 参考訳(メタデータ) (2022-09-27T14:19:00Z) - Differentiable Agent-based Epidemiology [71.81552021144589]
GradABM(GradABM)は、エージェントベースのモデリングのためのスケーラブルで微分可能な設計で、勾配に基づく学習と自動微分が可能である。
GradABMは、コモディティハードウェア上で数秒で数百万の人口をシミュレートし、ディープニューラルネットワークと統合し、異種データソースを取り込みます。
論文 参考訳(メタデータ) (2022-07-20T07:32:02Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z) - Select-ProtoNet: Learning to Select for Few-Shot Disease Subtype
Prediction [55.94378672172967]
本研究は, 類似患者のサブグループを同定し, 数発の疾患のサブタイプ予測問題に焦点を当てた。
新しいモデルを開発するためにメタラーニング技術を導入し、関連する臨床課題から共通の経験や知識を抽出する。
我々の新しいモデルは、単純だが効果的なメタ学習マシンであるPrototypeal Networkと呼ばれる、慎重に設計されたメタラーナーに基づいて構築されている。
論文 参考訳(メタデータ) (2020-09-02T02:50:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。