論文の概要: Combining Domain-Specific Models and LLMs for Automated Disease Phenotyping from Survey Data
- arxiv url: http://arxiv.org/abs/2410.20695v1
- Date: Mon, 28 Oct 2024 02:55:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-29 12:14:32.406568
- Title: Combining Domain-Specific Models and LLMs for Automated Disease Phenotyping from Survey Data
- Title(参考訳): ドメイン特化モデルとLCMの組み合わせによる自動疾患診断
- Authors: Gal Beeri, Benoit Chamot, Elena Latchem, Shruthi Venkatesh, Sarah Whalan, Van Zyl Kruger, David Martino,
- Abstract要約: 本研究では,ドメイン固有モデルであるBERN2と大規模言語モデル(LLM)を組み合わせることにより,調査データから自動表現性を高める可能性について検討した。
我々は ORIGINS 調査データから,エンティティ認識と正規化モデルであるBERN2 を用いて情報抽出を行った。
BERN2は疾患の言及を抽出・正規化する上で高い性能を示し、特にFew Shot InferenceとRAGオーケストレーションとのLLMの統合により精度が向上した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: This exploratory pilot study investigated the potential of combining a domain-specific model, BERN2, with large language models (LLMs) to enhance automated disease phenotyping from research survey data. Motivated by the need for efficient and accurate methods to harmonize the growing volume of survey data with standardized disease ontologies, we employed BERN2, a biomedical named entity recognition and normalization model, to extract disease information from the ORIGINS birth cohort survey data. After rigorously evaluating BERN2's performance against a manually curated ground truth dataset, we integrated various LLMs using prompt engineering, Retrieval-Augmented Generation (RAG), and Instructional Fine-Tuning (IFT) to refine the model's outputs. BERN2 demonstrated high performance in extracting and normalizing disease mentions, and the integration of LLMs, particularly with Few Shot Inference and RAG orchestration, further improved accuracy. This approach, especially when incorporating structured examples, logical reasoning prompts, and detailed context, offers a promising avenue for developing tools to enable efficient cohort profiling and data harmonization across large, heterogeneous research datasets.
- Abstract(参考訳): 本研究では,大規模言語モデル (LLM) とドメイン固有モデル BERN2 を組み合わせることにより,研究データから自動表現能力を高める可能性について検討した。
標準化された病気オントロジーを併用した調査データの増大量調和のための効率的かつ正確な方法の必要性から,本研究では,ORIGINS出生コホート調査データから疾患情報を抽出するために,生物医学的名称のエンティティ認識・正規化モデルであるBERN2を用いた。
BERN2の性能を手動でキュレートした地中真理データセットに対して厳密に評価した後、素早いエンジニアリング、RAG(Retrieval-Augmented Generation)、IFT(Instructional Fine-Tuning)を用いて様々なLCMを統合し、モデルの出力を改良した。
BERN2は疾患の言及を抽出・正規化する上で高い性能を示し、特にFew Shot InferenceとRAGオーケストレーションとのLLMの統合により精度が向上した。
このアプローチは、特に構造化例、論理的推論プロンプト、詳細なコンテキストを取り入れた場合、大規模な異種研究データセットをまたいだ効率的なコホートプロファイリングとデータ調和を可能にするツールを開発する上で有望な手段を提供する。
関連論文リスト
- Knowledge-Driven Feature Selection and Engineering for Genotype Data with Large Language Models [35.084222907099644]
FREEFORM, Free-flow Reasoning, Ensembling for Enhanced Feature Output and Robust Modeling。
https://github.com/PennShenLab/FREEFORM.com/FreeFORMはGitHubのオープンソースフレームワークとして利用可能だ。
論文 参考訳(メタデータ) (2024-10-02T17:53:08Z) - Language Models and Retrieval Augmented Generation for Automated Structured Data Extraction from Diagnostic Reports [2.932283627137903]
この研究は、2つのデータセットを利用していた:7,294の放射線診断報告は、BT-RADS(Brain tumor Reporting and Data System)スコアに注釈付けされ、2,154の病理診断報告は、isocitrate dehydrogenase(IDH)変異のステータスに注釈付けされた。
論文 参考訳(メタデータ) (2024-09-15T15:21:45Z) - LLMs-in-the-loop Part-1: Expert Small AI Models for Bio-Medical Text Translation [0.0]
本研究では,医療用テキストに最適化された教師ありニューラルマシン翻訳モデルを開発するために,新しい"LLMs-in-the-loop"アプローチを提案する。
6つの言語での独自の平行コーパスは、科学論文、人工的に生成された臨床文書、医療文書から編纂された。
MarianMTベースのモデルは、Google Translate、DeepL、GPT-4-Turboより優れている。
論文 参考訳(メタデータ) (2024-07-16T19:32:23Z) - GenBench: A Benchmarking Suite for Systematic Evaluation of Genomic Foundation Models [56.63218531256961]
我々はGenomic Foundation Modelsの有効性を評価するためのベンチマークスイートであるGenBenchを紹介する。
GenBenchはモジュラーで拡張可能なフレームワークを提供し、様々な最先端の方法論をカプセル化している。
本稿では,タスク固有性能におけるモデルアーキテクチャとデータセット特性の相互作用のニュアンス解析を行う。
論文 参考訳(メタデータ) (2024-06-01T08:01:05Z) - ArSDM: Colonoscopy Images Synthesis with Adaptive Refinement Semantic
Diffusion Models [69.9178140563928]
大腸内視鏡検査は臨床診断や治療に不可欠である。
注釈付きデータの不足は、既存の手法の有効性と一般化を制限する。
本稿では, 下流作業に有用な大腸内視鏡画像を生成するために, 適応Refinement Semantic Diffusion Model (ArSDM)を提案する。
論文 参考訳(メタデータ) (2023-09-03T07:55:46Z) - PathLDM: Text conditioned Latent Diffusion Model for Histopathology [62.970593674481414]
そこで我々は,高品質な病理像を生成するためのテキスト条件付き遅延拡散モデルPathLDMを紹介した。
提案手法は画像とテキストデータを融合して生成プロセスを強化する。
我々は,TCGA-BRCAデータセット上でのテキスト・ツー・イメージ生成において,SoTA FIDスコア7.64を達成し,FID30.1と最も近いテキスト・コンディショナブル・コンペティタを著しく上回った。
論文 参考訳(メタデータ) (2023-09-01T22:08:32Z) - TSGM: A Flexible Framework for Generative Modeling of Synthetic Time Series [61.436361263605114]
時系列データは、研究者と産業組織間のデータの共有を妨げるため、しばしば不足または非常に敏感である。
本稿では,合成時系列の生成モデリングのためのオープンソースフレームワークである時系列生成モデリング(TSGM)を紹介する。
論文 参考訳(メタデータ) (2023-05-19T10:11:21Z) - EPICURE Ensemble Pretrained Models for Extracting Cancer Mutations from
Literature [12.620782629498814]
EPICUREは、条件付きランダムフィールドパターン層とスパン予測パターン層を備え、テキストからがんの突然変異を抽出するアンサンブル事前訓練モデルである。
3つのベンチマークデータセットの実験結果から,ベースラインモデルと比較して競争力のある結果が得られた。
論文 参考訳(メタデータ) (2021-06-11T09:08:15Z) - Adversarial Sample Enhanced Domain Adaptation: A Case Study on
Predictive Modeling with Electronic Health Records [57.75125067744978]
ドメイン適応を容易にするデータ拡張手法を提案する。
逆生成したサンプルはドメイン適応時に使用される。
その結果,本手法の有効性とタスクの一般性が確認された。
論文 参考訳(メタデータ) (2021-01-13T03:20:20Z) - Select-ProtoNet: Learning to Select for Few-Shot Disease Subtype
Prediction [55.94378672172967]
本研究は, 類似患者のサブグループを同定し, 数発の疾患のサブタイプ予測問題に焦点を当てた。
新しいモデルを開発するためにメタラーニング技術を導入し、関連する臨床課題から共通の経験や知識を抽出する。
我々の新しいモデルは、単純だが効果的なメタ学習マシンであるPrototypeal Networkと呼ばれる、慎重に設計されたメタラーナーに基づいて構築されている。
論文 参考訳(メタデータ) (2020-09-02T02:50:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。