論文の概要: Leveraging Open-Source Large Language Models for Clinical Information Extraction in Resource-Constrained Settings
- arxiv url: http://arxiv.org/abs/2507.20859v1
- Date: Mon, 28 Jul 2025 14:12:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:58.151785
- Title: Leveraging Open-Source Large Language Models for Clinical Information Extraction in Resource-Constrained Settings
- Title(参考訳): 資源制約設定におけるオープンソースの大規模言語モデルを活用した臨床情報抽出
- Authors: Luc Builtjes, Joeran Bosma, Mathias Prokop, Bram van Ginneken, Alessa Hering,
- Abstract要約: 医療報告には豊富な臨床情報が含まれているが、しばしば非構造化され、ドメイン固有の言語で書かれる。
本研究は、オランダにおける28の臨床情報抽出タスクを含むDRAGONベンチマークにおいて、9つのオープンソースジェネレーティブLCMを評価した。
我々は,オープンソースのジェネレーティブLLMを用いた情報抽出フレームワークであるtextttllm_extractinator を開発した。
- 参考スコア(独自算出の注目度): 3.799555574114989
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Medical reports contain rich clinical information but are often unstructured and written in domain-specific language, posing challenges for information extraction. While proprietary large language models (LLMs) have shown promise in clinical natural language processing, their lack of transparency and data privacy concerns limit their utility in healthcare. This study therefore evaluates nine open-source generative LLMs on the DRAGON benchmark, which includes 28 clinical information extraction tasks in Dutch. We developed \texttt{llm\_extractinator}, a publicly available framework for information extraction using open-source generative LLMs, and used it to assess model performance in a zero-shot setting. Several 14 billion parameter models, Phi-4-14B, Qwen-2.5-14B, and DeepSeek-R1-14B, achieved competitive results, while the bigger Llama-3.3-70B model achieved slightly higher performance at greater computational cost. Translation to English prior to inference consistently degraded performance, highlighting the need of native-language processing. These findings demonstrate that open-source LLMs, when used with our framework, offer effective, scalable, and privacy-conscious solutions for clinical information extraction in low-resource settings.
- Abstract(参考訳): 医療報告には豊富な臨床情報が含まれているが、しばしば構造化されておらず、ドメイン固有の言語で書かれており、情報抽出の課題を提起している。
プロプライエタリな大規模言語モデル(LLM)は、臨床自然言語処理において有望であるが、透明性の欠如とデータプライバシに関する懸念は、医療における有用性を制限している。
そこで本研究では,オランダにおける28の臨床情報抽出タスクを含むDRAGONベンチマークを用いて,9つのオープンソースジェネレーティブLCMを評価した。
我々は,オープンソースの生成LDMを用いた情報抽出フレームワークであるtexttt{llm\_extractinator} を開発し,ゼロショット設定でモデル性能を評価する。
いくつかの14億のパラメータモデル、Phi-4-14B、Qwen-2.5-14B、DeepSeek-R1-14Bは競争力のある結果を得た。
推論前の英語への翻訳はパフォーマンスを一貫して低下させ、ネイティブ言語処理の必要性を強調した。
これらの結果から,低リソース環境下での臨床情報抽出に有効な,スケーラブルで,プライバシに配慮したソリューションをオープンソースで提供することが示唆された。
関連論文リスト
- BRIDGE: Benchmarking Large Language Models for Understanding Real-world Clinical Practice Text [10.071956824618418]
大規模言語モデル(LLM)は医療応用に大きな期待を持ち、急速に進化している。
既存のベンチマークのほとんどは、医療試験スタイルの質問やPubMedから派生したテキストに依存している。
9言語にわたる実世界の臨床データソースから得られた87のタスクからなる総合的なベンチマークBRIDGEを提案する。
論文 参考訳(メタデータ) (2025-04-28T04:13:18Z) - Leveraging large language models for structured information extraction from pathology reports [0.0]
乳がん病理組織学的報告から構造情報を抽出する際の大規模言語モデルの精度を評価する。
構造化情報抽出のためのオープンソースツールは、自然言語を使って非プログラマがカスタマイズできる。
論文 参考訳(メタデータ) (2025-02-14T21:46:02Z) - Enhancing Code Generation for Low-Resource Languages: No Silver Bullet [55.39571645315926]
大規模言語モデル(LLM)は、プログラミング言語の構文、意味論、使用パターンを学ぶために、大規模で多様なデータセットに依存している。
低リソース言語では、そのようなデータの限られた可用性は、モデルを効果的に一般化する能力を損なう。
本稿では,低リソース言語におけるLLMの性能向上のためのいくつかの手法の有効性を実証研究する。
論文 参考訳(メタデータ) (2025-01-31T12:23:28Z) - Leveraging Large Language Models for Medical Information Extraction and Query Generation [2.1793134762413433]
本稿では,大言語モデル(LLM)を臨床試験検索プロセスに統合するシステムを提案する。
クエリ生成には6つのLCMを評価し,最小限の計算資源を必要とする,オープンソースと比較的小さなモデルに着目した。
論文 参考訳(メタデータ) (2024-10-31T12:01:51Z) - ExaRanker-Open: Synthetic Explanation for IR using Open-Source LLMs [60.81649785463651]
ExaRanker-Openを導入し、オープンソース言語モデルを適用して、説明を生成する。
以上の結果から,LLMのサイズが大きくなるにつれて,説明の組み込みが神経ランク付けを継続的に促進することが明らかとなった。
論文 参考訳(メタデータ) (2024-02-09T11:23:14Z) - "Knowing When You Don't Know": A Multilingual Relevance Assessment Dataset for Robust Retrieval-Augmented Generation [90.09260023184932]
Retrieval-Augmented Generation (RAG) は、外部の知識源を活用して、事実の幻覚を減らすことで、Large Language Model (LLM) を出力する。
NoMIRACLは18言語にまたがるRAGにおけるLDM堅牢性を評価するための人為的アノテーション付きデータセットである。
本研究は,<i>Halucination rate</i>,<i>Halucination rate</i>,<i>Halucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sr。
論文 参考訳(メタデータ) (2023-12-18T17:18:04Z) - FRASIMED: a Clinical French Annotated Resource Produced through
Crosslingual BERT-Based Annotation Projection [0.6116681488656472]
本稿では,言語横断的アノテーション投影による注釈付きデータセットの翻訳版を生成する手法を紹介する。
本報告では,フランスにおける2'051の合成臨床症例からなる注釈コーパスであるFRASIMED(Francial Annotated Resource with Semantic Information for Medical Detection)の作成について述べる。
論文 参考訳(メタデータ) (2023-09-19T17:17:28Z) - Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts [75.33019401706188]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。
我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。
我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文 参考訳(メタデータ) (2023-06-20T08:27:47Z) - Self-Verification Improves Few-Shot Clinical Information Extraction [73.6905567014859]
大規模言語モデル (LLMs) は、数発のテキスト内学習を通じて臨床キュレーションを加速する可能性を示している。
正確性や解釈可能性に関する問題、特に健康のようなミッションクリティカルな領域ではまだ苦戦している。
本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。
論文 参考訳(メタデータ) (2023-05-30T22:05:11Z) - Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of
Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。
脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文 参考訳(メタデータ) (2022-04-10T21:46:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。