論文の概要: Mining Unstructured Medical Texts With Conformal Active Learning
- arxiv url: http://arxiv.org/abs/2502.04372v1
- Date: Wed, 05 Feb 2025 12:59:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-10 14:59:10.848377
- Title: Mining Unstructured Medical Texts With Conformal Active Learning
- Title(参考訳): コンフォーマルアクティブラーニングによる非構造化医用テキストのマイニング
- Authors: Juliano Genari, Guilherme Tegoni Goedert,
- Abstract要約: 構造化されていないテキストからデータをマイニングするためのフレキシブルで効率的なフレームワークを提案する。
我々のフレームワークは,200文字のテキストを手作業でラベル付けすることで,高いパフォーマンスを実現している。
本手法は,リアルタイム疫学モニタリングに対する実用的で,スケーラブルで,プライバシを重視したアプローチを提供する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: The extraction of relevant data from Electronic Health Records (EHRs) is crucial to identifying symptoms and automating epidemiological surveillance processes. By harnessing the vast amount of unstructured text in EHRs, we can detect patterns that indicate the onset of disease outbreaks, enabling faster, more targeted public health responses. Our proposed framework provides a flexible and efficient solution for mining data from unstructured texts, significantly reducing the need for extensive manual labeling by specialists. Experiments show that our framework achieving strong performance with as few as 200 manually labeled texts, even for complex classification problems. Additionally, our approach can function with simple lightweight models, achieving competitive and occasionally even better results compared to more resource-intensive deep learning models. This capability not only accelerates processing times but also preserves patient privacy, as the data can be processed on weaker on-site hardware rather than being transferred to external systems. Our methodology, therefore, offers a practical, scalable, and privacy-conscious approach to real-time epidemiological monitoring, equipping health institutions to respond rapidly and effectively to emerging health threats.
- Abstract(参考訳): 電子健康記録(EHR)から関連するデータを抽出することは、症状を特定し、疫学的監視プロセスを自動化するために重要である。
EHRの膨大な量の非構造化テキストを活用することで、病気の発生の開始を示すパターンを検出し、より速く、よりターゲットを絞った公衆衛生対応を可能にします。
提案するフレームワークは、非構造化テキストからデータをマイニングするための柔軟で効率的なソリューションを提供し、専門家による広範囲な手動ラベリングの必要性を大幅に低減する。
実験により, 複雑な分類問題であっても, 200文字のラベル付きテキストを手作業で処理することで, 高い性能を実現することができた。
さらに、私たちのアプローチは単純な軽量モデルで機能し、よりリソース集約的なディープラーニングモデルと比較して、競争力があり、時にはより良い結果を得ることができます。
この機能は処理時間を短縮するだけでなく、患者のプライバシも保護する。
したがって、我々の手法は、リアルタイム疫学的モニタリングに対する実用的でスケーラブルでプライバシーに配慮したアプローチを提供し、医療機関に、新興の健康脅威に対して迅速かつ効果的に対応させる。
関連論文リスト
- Graph-Augmented LLMs for Personalized Health Insights: A Case Study in Sleep Analysis [2.303486126296845]
大規模言語モデル(LLM)は、インタラクティブなヘルスアドバイスを提供する上で、有望であることを示している。
Retrieval-Augmented Generation (RAG) やファインチューニングのような従来の手法は、複雑で多次元で時間的に関係のあるデータを完全に活用できないことが多い。
本稿では,健康意識のパーソナライズと明確性を高めるために,グラフ拡張LDMフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-24T01:22:54Z) - Text2Data: Low-Resource Data Generation with Textual Control [100.5970757736845]
Text2Dataは、ラベルのないデータを使って基盤となるデータ配布を理解する新しいアプローチである。
制御性を確保し、破滅的な忘れを効果的に防止する、制約最適化に基づく新たな学習目標を通じて微調整を行う。
論文 参考訳(メタデータ) (2024-02-08T03:41:39Z) - Not Enough Labeled Data? Just Add Semantics: A Data-Efficient Method for
Inferring Online Health Texts [0.0]
低リソースの健康NLPタスクをモデル化する手段として,抽象表現(AMR)グラフを用いる。
AMRは、多文入力を表現し、複雑な用語から抽象化し、長距離関係をモデル化するため、オンラインの健康テキストをモデル化するのに適している。
本実験は,テキスト埋め込みをセマンティックグラフ埋め込みで拡張することにより,6つの低リソースなNLPタスクの性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2023-09-18T15:37:30Z) - PathLDM: Text conditioned Latent Diffusion Model for Histopathology [62.970593674481414]
そこで我々は,高品質な病理像を生成するためのテキスト条件付き遅延拡散モデルPathLDMを紹介した。
提案手法は画像とテキストデータを融合して生成プロセスを強化する。
我々は,TCGA-BRCAデータセット上でのテキスト・ツー・イメージ生成において,SoTA FIDスコア7.64を達成し,FID30.1と最も近いテキスト・コンディショナブル・コンペティタを著しく上回った。
論文 参考訳(メタデータ) (2023-09-01T22:08:32Z) - Self-Verification Improves Few-Shot Clinical Information Extraction [73.6905567014859]
大規模言語モデル (LLMs) は、数発のテキスト内学習を通じて臨床キュレーションを加速する可能性を示している。
正確性や解釈可能性に関する問題、特に健康のようなミッションクリティカルな領域ではまだ苦戦している。
本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。
論文 参考訳(メタデータ) (2023-05-30T22:05:11Z) - Does Synthetic Data Generation of LLMs Help Clinical Text Mining? [51.205078179427645]
臨床テキストマイニングにおけるOpenAIのChatGPTの可能性を検討する。
本稿では,高品質な合成データを大量に生成する新たな学習パラダイムを提案する。
提案手法により,下流タスクの性能が大幅に向上した。
論文 参考訳(メタデータ) (2023-03-08T03:56:31Z) - Towards Structuring Real-World Data at Scale: Deep Learning for
Extracting Key Oncology Information from Clinical Text with Patient-Level
Supervision [10.929271646369887]
実世界データ(RWD)の詳細な患者情報の大部分は、フリーテキストの臨床文書でのみ利用可能である。
従来のルールベースのシステムは、臨床テキストの言語的変異やあいまいさに弱い。
本稿では,患者レベルの管理を医療登録から活用することを提案する。
論文 参考訳(メタデータ) (2022-03-20T03:42:03Z) - FIT: a Fast and Accurate Framework for Solving Medical Inquiring and
Diagnosing Tasks [10.687562550605739]
自己診断(Self-diagnosis)は、患者をクエリーし、疾患の予測を行うエージェントを介して、低コストでアクセス可能な医療を提供する。
我々は、次に収集するデータを決定するために情報理論の報酬を使用するFITと呼ばれる競合フレームワークを提案する。
シミュレーションした2つのデータセットから、FITは大規模な検索空間問題に効果的に対処でき、既存のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-12-02T10:12:49Z) - Towards Automated Anamnesis Summarization: BERT-based Models for Symptom
Extraction [0.0]
本稿では,ドイツの患者のモノローグのデータセットを提示し,適切に定義された情報抽出タスクを定式化する。
症状識別と症状属性抽出の両方において,モデルの有望な性能を示すことができる。
論文 参考訳(メタデータ) (2020-11-03T13:34:36Z) - Uncovering the structure of clinical EEG signals with self-supervised
learning [64.4754948595556]
教師付き学習パラダイムは、しばしば利用可能なラベル付きデータの量によって制限される。
この現象は脳波(EEG)などの臨床関連データに特に問題となる。
ラベルのないデータから情報を抽出することで、ディープニューラルネットワークとの競合性能に到達することができるかもしれない。
論文 参考訳(メタデータ) (2020-07-31T14:34:47Z) - Self-Training with Improved Regularization for Sample-Efficient Chest
X-Ray Classification [80.00316465793702]
挑戦的なシナリオで堅牢なモデリングを可能にするディープラーニングフレームワークを提案する。
その結果,85%のラベル付きデータを用いて,大規模データ設定で学習した分類器の性能に適合する予測モデルを構築することができた。
論文 参考訳(メタデータ) (2020-05-03T02:36:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。