論文の概要: Leveraging deep active learning to identify low-resource mobility
functioning information in public clinical notes
- arxiv url: http://arxiv.org/abs/2311.15946v1
- Date: Mon, 27 Nov 2023 15:53:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-28 14:26:55.200511
- Title: Leveraging deep active learning to identify low-resource mobility
functioning information in public clinical notes
- Title(参考訳): ディープ・アクティブ・ラーニングを活用した公共臨床ノートにおける低リソース・モビリティ情報の同定
- Authors: Tuan-Dung Le, Zhuqi Miao, Samuel Alvarado, Brittany Smith, William
Paiva and Thanh Thieu
- Abstract要約: 国際機能・障害・健康分類(ICF)のモビリティ領域に関する最初の公開アノテートデータセット
我々はNational NLP Clinical Challenges (n2c2) 研究データセットを用いてキーワード拡張を用いた候補文のプールを構築する。
最終的なデータセットは,5,511のアクションエンティティ,5,328のモビリティエンティティ,306のアシストエンティティ,639の量子化エンティティを含む,合計11,784のエンティティからなる4,265の文で構成されています。
- 参考スコア(独自算出の注目度): 0.157286095422595
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Function is increasingly recognized as an important indicator of whole-person
health, although it receives little attention in clinical natural language
processing research. We introduce the first public annotated dataset
specifically on the Mobility domain of the International Classification of
Functioning, Disability and Health (ICF), aiming to facilitate automatic
extraction and analysis of functioning information from free-text clinical
notes. We utilize the National NLP Clinical Challenges (n2c2) research dataset
to construct a pool of candidate sentences using keyword expansion. Our active
learning approach, using query-by-committee sampling weighted by density
representativeness, selects informative sentences for human annotation. We
train BERT and CRF models, and use predictions from these models to guide the
selection of new sentences for subsequent annotation iterations. Our final
dataset consists of 4,265 sentences with a total of 11,784 entities, including
5,511 Action entities, 5,328 Mobility entities, 306 Assistance entities, and
639 Quantification entities. The inter-annotator agreement (IAA), averaged over
all entity types, is 0.72 for exact matching and 0.91 for partial matching. We
also train and evaluate common BERT models and state-of-the-art Nested NER
models. The best F1 scores are 0.84 for Action, 0.7 for Mobility, 0.62 for
Assistance, and 0.71 for Quantification. Empirical results demonstrate
promising potential of NER models to accurately extract mobility functioning
information from clinical text. The public availability of our annotated
dataset will facilitate further research to comprehensively capture functioning
information in electronic health records (EHRs).
- Abstract(参考訳): 機能は、臨床自然言語処理研究ではほとんど注目されていないが、人体全体の健康の重要指標としてますます認識されている。
フリーテキスト臨床ノートから機能情報の自動抽出と解析を容易にすることを目的として,国際機能分類・障害・健康分類(ICF)のモビリティ領域に特化して,最初のパブリックアノテートデータセットを紹介した。
我々はNational NLP Clinical Challenges (n2c2) 研究データセットを用いてキーワード拡張を用いた候補文のプールを構築する。
密度代表性に重みづけられた質問毎サンプリングを用いて,人間アノテーションのための情報文を選択するアクティブラーニング手法を提案する。
我々はBERTモデルとCRFモデルを訓練し、これらのモデルからの予測を用いて、後続のアノテーション反復に対する新しい文の選択を誘導する。
最終的なデータセットは,5,511のアクションエンティティ,5,328のモビリティエンティティ,306のアシストエンティティ,639の量子化エンティティを含む,合計11,784のエンティティからなる4,265の文で構成されています。
アノテーション間の合意(IAA)は、すべてのエンティティタイプの平均で、正確なマッチングは0.72、部分的なマッチングは0.91である。
また、一般的なBERTモデルと最先端Nested NERモデルをトレーニングし評価する。
ベストのf1スコアはアクション0.84、モビリティ0.7、アシスト0.62、定量化0.71である。
実験結果から,NERモデルが臨床テキストからモビリティ機能情報を正確に抽出する可能性を示す。
注釈付きデータセットの公開は、電子健康記録(EHRs)における機能情報を包括的に把握するためのさらなる研究に役立つだろう。
関連論文リスト
- Attribute Structuring Improves LLM-Based Evaluation of Clinical Text
Summaries [62.32403630651586]
大規模言語モデル(LLM)は、正確な臨床テキスト要約を生成する可能性を示しているが、根拠付けと評価に関する問題に苦慮している。
本稿では、要約評価プロセスを構成するAttribute Structuring(AS)を用いた一般的な緩和フレームワークについて検討する。
ASは、臨床テキスト要約における人間のアノテーションと自動メトリクスの対応性を一貫して改善する。
論文 参考訳(メタデータ) (2024-03-01T21:59:03Z) - Low-resource classification of mobility functioning information in
clinical sentences using large language models [0.0]
本研究は,臨床ノートから機能的情報の存在を正確に識別する,公開可能な大規模言語モデル(LLM)の能力を評価するものである。
我々は,n2c2臨床ノートから算出したモビリティNERデータセットから,1000文のバランスの取れたバイナリ分類データセットを収集した。
論文 参考訳(メタデータ) (2023-12-15T20:59:17Z) - Self-Verification Improves Few-Shot Clinical Information Extraction [73.6905567014859]
大規模言語モデル (LLMs) は、数発のテキスト内学習を通じて臨床キュレーションを加速する可能性を示している。
正確性や解釈可能性に関する問題、特に健康のようなミッションクリティカルな領域ではまだ苦戦している。
本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。
論文 参考訳(メタデータ) (2023-05-30T22:05:11Z) - Development and validation of a natural language processing algorithm to
pseudonymize documents in the context of a clinical data warehouse [53.797797404164946]
この研究は、この領域でツールやリソースを共有する際に直面する困難を浮き彫りにしている。
臨床文献のコーパスを12種類に分類した。
私たちは、ディープラーニングモデルと手動ルールの結果をマージして、ハイブリッドシステムを構築します。
論文 参考訳(メタデータ) (2023-03-23T17:17:46Z) - Natural Language Processing Methods to Identify Oncology Patients at
High Risk for Acute Care with Clinical Notes [9.49721872804122]
本研究は, がん患者の急性期治療(ACU)のリスクを明らかにするために, 自然言語処理がいかに有用かを評価するものである。
構造化健康データ(SHD)を用いたリスク予測は標準となっているが、自由テキスト形式を用いた予測は複雑である。
論文 参考訳(メタデータ) (2022-09-28T06:31:19Z) - A Multimodal Transformer: Fusing Clinical Notes with Structured EHR Data
for Interpretable In-Hospital Mortality Prediction [8.625186194860696]
臨床ノートと構造化HRデータを融合し,院内死亡率の予測に役立てる新しいマルチモーダルトランスフォーマーを提案する。
そこで本研究では,臨床ノートにおいて重要な単語を選択するための統合的勾配(IG)手法を提案する。
また,臨床 BERT における領域適応型事前訓練とタスク適応型微調整の重要性についても検討した。
論文 参考訳(メタデータ) (2022-08-09T03:49:52Z) - Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of
Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。
脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文 参考訳(メタデータ) (2022-04-10T21:46:52Z) - A Unified Framework of Medical Information Annotation and Extraction for
Chinese Clinical Text [1.4841452489515765]
現在の最先端(SOTA)NLPモデルは、ディープラーニング技術と高度に統合されている。
本研究では,医学的実体認識,関係抽出,属性抽出の工学的枠組みを提案する。
論文 参考訳(メタデータ) (2022-03-08T03:19:16Z) - CBLUE: A Chinese Biomedical Language Understanding Evaluation Benchmark [51.38557174322772]
中国初のバイオメディカル言語理解評価ベンチマークを提示する。
名前付きエンティティ認識、情報抽出、臨床診断正規化、単文/文対分類を含む自然言語理解タスクのコレクションである。
本研究は,現在の11種類の中国モデルによる実験結果について報告し,その実験結果から,現在最先端のニューラルモデルがヒトの天井よりもはるかに悪い性能を示すことが示された。
論文 参考訳(メタデータ) (2021-06-15T12:25:30Z) - Benchmarking Automated Clinical Language Simplification: Dataset,
Algorithm, and Evaluation [48.87254340298189]
我々はMedLaneという名の新しいデータセットを構築し、自動化された臨床言語簡易化手法の開発と評価を支援する。
我々は,人間のアノテーションの手順に従い,最先端のパフォーマンスを実現するDECLAREと呼ばれる新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-12-04T06:09:02Z) - Med7: a transferable clinical natural language processing model for
electronic health records [6.935142529928062]
本稿では,臨床自然言語処理のための匿名認識モデルを提案する。
このモデルは、薬物名、ルート、頻度、摂取量、強度、形態、期間の7つのカテゴリを認識するよう訓練されている。
本研究は、米国における集中治療室のデータから、英国における二次医療精神保健記録(CRIS)へのモデル導入可能性を評価するものである。
論文 参考訳(メタデータ) (2020-03-03T00:55:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。