論文の概要: Pyclipse, a library for deidentification of free-text clinical notes
- arxiv url: http://arxiv.org/abs/2311.02748v1
- Date: Sun, 5 Nov 2023 19:56:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-07 16:02:07.128458
- Title: Pyclipse, a library for deidentification of free-text clinical notes
- Title(参考訳): フリーテキスト臨床ノートの同定のためのライブラリPyclipse
- Authors: Callandra Moore, Jonathan Ranisau, Walter Nelson, Jeremy Petch,
Alistair Johnson
- Abstract要約: 同定アルゴリズムの比較を効率化するpyclipseフレームワークを提案する。
Pyclipseは、ローカル臨床データ上でオープンソースの識別アルゴリズムを実行するための単一のインターフェースとして機能する。
同じベンチマークデータセットで評価しても、アルゴリズムのパフォーマンスは、元の論文で報告された結果に一貫して劣っていることが分かりました。
- 参考スコア(独自算出の注目度): 0.40329768057075643
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated deidentification of clinical text data is crucial due to the high
cost of manual deidentification, which has been a barrier to sharing clinical
text and the advancement of clinical natural language processing. However,
creating effective automated deidentification tools faces several challenges,
including issues in reproducibility due to differences in text processing,
evaluation methods, and a lack of consistency across clinical domains and
institutions. To address these challenges, we propose the pyclipse framework, a
unified and configurable evaluation procedure to streamline the comparison of
deidentification algorithms. Pyclipse serves as a single interface for running
open-source deidentification algorithms on local clinical data, allowing for
context-specific evaluation. To demonstrate the utility of pyclipse, we compare
six deidentification algorithms across four public and two private clinical
text datasets. We find that algorithm performance consistently falls short of
the results reported in the original papers, even when evaluated on the same
benchmark dataset. These discrepancies highlight the complexity of accurately
assessing and comparing deidentification algorithms, emphasizing the need for a
reproducible, adjustable, and extensible framework like pyclipse. Our framework
lays the foundation for a unified approach to evaluate and improve
deidentification tools, ultimately enhancing patient protection in clinical
natural language processing.
- Abstract(参考訳): 臨床テキストの共有と臨床自然言語処理の進歩の障壁となっている手作業による識別コストの高まりから,臨床テキストデータの自動識別が重要である。
しかしながら、テキスト処理の違いによる再現性の問題、評価方法の相違、臨床領域や機関間の一貫性の欠如など、効果的な自動識別ツールの作成にはいくつかの課題がある。
これらの課題に対処するため,我々は,識別アルゴリズムの比較を合理化するための統一的かつ構成可能な評価手順であるpyclipseフレームワークを提案する。
Pyclipseは、ローカル臨床データ上でオープンソースの識別アルゴリズムを実行するための単一のインターフェースとして機能し、コンテキスト固有の評価を可能にする。
pyclipseの有用性を実証するため、4つのパブリックおよび2つのプライベート臨床テキストデータセット間で6つの識別アルゴリズムを比較した。
同じベンチマークデータセットで評価しても、アルゴリズムのパフォーマンスは元の論文で報告された結果に一貫して及ばないことがわかった。
これらの相違は、識別アルゴリズムを正確に評価し比較する複雑さを強調し、再現可能で調整可能なpyclipseのような拡張可能なフレームワークの必要性を強調している。
本フレームワークは, 診断ツールの評価と改善のための統一的アプローチの基礎を築き, 最終的に臨床自然言語処理における患者保護を増強する。
関連論文リスト
- DIRI: Adversarial Patient Reidentification with Large Language Models for Evaluating Clinical Text Anonymization [13.038800602897354]
本研究は, 大規模言語モデルを用いて患者を同定し, 臨床記録の再検討を行った。
本手法は, 臨床診断書に適合する患者を同定するために, 大規模言語モデルを用いている。
ClinicalBERTが最も有効であり, マスキングでPIIが同定できたが, 臨床記録の9%は再同定された。
論文 参考訳(メタデータ) (2024-10-22T14:06:31Z) - DeIDClinic: A Multi-Layered Framework for De-identification of Clinical Free-text Data [6.473402241020136]
本研究は,臨床テキストを微調整した深層学習モデルであるCeriorBERTを統合することにより,MASKフレームワークを強化する。
このシステムは、臨床文書内の機密性のある実体を効果的に識別し、再認識するか、置き換える。
リスク評価機能も開発され、文書内のコンテキストのユニークさを分析してリスクレベルに分類する。
論文 参考訳(メタデータ) (2024-10-02T15:16:02Z) - Attribute Structuring Improves LLM-Based Evaluation of Clinical Text
Summaries [62.32403630651586]
大規模言語モデル(LLM)は、正確な臨床テキスト要約を生成する可能性を示しているが、根拠付けと評価に関する問題に苦慮している。
本稿では、要約評価プロセスを構成するAttribute Structuring(AS)を用いた一般的な緩和フレームワークについて検討する。
ASは、臨床テキスト要約における人間のアノテーションと自動メトリクスの対応性を一貫して改善する。
論文 参考訳(メタデータ) (2024-03-01T21:59:03Z) - Knowledge-Infused Prompting: Assessing and Advancing Clinical Text Data
Generation with Large Language Models [48.07083163501746]
臨床自然言語処理には、ドメイン固有の課題に対処できる方法が必要である。
我々は,そのプロセスに知識を注入する,革新的で資源効率のよいアプローチであるClinGenを提案する。
7つのNLPタスクと16のデータセットを比較検討した結果,ClinGenはさまざまなタスクのパフォーマンスを継続的に向上させることがわかった。
論文 参考訳(メタデータ) (2023-11-01T04:37:28Z) - Self-Verification Improves Few-Shot Clinical Information Extraction [73.6905567014859]
大規模言語モデル (LLMs) は、数発のテキスト内学習を通じて臨床キュレーションを加速する可能性を示している。
正確性や解釈可能性に関する問題、特に健康のようなミッションクリティカルな領域ではまだ苦戦している。
本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。
論文 参考訳(メタデータ) (2023-05-30T22:05:11Z) - Detecting automatically the layout of clinical documents to enhance the
performances of downstream natural language processing [53.797797404164946]
我々は,臨床用PDF文書を処理し,臨床用テキストのみを抽出するアルゴリズムを設計した。
このアルゴリズムは、PDFを使った最初のテキスト抽出と、続いてボディテキスト、左書き、フッタなどのカテゴリに分類される。
それぞれのセクションのテキストから興味ある医学的概念を抽出し,医療的パフォーマンスを評価した。
論文 参考訳(メタデータ) (2023-05-23T08:38:33Z) - Development and validation of a natural language processing algorithm to
pseudonymize documents in the context of a clinical data warehouse [53.797797404164946]
この研究は、この領域でツールやリソースを共有する際に直面する困難を浮き彫りにしている。
臨床文献のコーパスを12種類に分類した。
私たちは、ディープラーニングモデルと手動ルールの結果をマージして、ハイブリッドシステムを構築します。
論文 参考訳(メタデータ) (2023-03-23T17:17:46Z) - Interactive Medical Image Segmentation with Self-Adaptive Confidence
Calibration [10.297081695050457]
本稿では,自己適応信頼度校正(MECCA)を用いた対話型メダカルセグメンテーションという対話型セグメンテーションフレームワークを提案する。
新規な行動に基づく信頼ネットワークを通じて評価を確立し、MARLから補正動作を得る。
種々の医用画像データセットに対する実験結果から,提案アルゴリズムの有意な性能が示された。
論文 参考訳(メタデータ) (2021-11-15T12:38:56Z) - Benchmarking Automated Clinical Language Simplification: Dataset,
Algorithm, and Evaluation [48.87254340298189]
我々はMedLaneという名の新しいデータセットを構築し、自動化された臨床言語簡易化手法の開発と評価を支援する。
我々は,人間のアノテーションの手順に従い,最先端のパフォーマンスを実現するDECLAREと呼ばれる新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-12-04T06:09:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。