論文の概要: A Medical Information Extraction Workbench to Process German Clinical
Text
- arxiv url: http://arxiv.org/abs/2207.03885v1
- Date: Fri, 8 Jul 2022 13:19:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-11 17:41:40.779220
- Title: A Medical Information Extraction Workbench to Process German Clinical
Text
- Title(参考訳): ドイツ臨床テキスト処理のための医療情報抽出ワークベンチ
- Authors: Roland Roller, Laura Seiffe, Ammer Ayach, Sebastian M\"oller, Oliver
Marten, Michael Mikhailov, Christoph Alt, Danilo Schmidt, Fabian Halleck,
Marcel Naik, Wiebke Duettmann and Klemens Budde
- Abstract要約: 我々は、ドイツの臨床テキスト処理モデルのコレクションであるワークベンチを紹介する。
これらのモデルは、ドイツのネフローロジーレポートの未確認コーパスで訓練されている。
私たちのワークベンチは公開されており、すぐに、ベンチマークとして、あるいは関連する問題に移行できるようにしています。
- 参考スコア(独自算出の注目度): 5.519657218427976
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Background: In the information extraction and natural language processing
domain, accessible datasets are crucial to reproduce and compare results.
Publicly available implementations and tools can serve as benchmark and
facilitate the development of more complex applications. However, in the
context of clinical text processing the number of accessible datasets is scarce
-- and so is the number of existing tools. One of the main reasons is the
sensitivity of the data. This problem is even more evident for non-English
languages.
Approach: In order to address this situation, we introduce a workbench: a
collection of German clinical text processing models. The models are trained on
a de-identified corpus of German nephrology reports.
Result: The presented models provide promising results on in-domain data.
Moreover, we show that our models can be also successfully applied to other
biomedical text in German. Our workbench is made publicly available so it can
be used out of the box, as a benchmark or transferred to related problems.
- Abstract(参考訳): 背景:情報抽出と自然言語処理の領域では、アクセス可能なデータセットは結果の再生と比較に不可欠である。
公開されている実装とツールはベンチマークとして機能し、より複雑なアプリケーションの開発を促進することができる。
しかし、臨床テキスト処理の文脈では、アクセス可能なデータセットの数は少なく、既存のツールの数もそうである。
主な理由の1つは、データの感度である。
この問題は英語以外の言語でさらに明らかである。
アプローチ: この状況に対処するために、ドイツの臨床テキスト処理モデルのコレクションであるワークベンチを紹介します。
モデルはドイツの腎臓学レポートの非同定コーパスで訓練されている。
結果: 提示されたモデルはドメイン内のデータに対して有望な結果を提供する。
さらに,本モデルはドイツ語の他の生体医学的テキストにも適用可能であることを示す。
私たちのワークベンチは公開されており、すぐに、ベンチマークとして、あるいは関連する問題に移行できるようにしています。
関連論文リスト
- Dolma: an Open Corpus of Three Trillion Tokens for Language Model
Pretraining Research [140.6355066137106]
われわれは、Webコンテンツ、科学論文、コード、パブリックドメインの書籍、ソーシャルメディア、百科事典の素材を多種に混ぜて構築した3兆の英語コーパスであるDolmaをリリースする。
本報告では、Dolmaの設計原則、構築の詳細、内容の要約を含む、Dolmaについて述べる。
Dolmaは、言語モデリングの科学を構築し研究するために設計された、最先端のオープン言語モデルとフレームワークであるOLMoのトレーニングに使用されている。
論文 参考訳(メタデータ) (2024-01-31T20:29:50Z) - Knowledge-Infused Prompting: Assessing and Advancing Clinical Text Data
Generation with Large Language Models [48.07083163501746]
臨床自然言語処理には、ドメイン固有の課題に対処できる方法が必要である。
我々は,そのプロセスに知識を注入する,革新的で資源効率のよいアプローチであるClinGenを提案する。
7つのNLPタスクと16のデータセットを比較検討した結果,ClinGenはさまざまなタスクのパフォーマンスを継続的に向上させることがわかった。
論文 参考訳(メタデータ) (2023-11-01T04:37:28Z) - Factuality Detection using Machine Translation -- a Use Case for German
Clinical Text [45.875111164923545]
本研究は、機械翻訳を用いて、英語データをドイツ語に翻訳し、トランスフォーマーに基づく事実性検出モデルを訓練する簡単な解を提案する。
臨床的テキストを自動的に処理する際には、特定の症状が明示的に存在せず、おそらくは存在せず、言及されていない、あるいは肯定されていない場合、その違いが生じるため、現実性は重要な役割を果たす。
論文 参考訳(メタデータ) (2023-08-17T07:24:06Z) - Cross-lingual Argument Mining in the Medical Domain [5.9647924003148365]
このプロジェクトは、手動による介入なしに注釈付きデータを生成する効果的な方法として、自動で英語からターゲット言語(スペイン語)にアノテーションを翻訳し、プロジェクトすることを示す。
また、スペイン語で自動生成したデータを用いて、元の英語評価設定の結果を改善する方法も示す。
論文 参考訳(メタデータ) (2023-01-25T11:21:12Z) - RuMedBench: A Russian Medical Language Understanding Benchmark [58.99199480170909]
本稿では,複数のタスクタイプをカバーするオープンなロシア語医療言語理解ベンチマークについて述べる。
我々は、新しいタスクのための統一されたフォーマットラベリング、データ分割、評価メトリクスを作成します。
シングルナンバーメトリックは、ベンチマークに対処するモデルの能力を表す。
論文 参考訳(メタデータ) (2022-01-17T16:23:33Z) - GERNERMED -- An Open German Medical NER Model [0.7310043452300736]
医療データ分析の分野でのデータマイニングは、関連するデータを取得するために、構造化されていないデータの処理にのみ依存する必要があることが多い。
本研究では,ドイツのテキストデータにおける医学的実体型を検出するためのNERタスクのための,最初のオープンなニューラルNLPモデルであるGERNERMEDを提案する。
論文 参考訳(メタデータ) (2021-09-24T17:53:47Z) - CBLUE: A Chinese Biomedical Language Understanding Evaluation Benchmark [51.38557174322772]
中国初のバイオメディカル言語理解評価ベンチマークを提示する。
名前付きエンティティ認識、情報抽出、臨床診断正規化、単文/文対分類を含む自然言語理解タスクのコレクションである。
本研究は,現在の11種類の中国モデルによる実験結果について報告し,その実験結果から,現在最先端のニューラルモデルがヒトの天井よりもはるかに悪い性能を示すことが示された。
論文 参考訳(メタデータ) (2021-06-15T12:25:30Z) - A Practical Approach towards Causality Mining in Clinical Text using
Active Transfer Learning [2.6125458645126907]
因果関係マイニングは、最先端の自然言語処理技術の応用を必要とする活発な研究領域である。
この研究は、臨床テキストを因果知識に変換するフレームワークを作成することを目的としている。
論文 参考訳(メタデータ) (2020-12-10T06:51:13Z) - Benchmarking Automated Clinical Language Simplification: Dataset,
Algorithm, and Evaluation [48.87254340298189]
我々はMedLaneという名の新しいデータセットを構築し、自動化された臨床言語簡易化手法の開発と評価を支援する。
我々は,人間のアノテーションの手順に従い,最先端のパフォーマンスを実現するDECLAREと呼ばれる新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-12-04T06:09:02Z) - Text Mining to Identify and Extract Novel Disease Treatments From
Unstructured Datasets [56.38623317907416]
Google Cloudを使って、NPRラジオ番組のポッドキャストのエピソードを書き起こします。
次に、テキストを体系的に前処理するためのパイプラインを構築します。
我々のモデルは、Omeprazoleが心臓熱傷の治療に役立てることに成功しました。
論文 参考訳(メタデータ) (2020-10-22T19:52:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。