論文の概要: A Medical Information Extraction Workbench to Process German Clinical
Text
- arxiv url: http://arxiv.org/abs/2207.03885v1
- Date: Fri, 8 Jul 2022 13:19:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-11 17:41:40.779220
- Title: A Medical Information Extraction Workbench to Process German Clinical
Text
- Title(参考訳): ドイツ臨床テキスト処理のための医療情報抽出ワークベンチ
- Authors: Roland Roller, Laura Seiffe, Ammer Ayach, Sebastian M\"oller, Oliver
Marten, Michael Mikhailov, Christoph Alt, Danilo Schmidt, Fabian Halleck,
Marcel Naik, Wiebke Duettmann and Klemens Budde
- Abstract要約: 我々は、ドイツの臨床テキスト処理モデルのコレクションであるワークベンチを紹介する。
これらのモデルは、ドイツのネフローロジーレポートの未確認コーパスで訓練されている。
私たちのワークベンチは公開されており、すぐに、ベンチマークとして、あるいは関連する問題に移行できるようにしています。
- 参考スコア(独自算出の注目度): 5.519657218427976
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Background: In the information extraction and natural language processing
domain, accessible datasets are crucial to reproduce and compare results.
Publicly available implementations and tools can serve as benchmark and
facilitate the development of more complex applications. However, in the
context of clinical text processing the number of accessible datasets is scarce
-- and so is the number of existing tools. One of the main reasons is the
sensitivity of the data. This problem is even more evident for non-English
languages.
Approach: In order to address this situation, we introduce a workbench: a
collection of German clinical text processing models. The models are trained on
a de-identified corpus of German nephrology reports.
Result: The presented models provide promising results on in-domain data.
Moreover, we show that our models can be also successfully applied to other
biomedical text in German. Our workbench is made publicly available so it can
be used out of the box, as a benchmark or transferred to related problems.
- Abstract(参考訳): 背景:情報抽出と自然言語処理の領域では、アクセス可能なデータセットは結果の再生と比較に不可欠である。
公開されている実装とツールはベンチマークとして機能し、より複雑なアプリケーションの開発を促進することができる。
しかし、臨床テキスト処理の文脈では、アクセス可能なデータセットの数は少なく、既存のツールの数もそうである。
主な理由の1つは、データの感度である。
この問題は英語以外の言語でさらに明らかである。
アプローチ: この状況に対処するために、ドイツの臨床テキスト処理モデルのコレクションであるワークベンチを紹介します。
モデルはドイツの腎臓学レポートの非同定コーパスで訓練されている。
結果: 提示されたモデルはドメイン内のデータに対して有望な結果を提供する。
さらに,本モデルはドイツ語の他の生体医学的テキストにも適用可能であることを示す。
私たちのワークベンチは公開されており、すぐに、ベンチマークとして、あるいは関連する問題に移行できるようにしています。
関連論文リスト
- Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。
特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。
また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文 参考訳(メタデータ) (2024-04-27T05:03:42Z) - Comprehensive Study on German Language Models for Clinical and Biomedical Text Understanding [16.220303664681172]
我々は、翻訳された英語の医療データとドイツの臨床データの3Bトークンから2.4Bトークンを抽出し、いくつかのドイツの医療言語モデルを事前訓練した。
得られたモデルは、名前付きエンティティ認識(NER)、多ラベル分類、抽出質問応答など、様々なドイツの下流タスクで評価された。
本研究は, 臨床モデルとスクラッチからトレーニングした成績を一致させたり, 上回ったりする能力が, 連続事前訓練によって実証されていることを結論する。
論文 参考訳(メタデータ) (2024-04-08T17:24:04Z) - Dolma: an Open Corpus of Three Trillion Tokens for Language Model Pretraining Research [139.69207791947738]
ドルマ (Dolma) は、ウェブコンテンツ、科学論文、コード、パブリックドメインの書籍、ソーシャルメディア、百科事典の素材を多用した3トリルの英語コーパスである。
我々はDolmaの設計原則、その構築の詳細、内容の要約を含む、Dolmaを文書化します。
我々は、重要なデータキュレーションの実践について学んだことを共有するために、Dolmaの中間状態の分析と実験結果を示す。
論文 参考訳(メタデータ) (2024-01-31T20:29:50Z) - Factuality Detection using Machine Translation -- a Use Case for German
Clinical Text [45.875111164923545]
本研究は、機械翻訳を用いて、英語データをドイツ語に翻訳し、トランスフォーマーに基づく事実性検出モデルを訓練する簡単な解を提案する。
臨床的テキストを自動的に処理する際には、特定の症状が明示的に存在せず、おそらくは存在せず、言及されていない、あるいは肯定されていない場合、その違いが生じるため、現実性は重要な役割を果たす。
論文 参考訳(メタデータ) (2023-08-17T07:24:06Z) - Cross-lingual Argument Mining in the Medical Domain [6.0158981171030685]
注釈付きデータがない医療用テキストでArgument Mining(AM)を実行する方法を示す。
我々の研究は、アノテーション(データ転送)を英語から特定のターゲット言語に自動翻訳・投影することは、注釈付きデータを生成する効果的な方法であることを示している。
また、スペイン語で自動生成されたデータを用いて、元の英語単言語設定の結果を改善する方法も示す。
論文 参考訳(メタデータ) (2023-01-25T11:21:12Z) - RuMedBench: A Russian Medical Language Understanding Benchmark [58.99199480170909]
本稿では,複数のタスクタイプをカバーするオープンなロシア語医療言語理解ベンチマークについて述べる。
我々は、新しいタスクのための統一されたフォーマットラベリング、データ分割、評価メトリクスを作成します。
シングルナンバーメトリックは、ベンチマークに対処するモデルの能力を表す。
論文 参考訳(メタデータ) (2022-01-17T16:23:33Z) - GERNERMED -- An Open German Medical NER Model [0.7310043452300736]
医療データ分析の分野でのデータマイニングは、関連するデータを取得するために、構造化されていないデータの処理にのみ依存する必要があることが多い。
本研究では,ドイツのテキストデータにおける医学的実体型を検出するためのNERタスクのための,最初のオープンなニューラルNLPモデルであるGERNERMEDを提案する。
論文 参考訳(メタデータ) (2021-09-24T17:53:47Z) - CBLUE: A Chinese Biomedical Language Understanding Evaluation Benchmark [51.38557174322772]
中国初のバイオメディカル言語理解評価ベンチマークを提示する。
名前付きエンティティ認識、情報抽出、臨床診断正規化、単文/文対分類を含む自然言語理解タスクのコレクションである。
本研究は,現在の11種類の中国モデルによる実験結果について報告し,その実験結果から,現在最先端のニューラルモデルがヒトの天井よりもはるかに悪い性能を示すことが示された。
論文 参考訳(メタデータ) (2021-06-15T12:25:30Z) - A Practical Approach towards Causality Mining in Clinical Text using
Active Transfer Learning [2.6125458645126907]
因果関係マイニングは、最先端の自然言語処理技術の応用を必要とする活発な研究領域である。
この研究は、臨床テキストを因果知識に変換するフレームワークを作成することを目的としている。
論文 参考訳(メタデータ) (2020-12-10T06:51:13Z) - Benchmarking Automated Clinical Language Simplification: Dataset,
Algorithm, and Evaluation [48.87254340298189]
我々はMedLaneという名の新しいデータセットを構築し、自動化された臨床言語簡易化手法の開発と評価を支援する。
我々は,人間のアノテーションの手順に従い,最先端のパフォーマンスを実現するDECLAREと呼ばれる新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-12-04T06:09:02Z) - Text Mining to Identify and Extract Novel Disease Treatments From
Unstructured Datasets [56.38623317907416]
Google Cloudを使って、NPRラジオ番組のポッドキャストのエピソードを書き起こします。
次に、テキストを体系的に前処理するためのパイプラインを構築します。
我々のモデルは、Omeprazoleが心臓熱傷の治療に役立てることに成功しました。
論文 参考訳(メタデータ) (2020-10-22T19:52:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。