論文の概要: Cross-lingual Argument Mining in the Medical Domain
- arxiv url: http://arxiv.org/abs/2301.10527v1
- Date: Wed, 25 Jan 2023 11:21:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-26 15:18:35.577388
- Title: Cross-lingual Argument Mining in the Medical Domain
- Title(参考訳): 医療領域における言語間調音マイニング
- Authors: Anar Yeginbergenova and Rodrigo Agerri
- Abstract要約: このプロジェクトは、手動による介入なしに注釈付きデータを生成する効果的な方法として、自動で英語からターゲット言語(スペイン語)にアノテーションを翻訳し、プロジェクトすることを示す。
また、スペイン語で自動生成したデータを用いて、元の英語評価設定の結果を改善する方法も示す。
- 参考スコア(独自算出の注目度): 5.9647924003148365
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Nowadays the medical domain is receiving more and more attention in
applications involving Artificial Intelligence. Clinicians have to deal with an
enormous amount of unstructured textual data to make a conclusion about
patients' health in their everyday life. Argument mining helps to provide a
structure to such data by detecting argumentative components in the text and
classifying the relations between them. However, as it is the case for many
tasks in Natural Language Processing in general and in medical text processing
in particular, the large majority of the work on computational argumentation
has been done only for English. This is also the case with the only dataset
available for argumentation in the medical domain, namely, the annotated
medical data of abstracts of Randomized Controlled Trials (RCT) from the
MEDLINE database. In order to mitigate the lack of annotated data for other
languages, we empirically investigate several strategies to perform argument
mining and classification in medical texts for a language for which no
annotated data is available. This project shows that automatically translating
and project annotations from English to a target language (Spanish) is an
effective way to generate annotated data without manual intervention.
Furthermore, our experiments demonstrate that the translation and projection
approach outperforms zero-shot cross-lingual approaches using a large masked
multilingual language model. Finally, we show how the automatically generated
data in Spanish can also be used to improve results in the original English
evaluation setting.
- Abstract(参考訳): 現在、医療領域は人工知能に関するアプリケーションでますます注目を集めている。
臨床医は、日常生活における患者の健康について結論を出すために、膨大な非構造化テキストデータを扱う必要がある。
引数マイニングは、テキスト中の議論的コンポーネントを検出し、それらの関係を分類することで、そのようなデータの構造を提供するのに役立つ。
しかし、一般には自然言語処理、特に医学テキスト処理において多くのタスクが行なわれているため、計算論証に関する作業の大部分は英語のみで行われている。
これはまた、医学領域における議論のために利用可能な唯一のデータセット、すなわち、MEDLINEデータベースからのランダム化比較試験(RCT)の抽象化の注釈付き医療データである。
本研究は,他の言語に対する注釈データ不足を軽減するために,注釈データがない言語に対して,医学テキストにおける議論マイニングと分類を行うためのいくつかの戦略を実証的に検討する。
このプロジェクトは、手動による介入なしに注釈付きデータを生成する効果的な方法として、自動で英語からターゲット言語(スペイン語)にアノテーションを翻訳し、プロジェクトすることを示す。
さらに, 大規模マスキング多言語モデルを用いて, 翻訳・投影手法がゼロショット言語アプローチよりも優れていることを示す。
最後に、スペイン語で自動生成したデータを用いて、元の英語評価設定の結果を改善する方法を示す。
関連論文リスト
- Explanatory Argument Extraction of Correct Answers in Resident Medical
Exams [5.399800035598185]
本稿では, 正しい回答に対する説明的議論だけでなく, 誤った回答が正しい理由を推論するための議論を含む新しいデータセットを提案する。
このベンチマークにより,医師が作成した正しい回答の説明を識別する新しい抽出タスクを構築できる。
論文 参考訳(メタデータ) (2023-12-01T13:22:35Z) - FRASIMED: a Clinical French Annotated Resource Produced through
Crosslingual BERT-Based Annotation Projection [0.6116681488656472]
本稿では,言語横断的アノテーション投影による注釈付きデータセットの翻訳版を生成する手法を紹介する。
本報告では,フランスにおける2'051の合成臨床症例からなる注釈コーパスであるFRASIMED(Francial Annotated Resource with Semantic Information for Medical Detection)の作成について述べる。
論文 参考訳(メタデータ) (2023-09-19T17:17:28Z) - Interpretable Medical Diagnostics with Structured Data Extraction by
Large Language Models [59.89454513692417]
タブラルデータはしばしばテキストに隠され、特に医学的診断報告に使用される。
本稿では,TEMED-LLM と呼ばれるテキスト医療報告から構造化表状データを抽出する手法を提案する。
本手法は,医学診断における最先端のテキスト分類モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-08T09:12:28Z) - Multilingual Clinical NER: Translation or Cross-lingual Transfer? [4.4924444466378555]
翻訳に基づく手法は、言語間移動と同じような性能が得られることを示す。
我々はMedNERFを、フランスの医薬品処方薬から抽出した医療用NERテストセットとしてリリースし、英語のデータセットと同じガイドラインで注釈を付した。
論文 参考訳(メタデータ) (2023-06-07T12:31:07Z) - Multilingual Simplification of Medical Texts [49.469685530201716]
4つの言語で医療領域のための文章整列型多言語テキスト単純化データセットであるMultiCochraneを紹介する。
これらの言語にまたがる微調整およびゼロショットモデルの評価を行い,人間による評価と分析を行った。
モデルは、実行可能な単純化されたテキストを生成することができるが、このデータセットが扱う可能性のある、卓越した課題を特定する。
論文 参考訳(メタデータ) (2023-05-21T18:25:07Z) - A Medical Information Extraction Workbench to Process German Clinical
Text [5.519657218427976]
我々は、ドイツの臨床テキスト処理モデルのコレクションであるワークベンチを紹介する。
これらのモデルは、ドイツのネフローロジーレポートの未確認コーパスで訓練されている。
私たちのワークベンチは公開されており、すぐに、ベンチマークとして、あるいは関連する問題に移行できるようにしています。
論文 参考訳(メタデータ) (2022-07-08T13:19:19Z) - Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of
Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。
脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文 参考訳(メタデータ) (2022-04-10T21:46:52Z) - GERNERMED -- An Open German Medical NER Model [0.7310043452300736]
医療データ分析の分野でのデータマイニングは、関連するデータを取得するために、構造化されていないデータの処理にのみ依存する必要があることが多い。
本研究では,ドイツのテキストデータにおける医学的実体型を検出するためのNERタスクのための,最初のオープンなニューラルNLPモデルであるGERNERMEDを提案する。
論文 参考訳(メタデータ) (2021-09-24T17:53:47Z) - CBLUE: A Chinese Biomedical Language Understanding Evaluation Benchmark [51.38557174322772]
中国初のバイオメディカル言語理解評価ベンチマークを提示する。
名前付きエンティティ認識、情報抽出、臨床診断正規化、単文/文対分類を含む自然言語理解タスクのコレクションである。
本研究は,現在の11種類の中国モデルによる実験結果について報告し,その実験結果から,現在最先端のニューラルモデルがヒトの天井よりもはるかに悪い性能を示すことが示された。
論文 参考訳(メタデータ) (2021-06-15T12:25:30Z) - Benchmarking Automated Clinical Language Simplification: Dataset,
Algorithm, and Evaluation [48.87254340298189]
我々はMedLaneという名の新しいデータセットを構築し、自動化された臨床言語簡易化手法の開発と評価を支援する。
我々は,人間のアノテーションの手順に従い,最先端のパフォーマンスを実現するDECLAREと呼ばれる新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-12-04T06:09:02Z) - Text Mining to Identify and Extract Novel Disease Treatments From
Unstructured Datasets [56.38623317907416]
Google Cloudを使って、NPRラジオ番組のポッドキャストのエピソードを書き起こします。
次に、テキストを体系的に前処理するためのパイプラインを構築します。
我々のモデルは、Omeprazoleが心臓熱傷の治療に役立てることに成功しました。
論文 参考訳(メタデータ) (2020-10-22T19:52:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。