論文の概要: Cross-lingual Argument Mining in the Medical Domain
- arxiv url: http://arxiv.org/abs/2301.10527v1
- Date: Wed, 25 Jan 2023 11:21:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-26 15:18:35.577388
- Title: Cross-lingual Argument Mining in the Medical Domain
- Title(参考訳): 医療領域における言語間調音マイニング
- Authors: Anar Yeginbergenova and Rodrigo Agerri
- Abstract要約: このプロジェクトは、手動による介入なしに注釈付きデータを生成する効果的な方法として、自動で英語からターゲット言語(スペイン語)にアノテーションを翻訳し、プロジェクトすることを示す。
また、スペイン語で自動生成したデータを用いて、元の英語評価設定の結果を改善する方法も示す。
- 参考スコア(独自算出の注目度): 5.9647924003148365
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Nowadays the medical domain is receiving more and more attention in
applications involving Artificial Intelligence. Clinicians have to deal with an
enormous amount of unstructured textual data to make a conclusion about
patients' health in their everyday life. Argument mining helps to provide a
structure to such data by detecting argumentative components in the text and
classifying the relations between them. However, as it is the case for many
tasks in Natural Language Processing in general and in medical text processing
in particular, the large majority of the work on computational argumentation
has been done only for English. This is also the case with the only dataset
available for argumentation in the medical domain, namely, the annotated
medical data of abstracts of Randomized Controlled Trials (RCT) from the
MEDLINE database. In order to mitigate the lack of annotated data for other
languages, we empirically investigate several strategies to perform argument
mining and classification in medical texts for a language for which no
annotated data is available. This project shows that automatically translating
and project annotations from English to a target language (Spanish) is an
effective way to generate annotated data without manual intervention.
Furthermore, our experiments demonstrate that the translation and projection
approach outperforms zero-shot cross-lingual approaches using a large masked
multilingual language model. Finally, we show how the automatically generated
data in Spanish can also be used to improve results in the original English
evaluation setting.
- Abstract(参考訳): 現在、医療領域は人工知能に関するアプリケーションでますます注目を集めている。
臨床医は、日常生活における患者の健康について結論を出すために、膨大な非構造化テキストデータを扱う必要がある。
引数マイニングは、テキスト中の議論的コンポーネントを検出し、それらの関係を分類することで、そのようなデータの構造を提供するのに役立つ。
しかし、一般には自然言語処理、特に医学テキスト処理において多くのタスクが行なわれているため、計算論証に関する作業の大部分は英語のみで行われている。
これはまた、医学領域における議論のために利用可能な唯一のデータセット、すなわち、MEDLINEデータベースからのランダム化比較試験(RCT)の抽象化の注釈付き医療データである。
本研究は,他の言語に対する注釈データ不足を軽減するために,注釈データがない言語に対して,医学テキストにおける議論マイニングと分類を行うためのいくつかの戦略を実証的に検討する。
このプロジェクトは、手動による介入なしに注釈付きデータを生成する効果的な方法として、自動で英語からターゲット言語(スペイン語)にアノテーションを翻訳し、プロジェクトすることを示す。
さらに, 大規模マスキング多言語モデルを用いて, 翻訳・投影手法がゼロショット言語アプローチよりも優れていることを示す。
最後に、スペイン語で自動生成したデータを用いて、元の英語評価設定の結果を改善する方法を示す。
関連論文リスト
- Cross-lingual Contextualized Phrase Retrieval [63.80154430930898]
そこで本研究では,言語間関係の単語検索を多義的に行うタスクの定式化を提案する。
我々は、コントラスト学習を用いて、言語間コンテクスト対応句検索(CCPR)を訓練する。
フレーズ検索タスクでは、CCPRはベースラインをかなり上回り、少なくとも13ポイント高いトップ1の精度を達成する。
論文 参考訳(メタデータ) (2024-03-25T14:46:51Z) - FRASIMED: a Clinical French Annotated Resource Produced through
Crosslingual BERT-Based Annotation Projection [0.6116681488656472]
本稿では,言語横断的アノテーション投影による注釈付きデータセットの翻訳版を生成する手法を紹介する。
本報告では,フランスにおける2'051の合成臨床症例からなる注釈コーパスであるFRASIMED(Francial Annotated Resource with Semantic Information for Medical Detection)の作成について述べる。
論文 参考訳(メタデータ) (2023-09-19T17:17:28Z) - Multilingual Clinical NER: Translation or Cross-lingual Transfer? [4.4924444466378555]
翻訳に基づく手法は、言語間移動と同じような性能が得られることを示す。
我々はMedNERFを、フランスの医薬品処方薬から抽出した医療用NERテストセットとしてリリースし、英語のデータセットと同じガイドラインで注釈を付した。
論文 参考訳(メタデータ) (2023-06-07T12:31:07Z) - Multilingual Simplification of Medical Texts [49.469685530201716]
4つの言語で医療領域のための文章整列型多言語テキスト単純化データセットであるMultiCochraneを紹介する。
これらの言語にまたがる微調整およびゼロショットモデルの評価を行い,人間による評価と分析を行った。
モデルは、実行可能な単純化されたテキストを生成することができるが、このデータセットが扱う可能性のある、卓越した課題を特定する。
論文 参考訳(メタデータ) (2023-05-21T18:25:07Z) - A Medical Information Extraction Workbench to Process German Clinical
Text [5.519657218427976]
我々は、ドイツの臨床テキスト処理モデルのコレクションであるワークベンチを紹介する。
これらのモデルは、ドイツのネフローロジーレポートの未確認コーパスで訓練されている。
私たちのワークベンチは公開されており、すぐに、ベンチマークとして、あるいは関連する問題に移行できるようにしています。
論文 参考訳(メタデータ) (2022-07-08T13:19:19Z) - On the Language Coverage Bias for Neural Machine Translation [81.81456880770762]
言語カバレッジバイアスは、ニューラルネットワーク翻訳(NMT)において重要である。
実験を慎重に設計することにより、トレーニングデータにおける言語カバレッジバイアスの包括的分析を行う。
本稿では,言語カバレッジバイアス問題を軽減するための,シンプルで効果的な2つのアプローチを提案する。
論文 参考訳(メタデータ) (2021-06-07T01:55:34Z) - Cross-lingual Text Classification with Heterogeneous Graph Neural
Network [2.6936806968297913]
言語間テキスト分類は、ソース言語上の分類器を訓練し、その知識を対象言語に伝達することを目的としている。
近年の多言語事前学習言語モデル (mPLM) は言語間分類タスクにおいて顕著な結果をもたらす。
言語間テキスト分類のための言語内および言語間における異種情報を統合するための,単純かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2021-05-24T12:45:42Z) - VECO: Variable and Flexible Cross-lingual Pre-training for Language
Understanding and Generation [77.82373082024934]
我々はTransformerエンコーダにクロスアテンションモジュールを挿入し、言語間の相互依存を明確に構築する。
独自の言語でコンテキストにのみ条件付けされたマスク付き単語の予測の退化を効果的に回避することができる。
提案した言語間モデルでは,XTREMEベンチマークのさまざまな言語間理解タスクに対して,最先端の新たな結果が提供される。
論文 参考訳(メタデータ) (2020-10-30T03:41:38Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z) - A Study of Cross-Lingual Ability and Language-specific Information in
Multilingual BERT [60.9051207862378]
Multilingual BERTは、言語間転送タスクで驚くほどうまく機能します。
データサイズとコンテキストウィンドウサイズは、転送可能性にとって重要な要素です。
多言語BERTの言語間能力を改善するために、計算的に安価だが効果的なアプローチがある。
論文 参考訳(メタデータ) (2020-04-20T11:13:16Z) - Data Mining in Clinical Trial Text: Transformers for Classification and
Question Answering Tasks [2.127049691404299]
本研究は,医学的テキストに基づくエビデンス合成に自然言語処理の進歩を適用した。
主な焦点は、Population、Intervention、Comparator、Outcome(PICO)フレームワークを通じて特徴づけられる情報である。
トランスフォーマーに基づく最近のニューラルネットワークアーキテクチャは、トランスファーラーニングの能力を示し、下流の自然言語処理タスクのパフォーマンスが向上している。
論文 参考訳(メタデータ) (2020-01-30T11:45:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。