Fugu-MT 論文翻訳(概要): Cross-lingual Argument Mining in the Medical Domain

論文の概要: Cross-lingual Argument Mining in the Medical Domain

arxiv url: http://arxiv.org/abs/2301.10527v1
Date: Wed, 25 Jan 2023 11:21:12 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-26 15:18:35.577388
Title: Cross-lingual Argument Mining in the Medical Domain
Title（参考訳）: 医療領域における言語間調音マイニング
Authors: Anar Yeginbergenova and Rodrigo Agerri
Abstract要約: このプロジェクトは、手動による介入なしに注釈付きデータを生成する効果的な方法として、自動で英語からターゲット言語(スペイン語)にアノテーションを翻訳し、プロジェクトすることを示す。また、スペイン語で自動生成したデータを用いて、元の英語評価設定の結果を改善する方法も示す。
参考スコア（独自算出の注目度）: 5.9647924003148365
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Nowadays the medical domain is receiving more and more attention in applications involving Artificial Intelligence. Clinicians have to deal with an enormous amount of unstructured textual data to make a conclusion about patients' health in their everyday life. Argument mining helps to provide a structure to such data by detecting argumentative components in the text and classifying the relations between them. However, as it is the case for many tasks in Natural Language Processing in general and in medical text processing in particular, the large majority of the work on computational argumentation has been done only for English. This is also the case with the only dataset available for argumentation in the medical domain, namely, the annotated medical data of abstracts of Randomized Controlled Trials (RCT) from the MEDLINE database. In order to mitigate the lack of annotated data for other languages, we empirically investigate several strategies to perform argument mining and classification in medical texts for a language for which no annotated data is available. This project shows that automatically translating and project annotations from English to a target language (Spanish) is an effective way to generate annotated data without manual intervention. Furthermore, our experiments demonstrate that the translation and projection approach outperforms zero-shot cross-lingual approaches using a large masked multilingual language model. Finally, we show how the automatically generated data in Spanish can also be used to improve results in the original English evaluation setting.
Abstract（参考訳）: 現在、医療領域は人工知能に関するアプリケーションでますます注目を集めている。臨床医は、日常生活における患者の健康について結論を出すために、膨大な非構造化テキストデータを扱う必要がある。引数マイニングは、テキスト中の議論的コンポーネントを検出し、それらの関係を分類することで、そのようなデータの構造を提供するのに役立つ。しかし、一般には自然言語処理、特に医学テキスト処理において多くのタスクが行なわれているため、計算論証に関する作業の大部分は英語のみで行われている。これはまた、医学領域における議論のために利用可能な唯一のデータセット、すなわち、MEDLINEデータベースからのランダム化比較試験(RCT)の抽象化の注釈付き医療データである。本研究は,他の言語に対する注釈データ不足を軽減するために,注釈データがない言語に対して,医学テキストにおける議論マイニングと分類を行うためのいくつかの戦略を実証的に検討する。このプロジェクトは、手動による介入なしに注釈付きデータを生成する効果的な方法として、自動で英語からターゲット言語(スペイン語)にアノテーションを翻訳し、プロジェクトすることを示す。さらに, 大規模マスキング多言語モデルを用いて, 翻訳・投影手法がゼロショット言語アプローチよりも優れていることを示す。最後に、スペイン語で自動生成したデータを用いて、元の英語評価設定の結果を改善する方法を示す。

関連論文リスト

Skeletons Matter: Dynamic Data Augmentation for Text-to-Query [66.52311036179294]
テキスト・ツー・クエリー・タスク・パラダイムを正式に定義し、様々なクエリー言語にまたがるセマンティック・パース・タスクを統一する。問合せスケルトンをText-to-Queryタスクの共有最適化ターゲットとして同定し、一般的な動的データ拡張フレームワークを提案する。 4つのText-to-Queryベンチマーク実験により,本手法が最先端の性能を実現することを示す。
論文参考訳（メタデータ） (2025-11-24T09:39:03Z)
Is linguistically-motivated data augmentation worth it? [1.715959023690448]
データ拡張には、利用可能なトレーニングデータの強化に使用される合成データ例を生成することが含まれる。これまでの研究では、言語的に内在的かつ言語的に動機づけられたデータ拡張戦略の体系的、実証的な比較は行われていない。低リソース言語に対する2つの重要なシーケンス・ツー・シーケンス・タスクにおいて,多くの異なる戦略とその組み合わせの有効性を評価する。
論文参考訳（メタデータ） (2025-06-04T05:48:20Z)
The Empirical Impact of Data Sanitization on Language Models [1.1359551336076306]
本稿では,複数のベンチマーク言語モデリングタスクにおけるデータ・サニタイズの効果を実証的に分析する。以上の結果から,感情分析やエンテーメントなどのタスクでは,リアクションの影響は極めて低く,典型的には1～5%程度であることが示唆された。理解的なQ&Aのようなタスクでは、オリジナルのものと比較して、再実行クエリで観測されるパフォーマンスの25%が大幅に低下している。
論文参考訳（メタデータ） (2024-11-08T21:22:37Z)
Cross-lingual Contextualized Phrase Retrieval [63.80154430930898]
そこで本研究では,言語間関係の単語検索を多義的に行うタスクの定式化を提案する。我々は、コントラスト学習を用いて、言語間コンテクスト対応句検索(CCPR)を訓練する。フレーズ検索タスクでは、CCPRはベースラインをかなり上回り、少なくとも13ポイント高いトップ1の精度を達成する。
論文参考訳（メタデータ） (2024-03-25T14:46:51Z)
FRASIMED: a Clinical French Annotated Resource Produced through Crosslingual BERT-Based Annotation Projection [0.6116681488656472]
本稿では,言語横断的アノテーション投影による注釈付きデータセットの翻訳版を生成する手法を紹介する。本報告では,フランスにおける2'051の合成臨床症例からなる注釈コーパスであるFRASIMED(Francial Annotated Resource with Semantic Information for Medical Detection)の作成について述べる。
論文参考訳（メタデータ） (2023-09-19T17:17:28Z)
Multilingual Clinical NER: Translation or Cross-lingual Transfer? [4.4924444466378555]
翻訳に基づく手法は、言語間移動と同じような性能が得られることを示す。我々はMedNERFを、フランスの医薬品処方薬から抽出した医療用NERテストセットとしてリリースし、英語のデータセットと同じガイドラインで注釈を付した。
論文参考訳（メタデータ） (2023-06-07T12:31:07Z)
Multilingual Simplification of Medical Texts [49.469685530201716]
4つの言語で医療領域のための文章整列型多言語テキスト単純化データセットであるMultiCochraneを紹介する。これらの言語にまたがる微調整およびゼロショットモデルの評価を行い,人間による評価と分析を行った。モデルは、実行可能な単純化されたテキストを生成することができるが、このデータセットが扱う可能性のある、卓越した課題を特定する。
論文参考訳（メタデータ） (2023-05-21T18:25:07Z)
On the Language Coverage Bias for Neural Machine Translation [81.81456880770762]
言語カバレッジバイアスは、ニューラルネットワーク翻訳(NMT)において重要である。実験を慎重に設計することにより、トレーニングデータにおける言語カバレッジバイアスの包括的分析を行う。本稿では,言語カバレッジバイアス問題を軽減するための,シンプルで効果的な2つのアプローチを提案する。
論文参考訳（メタデータ） (2021-06-07T01:55:34Z)
Cross-lingual Text Classification with Heterogeneous Graph Neural Network [2.6936806968297913]
言語間テキスト分類は、ソース言語上の分類器を訓練し、その知識を対象言語に伝達することを目的としている。近年の多言語事前学習言語モデル (mPLM) は言語間分類タスクにおいて顕著な結果をもたらす。言語間テキスト分類のための言語内および言語間における異種情報を統合するための,単純かつ効果的な手法を提案する。
論文参考訳（メタデータ） (2021-05-24T12:45:42Z)
VECO: Variable and Flexible Cross-lingual Pre-training for Language Understanding and Generation [77.82373082024934]
我々はTransformerエンコーダにクロスアテンションモジュールを挿入し、言語間の相互依存を明確に構築する。独自の言語でコンテキストにのみ条件付けされたマスク付き単語の予測の退化を効果的に回避することができる。提案した言語間モデルでは,XTREMEベンチマークのさまざまな言語間理解タスクに対して,最先端の新たな結果が提供される。
論文参考訳（メタデータ） (2020-10-30T03:41:38Z)
Bridging Linguistic Typology and Multilingual Machine Translation with Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。我々の表現は類型学を組み込み、言語関係と相関関係を強化する。次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文参考訳（メタデータ） (2020-04-30T16:25:39Z)
A Study of Cross-Lingual Ability and Language-specific Information in Multilingual BERT [60.9051207862378]
Multilingual BERTは、言語間転送タスクで驚くほどうまく機能します。データサイズとコンテキストウィンドウサイズは、転送可能性にとって重要な要素です。多言語BERTの言語間能力を改善するために、計算的に安価だが効果的なアプローチがある。
論文参考訳（メタデータ） (2020-04-20T11:13:16Z)
Data Mining in Clinical Trial Text: Transformers for Classification and Question Answering Tasks [2.127049691404299]
本研究は,医学的テキストに基づくエビデンス合成に自然言語処理の進歩を適用した。主な焦点は、Population、Intervention、Comparator、Outcome(PICO)フレームワークを通じて特徴づけられる情報である。トランスフォーマーに基づく最近のニューラルネットワークアーキテクチャは、トランスファーラーニングの能力を示し、下流の自然言語処理タスクのパフォーマンスが向上している。
論文参考訳（メタデータ） (2020-01-30T11:45:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。