論文の概要: Impact of translation on biomedical information extraction from
real-life clinical notes
- arxiv url: http://arxiv.org/abs/2306.02042v1
- Date: Sat, 3 Jun 2023 07:48:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-06 20:34:37.505809
- Title: Impact of translation on biomedical information extraction from
real-life clinical notes
- Title(参考訳): バイオメディカル情報抽出における翻訳の影響
- Authors: Christel G\'erardin, Yuhan Xiong, Perceval Wajsb\"urt, Fabrice Carrat,
Xavier Tannier
- Abstract要約: 本稿では,フランス語モデルを含む手法と,英語モデルを含む手法の2つを比較した。
アルゴリズムのすべてのステップ(NER、正規化、翻訳)を評価するために、フランス語、英語、バイリンガルの注釈付きデータセットを使用しました。
最近の翻訳モデルの改善にもかかわらず、フランス語のネイティブな手法に有利な2つのアプローチの間には大きな性能差がある。
- 参考スコア(独自算出の注目度): 0.7227232362460347
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The objective of our study is to determine whether using English tools to
extract and normalize French medical concepts on translations provides
comparable performance to French models trained on a set of annotated French
clinical notes. We compare two methods: a method involving French language
models and a method involving English language models. For the native French
method, the Named Entity Recognition (NER) and normalization steps are
performed separately. For the translated English method, after the first
translation step, we compare a two-step method and a terminology-oriented
method that performs extraction and normalization at the same time. We used
French, English and bilingual annotated datasets to evaluate all steps (NER,
normalization and translation) of our algorithms. Concerning the results, the
native French method performs better than the translated English one with a
global f1 score of 0.51 [0.47;0.55] against 0.39 [0.34;0.44] and 0.38
[0.36;0.40] for the two English methods tested. In conclusion, despite the
recent improvement of the translation models, there is a significant
performance difference between the two approaches in favor of the native French
method which is more efficient on French medical texts, even with few annotated
documents.
- Abstract(参考訳): 本研究の目的は,翻訳におけるフランス語医学的概念の抽出と正規化に英語ツールを用いることで,注釈付きフランス語臨床ノートのセットで訓練されたフランス語モデルに匹敵する性能が得られるかどうかを判定することである。
フランス語モデルを含む方法と英語モデルを含む方法の2つの方法を比較した。
ネイティブフランス語では、名前付きエンティティ認識(ner)と正規化ステップを別々に行う。
英訳法では,第1段階の翻訳の後,抽出と正規化を同時に行う2段階法と用語指向法を比較した。
アルゴリズムのすべてのステップ(NER,正規化,翻訳)を評価するために,フランス語,英語,バイリンガルの注釈付きデータセットを使用した。
結果について,本手法は,2つの英語法に対して0.39 [0.34;0.44] と 0.38 [0.36;0.40] に対して,グローバル f1 スコア 0.51 [0.47;0.55] の翻訳英語よりも優れた結果を得た。
結論として,近年の翻訳モデルの改良にも拘わらず,アノテーション付き文書の少ないフランス医学文献においてもより効率的であるネイティブ・フランス法を支持する2つのアプローチには著しい性能差がみられた。
関連論文リスト
- HYBRINFOX at CheckThat! 2024 -- Task 2: Enriching BERT Models with the Expert System VAGO for Subjectivity Detection [0.8083061106940517]
HYBRINFOX法は評価データからマクロF1スコア0.7442で1位にランク付けした。
本稿では,我々のハイブリッドアプローチの原理を説明し,その手法を英語以外の言語にも適用する方法を概説する。
論文 参考訳(メタデータ) (2024-07-04T09:29:19Z) - Multilingual Clinical NER: Translation or Cross-lingual Transfer? [4.4924444466378555]
翻訳に基づく手法は、言語間移動と同じような性能が得られることを示す。
我々はMedNERFを、フランスの医薬品処方薬から抽出した医療用NERテストセットとしてリリースし、英語のデータセットと同じガイドラインで注釈を付した。
論文 参考訳(メタデータ) (2023-06-07T12:31:07Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - Meta-Learning a Cross-lingual Manifold for Semantic Parsing [75.26271012018861]
新しい言語をサポートするためにセマンティックをローカライズするには、効果的な言語間一般化が必要である。
本稿では,言語間移動において,最大サンプル効率で注釈付きセマンティックを学習するための一階メタ学習アルゴリズムを提案する。
ATIS上の6つの言語にまたがる結果は、ステップの組み合わせによって、各新言語におけるソーストレーニングデータの10パーセントを正確なセマンティクスでサンプリングできることを示している。
論文 参考訳(メタデータ) (2022-09-26T10:42:17Z) - Automated Drug-Related Information Extraction from French Clinical
Documents: ReLyfe Approach [0.4588028371034407]
本稿では,フランスの臨床検査資料から薬物関連情報を抽出する手法を提案する。
これはルールベースのフェーズとディープラーニングアプローチを組み合わせたものです。
論文 参考訳(メタデータ) (2021-11-29T22:11:23Z) - DEEP: DEnoising Entity Pre-training for Neural Machine Translation [123.6686940355937]
機械翻訳モデルは通常、トレーニングコーパスで稀な名前付きエンティティの翻訳を貧弱に生成することが示されている。
文中の名前付きエンティティ翻訳精度を向上させるために,大量のモノリンガルデータと知識ベースを利用するDenoising Entity Pre-training法であるDEEPを提案する。
論文 参考訳(メタデータ) (2021-11-14T17:28:09Z) - Improving Cross-Lingual Reading Comprehension with Self-Training [62.73937175625953]
現在の最新モデルは、いくつかのベンチマークで人間のパフォーマンスを上回っています。
前作では、ゼロショットのクロスリンガル読解のための事前訓練された多言語モデルの能力を明らかにしている。
本稿では,ラベルのないデータを利用して性能を向上する。
論文 参考訳(メタデータ) (2021-05-08T08:04:30Z) - Unsupervised Cross-lingual Adaptation for Sequence Tagging and Beyond [58.80417796087894]
多言語事前訓練言語モデル(mPTLM)による言語間適応は、主にゼロショットアプローチと翻訳に基づくアプローチの2行からなる。
本稿では、ゼロショットアプローチと翻訳に基づくアプローチを統合し、適応性能を向上させるための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-23T13:47:01Z) - Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。
本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。
本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文 参考訳(メタデータ) (2020-10-18T00:21:53Z) - WikiLingua: A New Benchmark Dataset for Cross-Lingual Abstractive
Summarization [41.578594261746055]
ウィキリンガ(WikiLingua)は,言語間抽象要約システムの評価のための大規模多言語データセットである。
ウィキハウ(WikiHow)は,人文者によって書かれた多種多様なトピックに関するハウツーガイドの高品質で協調的な資料である。
我々は、各記事のハウツーステップを記述するために使用されるイメージをアライメントすることで、言語間でのゴールドスタンダードな記事要約アライメントを作成する。
論文 参考訳(メタデータ) (2020-10-07T00:28:05Z) - A Deep Reinforced Model for Zero-Shot Cross-Lingual Summarization with
Bilingual Semantic Similarity Rewards [40.17497211507507]
言語間テキスト要約は、実際は重要だが未探索の課題である。
本稿では,エンドツーエンドのテキスト要約モデルを提案する。
論文 参考訳(メタデータ) (2020-06-27T21:51:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。