論文の概要: xMEN: A Modular Toolkit for Cross-Lingual Medical Entity Normalization
- arxiv url: http://arxiv.org/abs/2310.11275v1
- Date: Tue, 17 Oct 2023 13:53:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-18 15:39:15.328347
- Title: xMEN: A Modular Toolkit for Cross-Lingual Medical Entity Normalization
- Title(参考訳): xMEN: 言語間医療エンティティ正規化のためのモジュールツールキット
- Authors: Florian Borchert, Ignacio Llorca, Roland Roller, Bert Arnrich,
Matthieu-P. Schapranow
- Abstract要約: 言語間医療機関正規化のためのモジュールシステムであるxMENを紹介する。
対象言語のシノニムが与えられた用語に乏しい場合には、言語間の候補生成を通じて英語のエイリアスを活用する。
候補ランキングには、対象タスクのアノテーションが利用可能であれば、トレーニング可能なクロスエンコーダモデルを組み込む。
- 参考スコア(独自算出の注目度): 0.42292483435853323
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Objective: To improve performance of medical entity normalization across many
languages, especially when fewer language resources are available compared to
English.
Materials and Methods: We introduce xMEN, a modular system for cross-lingual
medical entity normalization, which performs well in both low- and
high-resource scenarios. When synonyms in the target language are scarce for a
given terminology, we leverage English aliases via cross-lingual candidate
generation. For candidate ranking, we incorporate a trainable cross-encoder
model if annotations for the target task are available. We also evaluate
cross-encoders trained in a weakly supervised manner based on
machine-translated datasets from a high resource domain. Our system is publicly
available as an extensible Python toolkit.
Results: xMEN improves the state-of-the-art performance across a wide range
of multilingual benchmark datasets. Weakly supervised cross-encoders are
effective when no training data is available for the target task. Through the
compatibility of xMEN with the BigBIO framework, it can be easily used with
existing and prospective datasets.
Discussion: Our experiments show the importance of balancing the output of
general-purpose candidate generators with subsequent trainable re-rankers,
which we achieve through a rank regularization term in the loss function of the
cross-encoder. However, error analysis reveals that multi-word expressions and
other complex entities are still challenging.
Conclusion: xMEN exhibits strong performance for medical entity normalization
in multiple languages, even when no labeled data and few terminology aliases
for the target language are available. Its configuration system and evaluation
modules enable reproducible benchmarks. Models and code are available online at
the following URL: https://github.com/hpi-dhc/xmen
- Abstract(参考訳): 目的: 多くの言語、特に英語に比べて言語リソースが少ない場合に、医療エンティティの正規化のパフォーマンスを改善すること。
材料と方法:我々は,言語間医療エンティティ正規化のためのモジュールシステムであるxmenを紹介する。
対象言語におけるシノニムが与えられた用語に乏しい場合、英語のエイリアスを言語間候補生成によって活用する。
候補ランキングには、対象タスクのアノテーションが利用可能であれば、トレーニング可能なクロスエンコーダモデルを組み込む。
また、高リソース領域からの機械翻訳データセットに基づいて、弱い教師の方法で訓練されたクロスエンコーダを評価する。
当社のシステムは、拡張可能なpythonツールキットとして公開されています。
結果: xMENは、幅広い多言語ベンチマークデータセットで最先端のパフォーマンスを改善する。
弱い教師付きクロスエンコーダは、対象タスクのトレーニングデータがない場合に有効である。
xMENとBigBIOフレームワークとの互換性により、既存の予測データセットで簡単に使用することができる。
考察: クロスエンコーダの損失関数におけるランク正規化項により, 汎用候補生成器とトレーニング可能な再ランカとの出力のバランスをとることの重要性を示す。
しかし、エラー解析により、マルチワード式や他の複雑なエンティティは依然として困難であることが分かる。
結論: xMENは、ラベル付きデータやターゲット言語の用語エイリアスが少ない場合でも、複数の言語で医療エンティティの正規化に強い性能を示す。
その構成システムと評価モジュールは再現可能なベンチマークを可能にする。
モデルとコードは以下のURLでオンラインで公開されている。
関連論文リスト
- LEIA: Facilitating Cross-lingual Knowledge Transfer in Language Models with Entity-based Data Augmentation [21.980770995466134]
言語間で整列したウィキペディアのエンティティ名を利用する言語適応チューニング手法であるLEIAを紹介する。
この方法は、ターゲット言語コーパスを英語のエンティティ名で拡張し、左から右への言語モデリングを用いてモデルを訓練することを含む。
論文 参考訳(メタデータ) (2024-02-18T07:24:34Z) - Multi-lingual Evaluation of Code Generation Models [82.7357812992118]
本稿では,MBXPとMultilingual HumanEval,MathQA-Xという,評価コード生成モデルに関する新しいベンチマークを提案する。
これらのデータセットは10以上のプログラミング言語をカバーする。
コード生成モデルの性能を多言語で評価することができる。
論文 参考訳(メタデータ) (2022-10-26T17:17:06Z) - Improving Multilingual Neural Machine Translation System for Indic
Languages [0.0]
低リソース言語翻訳に関わる問題に対処する多言語ニューラルマシン翻訳(MNMT)システムを提案する。
提案モデルの実現には最先端のトランスフォーマーアーキテクチャを用いる。
大量のデータに対する試行は、従来のモデルよりもその優位性を明らかにしている。
論文 参考訳(メタデータ) (2022-09-27T09:51:56Z) - Multilingual Autoregressive Entity Linking [49.35994386221958]
mGENREはMultilingual Entity Linking問題のためのシーケンス対シーケンスシステムである。
与えられた言語で言及すると、mGENREはターゲットエンティティの名前を左から右へ、トークンごとに予測します。
提案手法の有効性を3つのMELベンチマーク実験を含む広範囲な評価により示す。
論文 参考訳(メタデータ) (2021-03-23T13:25:55Z) - VECO: Variable and Flexible Cross-lingual Pre-training for Language
Understanding and Generation [77.82373082024934]
我々はTransformerエンコーダにクロスアテンションモジュールを挿入し、言語間の相互依存を明確に構築する。
独自の言語でコンテキストにのみ条件付けされたマスク付き単語の予測の退化を効果的に回避することができる。
提案した言語間モデルでは,XTREMEベンチマークのさまざまな言語間理解タスクに対して,最先端の新たな結果が提供される。
論文 参考訳(メタデータ) (2020-10-30T03:41:38Z) - XL-WiC: A Multilingual Benchmark for Evaluating Semantic
Contextualization [98.61159823343036]
単語の意味を正確にモデル化する能力を評価するために,Word-in-Context データセット (WiC) を提案する。
我々は、XL-WiCという大規模なマルチ言語ベンチマークを提案し、12の新しい言語でゴールドスタンダードを特徴付けました。
実験結果から、ターゲット言語にタグ付けされたインスタンスが存在しない場合でも、英語データのみにトレーニングされたモデルは、競争力のあるパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2020-10-13T15:32:00Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。