論文の概要: FRASIMED: a Clinical French Annotated Resource Produced through
Crosslingual BERT-Based Annotation Projection
- arxiv url: http://arxiv.org/abs/2309.10770v1
- Date: Tue, 19 Sep 2023 17:17:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-20 13:23:38.663808
- Title: FRASIMED: a Clinical French Annotated Resource Produced through
Crosslingual BERT-Based Annotation Projection
- Title(参考訳): FRASIMed : 言語横断的BERTアノテーション投影による臨床用フランス語アノテーション
- Authors: Jamil Zaghir, Mina Bjelogrlic, Jean-Philippe Goldman, Souka\"ina
Aananou, Christophe Gaudet-Blavignac and Christian Lovis
- Abstract要約: 本稿では,言語横断的アノテーション投影による注釈付きデータセットの翻訳版を生成する手法を紹介する。
本報告では,フランスにおける2'051の合成臨床症例からなる注釈コーパスであるFRASIMED(Francial Annotated Resource with Semantic Information for Medical Detection)の作成について述べる。
- 参考スコア(独自算出の注目度): 0.6116681488656472
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Natural language processing (NLP) applications such as named entity
recognition (NER) for low-resource corpora do not benefit from recent advances
in the development of large language models (LLMs) where there is still a need
for larger annotated datasets. This research article introduces a methodology
for generating translated versions of annotated datasets through crosslingual
annotation projection. Leveraging a language agnostic BERT-based approach, it
is an efficient solution to increase low-resource corpora with few human
efforts and by only using already available open data resources. Quantitative
and qualitative evaluations are often lacking when it comes to evaluating the
quality and effectiveness of semi-automatic data generation strategies. The
evaluation of our crosslingual annotation projection approach showed both
effectiveness and high accuracy in the resulting dataset. As a practical
application of this methodology, we present the creation of French Annotated
Resource with Semantic Information for Medical Entities Detection (FRASIMED),
an annotated corpus comprising 2'051 synthetic clinical cases in French. The
corpus is now available for researchers and practitioners to develop and refine
French natural language processing (NLP) applications in the clinical field
(https://zenodo.org/record/8355629), making it the largest open annotated
corpus with linked medical concepts in French.
- Abstract(参考訳): 低リソースコーパスのための名前付きエンティティ認識(NER)のような自然言語処理(NLP)アプリケーションは、より大きなアノテートデータセットを必要とする大規模言語モデル(LLM)の開発における最近の進歩の恩恵を受けない。
本稿では,注釈付きデータセットの翻訳版を生成する手法について紹介する。
言語に依存しないBERTベースのアプローチを活用することで、人間の努力がほとんどなく、既に利用可能なオープンデータリソースのみを使用することで、低リソースコーパスを増やす効率的なソリューションになります。
半自動データ生成戦略の品質と有効性を評価する上で、量的および質的な評価は欠落することが多い。
クロスリンガルなアノテーション投影手法の評価は,結果のデータセットにおいて有効性と精度の両方を示した。
本手法の実用的応用として、2'051例の合成臨床症例を含む注釈付きコーパスである医学的実体検出用意味情報(frasimed)をフランス語で作成する。
このコーパスは、現在、研究者や実践者が臨床分野におけるフランス語自然言語処理(nlp)アプリケーション(https://zenodo.org/record/8355629)を開発し、洗練することができる。
関連論文リスト
- GPTs Are Multilingual Annotators for Sequence Generation Tasks [11.59128394819439]
本研究では,大規模言語モデルを用いた自律アノテーション手法を提案する。
提案手法はコスト効率だけでなく,低リソース言語アノテーションにも適用可能であることを示す。
論文 参考訳(メタデータ) (2024-02-08T09:44:02Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - GlotLID: Language Identification for Low-Resource Languages [51.38634652914054]
GlotLID-M は広い範囲、信頼性、効率性のデシラタを満たす LID モデルである。
1665の言語を識別し、以前の作業に比べてカバー範囲が大幅に増加した。
論文 参考訳(メタデータ) (2023-10-24T23:45:57Z) - Cross-Lingual NER for Financial Transaction Data in Low-Resource
Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。
我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。
わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文 参考訳(メタデータ) (2023-07-16T00:45:42Z) - Advancing Italian Biomedical Information Extraction with
Transformers-based Models: Methodological Insights and Multicenter Practical
Application [0.27027468002793437]
インフォメーション抽出は、自動化されたテキストマイニングパイプラインを使用することで、臨床実践者が限界を克服するのに役立つ。
我々は、最初のイタリアの神経心理学的名前付きエンティティ認識データセットであるPsyNITを作成し、それをトランスフォーマーベースのモデルの開発に利用した。
i)一貫性のあるアノテーションプロセスの重要な役割と(ii)古典的なメソッドと“低リソース”なアプローチを組み合わせた微調整戦略です。
論文 参考訳(メタデータ) (2023-06-08T16:15:46Z) - Cross-lingual Argument Mining in the Medical Domain [6.0158981171030685]
注釈付きデータがない医療用テキストでArgument Mining(AM)を実行する方法を示す。
我々の研究は、アノテーション(データ転送)を英語から特定のターゲット言語に自動翻訳・投影することは、注釈付きデータを生成する効果的な方法であることを示している。
また、スペイン語で自動生成されたデータを用いて、元の英語単言語設定の結果を改善する方法も示す。
論文 参考訳(メタデータ) (2023-01-25T11:21:12Z) - CROP: Zero-shot Cross-lingual Named Entity Recognition with Multilingual
Labeled Sequence Translation [113.99145386490639]
言語間NERは、整列した言語間表現や機械翻訳結果を通じて、言語間で知識を伝達することができる。
ゼロショット言語間NERを実現するために,クロスランガル・エンティティ・プロジェクション・フレームワーク(CROP)を提案する。
多言語ラベル付きシーケンス翻訳モデルを用いて、タグ付けされたシーケンスをターゲット言語に投影し、ターゲットの原文にラベル付けする。
論文 参考訳(メタデータ) (2022-10-13T13:32:36Z) - Efficient Entity Candidate Generation for Low-Resource Languages [13.789451365205665]
候補生成はエンティティリンクにおいて重要なモジュールである。
知識ベースを効果的に活用することが証明された複数のNLPタスクにおいて重要な役割を果たす。
本稿では,言語間エンティティリンクの文脈における候補生成問題の詳細な分析を行う。
論文 参考訳(メタデータ) (2022-06-30T09:49:53Z) - Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of
Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。
脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文 参考訳(メタデータ) (2022-04-10T21:46:52Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。