Fugu-MT 論文翻訳(概要): FRASIMED: a Clinical French Annotated Resource Produced through Crosslingual BERT-Based Annotation Projection

論文の概要: FRASIMED: a Clinical French Annotated Resource Produced through Crosslingual BERT-Based Annotation Projection

arxiv url: http://arxiv.org/abs/2309.10770v1
Date: Tue, 19 Sep 2023 17:17:28 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-20 13:23:38.663808
Title: FRASIMED: a Clinical French Annotated Resource Produced through Crosslingual BERT-Based Annotation Projection
Title（参考訳）: FRASIMed : 言語横断的BERTアノテーション投影による臨床用フランス語アノテーション
Authors: Jamil Zaghir, Mina Bjelogrlic, Jean-Philippe Goldman, Souka\"ina Aananou, Christophe Gaudet-Blavignac and Christian Lovis
Abstract要約: 本稿では,言語横断的アノテーション投影による注釈付きデータセットの翻訳版を生成する手法を紹介する。本報告では,フランスにおける2'051の合成臨床症例からなる注釈コーパスであるFRASIMED(Francial Annotated Resource with Semantic Information for Medical Detection)の作成について述べる。
参考スコア（独自算出の注目度）: 0.6116681488656472
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Natural language processing (NLP) applications such as named entity recognition (NER) for low-resource corpora do not benefit from recent advances in the development of large language models (LLMs) where there is still a need for larger annotated datasets. This research article introduces a methodology for generating translated versions of annotated datasets through crosslingual annotation projection. Leveraging a language agnostic BERT-based approach, it is an efficient solution to increase low-resource corpora with few human efforts and by only using already available open data resources. Quantitative and qualitative evaluations are often lacking when it comes to evaluating the quality and effectiveness of semi-automatic data generation strategies. The evaluation of our crosslingual annotation projection approach showed both effectiveness and high accuracy in the resulting dataset. As a practical application of this methodology, we present the creation of French Annotated Resource with Semantic Information for Medical Entities Detection (FRASIMED), an annotated corpus comprising 2'051 synthetic clinical cases in French. The corpus is now available for researchers and practitioners to develop and refine French natural language processing (NLP) applications in the clinical field (https://zenodo.org/record/8355629), making it the largest open annotated corpus with linked medical concepts in French.
Abstract（参考訳）: 低リソースコーパスのための名前付きエンティティ認識(NER)のような自然言語処理(NLP)アプリケーションは、より大きなアノテートデータセットを必要とする大規模言語モデル(LLM)の開発における最近の進歩の恩恵を受けない。本稿では,注釈付きデータセットの翻訳版を生成する手法について紹介する。言語に依存しないBERTベースのアプローチを活用することで、人間の努力がほとんどなく、既に利用可能なオープンデータリソースのみを使用することで、低リソースコーパスを増やす効率的なソリューションになります。半自動データ生成戦略の品質と有効性を評価する上で、量的および質的な評価は欠落することが多い。クロスリンガルなアノテーション投影手法の評価は,結果のデータセットにおいて有効性と精度の両方を示した。本手法の実用的応用として、2'051例の合成臨床症例を含む注釈付きコーパスである医学的実体検出用意味情報(frasimed)をフランス語で作成する。このコーパスは、現在、研究者や実践者が臨床分野におけるフランス語自然言語処理(nlp)アプリケーション(https://zenodo.org/record/8355629)を開発し、洗練することができる。

関連論文リスト

What Language is This? Ask Your Tokenizer [32.28976119949841]
言語識別(LID)は多くの多言語自然言語処理パイプラインの重要なコンポーネントである。我々は,UnigramLMトークン化アルゴリズムに基づくシンプルで効率的なLID手法UniLIDを紹介する。我々の定式化は、データと計算効率が良く、既存のモデルを再訓練することなく、新しい言語の漸進的な追加をサポートしています。
論文参考訳（メタデータ） (2026-02-19T18:58:39Z)
SenWiCh: Sense-Annotation of Low-Resource Languages for WiC using Hybrid Methods [1.2091341579150698]
低リソース言語10言語にまたがる多文語を含む文のデータセットをリリースする。データセット作成を容易にするために,本論文では,有意な半自動アノテーション手法を提案する。その結果、効果的な多意味的曖昧化のためのターゲットデータセット作成と評価の重要性が浮き彫りになった。
論文参考訳（メタデータ） (2025-05-29T17:48:08Z)
Understanding In-Context Machine Translation for Low-Resource Languages: A Case Study on Manchu [53.437954702561065]
In-context machine translation (MT) with large language model (LLMs) は低リソースMTにおいて有望な手法である。本研究では,各資源とその品質が満州語による翻訳性能に与える影響を体系的に検討した。結果から,良質な辞書や優れた並列例は有用であり,文法はほとんど役に立たないことが明らかとなった。
論文参考訳（メタデータ） (2025-02-17T14:53:49Z)
Cross-Lingual Transfer for Low-Resource Natural Language Processing [0.32634122554914]
言語間移動学習は、NLPの性能を向上させるために、高ソース言語からのデータとモデルを活用する研究分野である。この論文は、最先端のアノテーション投影法であるT-プロジェクションを用いて、データベースの転送を改善する新しい方法を提案する。モデルベース転送では,ゼロショット設定で言語間連続ラベルを拡張可能な制約付き復号アルゴリズムを導入する。最後に,最初の多言語テキスト・テキスト・メディカルモデルであるMedical mT5を開発した。
論文参考訳（メタデータ） (2025-02-04T21:17:46Z)
Revisiting Projection-based Data Transfer for Cross-Lingual Named Entity Recognition in Low-Resource Languages [8.612181075294327]
本手法は, クロスリンガルNERに有効な手法であることを示す。本稿では,対象候補を抽出したソースエンティティとマッチングする新しい形式化されたプロジェクション手法を提案する。これらの知見は、低リソース言語におけるクロスリンガルなエンティティ認識のためのモデルベース手法の代替として、プロジェクションベースのデータ転送の堅牢性を強調している。
論文参考訳（メタデータ） (2025-01-30T21:00:47Z)
GPTs Are Multilingual Annotators for Sequence Generation Tasks [11.59128394819439]
本研究では,大規模言語モデルを用いた自律アノテーション手法を提案する。提案手法はコスト効率だけでなく,低リソース言語アノテーションにも適用可能であることを示す。
論文参考訳（メタデータ） (2024-02-08T09:44:02Z)
Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文参考訳（メタデータ） (2024-01-11T03:04:38Z)
GlotLID: Language Identification for Low-Resource Languages [51.38634652914054]
GlotLID-M は広い範囲、信頼性、効率性のデシラタを満たす LID モデルである。 1665の言語を識別し、以前の作業に比べてカバー範囲が大幅に増加した。
論文参考訳（メタデータ） (2023-10-24T23:45:57Z)
Cross-Lingual NER for Financial Transaction Data in Low-Resource Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文参考訳（メタデータ） (2023-07-16T00:45:42Z)
Advancing Italian Biomedical Information Extraction with Transformers-based Models: Methodological Insights and Multicenter Practical Application [0.27027468002793437]
インフォメーション抽出は、自動化されたテキストマイニングパイプラインを使用することで、臨床実践者が限界を克服するのに役立つ。我々は、最初のイタリアの神経心理学的名前付きエンティティ認識データセットであるPsyNITを作成し、それをトランスフォーマーベースのモデルの開発に利用した。 i)一貫性のあるアノテーションプロセスの重要な役割と(ii)古典的なメソッドと“低リソース”なアプローチを組み合わせた微調整戦略です。
論文参考訳（メタデータ） (2023-06-08T16:15:46Z)
Cross-lingual Argument Mining in the Medical Domain [6.0158981171030685]
注釈付きデータがない医療用テキストでArgument Mining(AM)を実行する方法を示す。我々の研究は、アノテーション(データ転送)を英語から特定のターゲット言語に自動翻訳・投影することは、注釈付きデータを生成する効果的な方法であることを示している。また、スペイン語で自動生成されたデータを用いて、元の英語単言語設定の結果を改善する方法も示す。
論文参考訳（メタデータ） (2023-01-25T11:21:12Z)
CROP: Zero-shot Cross-lingual Named Entity Recognition with Multilingual Labeled Sequence Translation [113.99145386490639]
言語間NERは、整列した言語間表現や機械翻訳結果を通じて、言語間で知識を伝達することができる。ゼロショット言語間NERを実現するために,クロスランガル・エンティティ・プロジェクション・フレームワーク(CROP)を提案する。多言語ラベル付きシーケンス翻訳モデルを用いて、タグ付けされたシーケンスをターゲット言語に投影し、ターゲットの原文にラベル付けする。
論文参考訳（メタデータ） (2022-10-13T13:32:36Z)
Efficient Entity Candidate Generation for Low-Resource Languages [13.789451365205665]
候補生成はエンティティリンクにおいて重要なモジュールである。知識ベースを効果的に活用することが証明された複数のNLPタスクにおいて重要な役割を果たす。本稿では,言語間エンティティリンクの文脈における候補生成問題の詳細な分析を行う。
論文参考訳（メタデータ） (2022-06-30T09:49:53Z)
Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文参考訳（メタデータ） (2022-04-10T21:46:52Z)
Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文参考訳（メタデータ） (2020-11-23T16:00:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。