論文の概要: A Dataset for Pharmacovigilance in German, French, and Japanese: Annotating Adverse Drug Reactions across Languages
- arxiv url: http://arxiv.org/abs/2403.18336v1
- Date: Wed, 27 Mar 2024 08:21:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-28 17:57:01.706318
- Title: A Dataset for Pharmacovigilance in German, French, and Japanese: Annotating Adverse Drug Reactions across Languages
- Title(参考訳): ドイツ語,フランス語,日本語における薬理学用語のデータセット : 言語間での副次的薬物反応について
- Authors: Lisa Raithel, Hui-Syuan Yeh, Shuntaro Yada, Cyril Grouin, Thomas Lavergne, Aurélie Névéol, Patrick Paroubek, Philippe Thomas, Tomohiro Nishiyama, Sebastian Möller, Eiji Aramaki, Yuji Matsumoto, Roland Roller, Pierre Zweigenbaum,
- Abstract要約: 本研究は, 患者フォーラム, ソーシャルメディア, 臨床報告, ドイツ語, フランス語, 日本語など, さまざまなソースから収集した副薬物反応に関する多言語コーパスを提示する。
これは、医療のための現実の多言語言語モデルの開発に貢献する。
- 参考スコア(独自算出の注目度): 17.40961028505384
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: User-generated data sources have gained significance in uncovering Adverse Drug Reactions (ADRs), with an increasing number of discussions occurring in the digital world. However, the existing clinical corpora predominantly revolve around scientific articles in English. This work presents a multilingual corpus of texts concerning ADRs gathered from diverse sources, including patient fora, social media, and clinical reports in German, French, and Japanese. Our corpus contains annotations covering 12 entity types, four attribute types, and 13 relation types. It contributes to the development of real-world multilingual language models for healthcare. We provide statistics to highlight certain challenges associated with the corpus and conduct preliminary experiments resulting in strong baselines for extracting entities and relations between these entities, both within and across languages.
- Abstract(参考訳): ユーザ生成データソースは、逆薬物反応(Adverse Drug Reactions, ADRs)の解明において重要となり、デジタル世界ではますます多くの議論が起きている。
しかし、既存の臨床コーパスは主に英語の科学論文を中心に展開している。
本研究は, 患者フォーラム, ソーシャルメディア, 臨床報告など, さまざまな情報源から収集されたADRに関する多言語コーパスをドイツ語, フランス語, 日本語で提示する。
コーパスには、12のエンティティタイプ、4つの属性タイプ、13のリレーショナルタイプを含むアノテーションが含まれています。
これは、医療のための現実の多言語言語モデルの開発に貢献する。
我々は、コーパスに関連する特定の課題を強調し、予備実験を行い、その結果、言語内および言語間において、エンティティの抽出とそれらのエンティティ間の関係を強く基礎づける。
関連論文リスト
- Multi-EuP: The Multilingual European Parliament Dataset for Analysis of
Bias in Information Retrieval [62.82448161570428]
このデータセットは、多言語情報検索コンテキストにおける公平性を調べるために設計されている。
真正な多言語コーパスを持ち、24言語すべてに翻訳されたトピックを特徴としている。
文書に関連する豊富な人口統計情報を提供し、人口統計バイアスの研究を容易にする。
論文 参考訳(メタデータ) (2023-11-03T12:29:11Z) - Multilingual Clinical NER: Translation or Cross-lingual Transfer? [4.4924444466378555]
翻訳に基づく手法は、言語間移動と同じような性能が得られることを示す。
我々はMedNERFを、フランスの医薬品処方薬から抽出した医療用NERテストセットとしてリリースし、英語のデータセットと同じガイドラインで注釈を付した。
論文 参考訳(メタデータ) (2023-06-07T12:31:07Z) - Med-UniC: Unifying Cross-Lingual Medical Vision-Language Pre-Training by
Diminishing Bias [38.26934474189853]
Med-UniC (Med-UniC) は、英語とスペイン語のマルチモーダル医療データを統合したものである。
Med-UniCは、5つの医療画像タスクと30以上の疾患を含む10のデータセットで優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-05-31T14:28:19Z) - Making a MIRACL: Multilingual Information Retrieval Across a Continuum
of Languages [62.730361829175415]
MIRACLは、WSDM 2023 Cupチャレンジのために構築した多言語データセットです。
18の言語にまたがるアドホック検索に焦点を当てている。
我々の目標は、言語連続体における検索を改善する研究を加速させることです。
論文 参考訳(メタデータ) (2022-10-18T16:47:18Z) - Cross-lingual Approaches for the Detection of Adverse Drug Reactions in
German from a Patient's Perspective [3.8233498951276403]
患者生成内容におけるドイツ逆薬物反応検出のための最初のコーパスを提示する。
データはドイツの患者フォーラムから4,169件の注釈付き文書から成っている。
論文 参考訳(メタデータ) (2022-08-03T12:52:01Z) - Models and Datasets for Cross-Lingual Summarisation [78.56238251185214]
対象言語における多文要約に関連付けられたソース言語において,長い文書を含む言語間要約コーパスを提案する。
コーパスは、チェコ語、英語、フランス語、ドイツ語の4つの言語について、12の言語対と指示をカバーしている。
言語対応のウィキペディアのタイトルから、主節と記事の本体を組み合わせることで、ウィキペディアから言語横断的な文書要約インスタンスを導出する。
論文 参考訳(メタデータ) (2022-02-19T11:55:40Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - A Multilingual Neural Machine Translation Model for Biomedical Data [84.17747489525794]
生物医学領域におけるテキストの翻訳に使用できる多言語ニューラルマシン翻訳モデルをリリースする。
このモデルは5つの言語(フランス語、ドイツ語、イタリア語、韓国語、スペイン語)から英語に翻訳できる。
ドメインタグを使用して、大量のジェネリックおよびバイオメディカルデータをトレーニングする。
論文 参考訳(メタデータ) (2020-08-06T21:26:43Z) - Multi-SimLex: A Large-Scale Evaluation of Multilingual and Cross-Lingual
Lexical Semantic Similarity [67.36239720463657]
Multi-SimLexは、12の異なる言語のデータセットをカバーする大規模な語彙リソースと評価ベンチマークである。
各言語データセットは、意味的類似性の語彙的関係に注釈付けされ、1,888のセマンティック・アライメント・コンセプト・ペアを含む。
言語間の概念の整合性のため、66の言語間セマンティック類似性データセットを提供する。
論文 参考訳(メタデータ) (2020-03-10T17:17:01Z) - SemClinBr -- a multi institutional and multi specialty semantically
annotated corpus for Portuguese clinical NLP tasks [0.7311642662742726]
SemClinBrは1000の臨床ノートを持ち、65,117個のエンティティと11,263個の関係を持つコーパスである。
この研究はSemClinBrというコーパスで、臨床ノートが1000個あり、65,117のエンティティと11,263のリレーションがラベル付けされている。
論文 参考訳(メタデータ) (2020-01-27T20:39:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。