論文の概要: An analysis of full-size Russian complexly NER labelled corpus of
Internet user reviews on the drugs based on deep learning and language neural
nets
- arxiv url: http://arxiv.org/abs/2105.00059v1
- Date: Fri, 30 Apr 2021 19:46:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-04 14:23:37.285918
- Title: An analysis of full-size Russian complexly NER labelled corpus of
Internet user reviews on the drugs based on deep learning and language neural
nets
- Title(参考訳): ディープラーニングと言語ニューラルネットに基づくインターネットユーザレビューコーパスのフルサイズのNERラベル付きコーパスの分析
- Authors: Alexander Sboev, Sanna Sboeva, Ivan Moloshnikov, Artem Gryaznov, Roman
Rybka, Alexander Naumov, Anton Selivanov, Gleb Rylkov, Viacheslav Ilyin
- Abstract要約: 我々は、インターネットユーザーレビューのフルサイズのロシアの複雑なNERラベルコーパスを提示します。
高度なディープラーニングニューラルネットワークセットは、ロシアのテキストから薬理学的に有意義な実体を抽出するために使用される。
- 参考スコア(独自算出の注目度): 94.37521840642141
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We present the full-size Russian complexly NER-labeled corpus of Internet
user reviews, along with an evaluation of accuracy levels reached on this
corpus by a set of advanced deep learning neural networks to extract the
pharmacologically meaningful entities from Russian texts. The corpus annotation
includes mentions of the following entities: Medication (33005 mentions),
Adverse Drug Reaction (1778), Disease (17403), and Note (4490). Two of them -
Medication and Disease - comprise a set of attributes. A part of the corpus has
the coreference annotation with 1560 coreference chains in 300 documents.
Special multi-label model based on a language model and the set of features is
developed, appropriate for presented corpus labeling. The influence of the
choice of different modifications of the models: word vector representations,
types of language models pre-trained for Russian, text normalization styles,
and other preliminary processing are analyzed. The sufficient size of our
corpus allows to study the effects of particularities of corpus labeling and
balancing entities in the corpus. As a result, the state of the art for the
pharmacological entity extraction problem for Russian is established on a
full-size labeled corpus. In case of the adverse drug reaction (ADR)
recognition, it is 61.1 by the F1-exact metric that, as our analysis shows, is
on par with the accuracy level for other language corpora with similar
characteristics and the ADR representativnes. The evaluated baseline precision
of coreference relation extraction on the corpus is 71, that is higher the
results reached on other Russian corpora.
- Abstract(参考訳): 我々は,ロシア語テキストから薬理学的に有意な実体を抽出する先進的な深層学習ニューラルネットワークのセットを用いて,このコーパスに到達した精度レベルの評価とともに,インターネットユーザレビューのNERラベル付き完全サイズコーパスを提示する。
コーパスアノテーションには、メディケーション(33005の言及)、副薬物反応(1778年)、疾患(17403年)、ノート(4490年)が含まれる。
治療と病気の2つ - 属性のセットで構成されています。
コーパスの一部には、300の文書に1560のコリファレンスチェーンを持つコリファレンスアノテーションがある。
言語モデルに基づく特殊マルチラベルモデルと,提案コーパスラベリングに適した特徴セットを開発した。
単語ベクトル表現、ロシア語で事前訓練された言語モデルの種類、テキスト正規化スタイル、その他の予備処理など、モデルの異なる変更の選択の影響を分析する。
コーパスのサイズが十分であれば、コーパス内のエンティティのラベル付けとバランスをとることの影響を研究することができる。
その結果、フルサイズのラベル付きコーパス上に、ロシア語の薬理学的実体抽出問題に対する技術の現状が確立される。
副作用(adr)の認識の場合、f1-exactの指標で61.1であり、分析によれば、類似した特徴を持つ他の言語コーパスの精度レベルと同等である。
コーパスにおけるコリファレンス関係抽出の基準精度は71であり、他のロシアのコーパスで得られた結果よりも高い。
関連論文リスト
- FASSILA: A Corpus for Algerian Dialect Fake News Detection and Sentiment Analysis [0.0]
アルジェ方言(AD)は、注釈付きコーパスがないため、課題に直面している。
本研究では,Fake News(FN)検出・感情分析(SA)のための専門コーパスの開発プロセスについて概説する。
論文 参考訳(メタデータ) (2024-11-07T10:39:10Z) - RaTEScore: A Metric for Radiology Report Generation [59.37561810438641]
本稿では,Radiological Report (Text) Evaluation (RaTEScore) として,新しい実体認識尺度を提案する。
RaTEScoreは、診断結果や解剖学的詳細などの重要な医療機関を強調し、複雑な医学的同義語に対して堅牢であり、否定表現に敏感である。
我々の評価は、RaTEScoreが既存の指標よりも人間の嗜好とより密接に一致していることを示し、確立された公開ベンチマークと、新たに提案したRaTE-Evalベンチマークの両方で検証した。
論文 参考訳(メタデータ) (2024-06-24T17:49:28Z) - Biomedical Entity Linking for Dutch: Fine-tuning a Self-alignment BERT Model on an Automatically Generated Wikipedia Corpus [2.4686585810894477]
本稿では,オランダ語におけるバイオメディカルエンティティリンクモデルについて述べる。
オントロジーにリンクしたオランダの生物医学的実体を文脈でウィキペディアから抽出した。
以上の結果から,英語以外の言語でリンクする生物医学的実体はいまだに困難であることが示唆された。
論文 参考訳(メタデータ) (2024-05-20T10:30:36Z) - A Corpus for Sentence-level Subjectivity Detection on English News Articles [49.49218203204942]
我々はこのガイドラインを用いて、議論を呼んだ話題に関する英ニュース記事から抽出した638の目的語と411の主観的な文からなるNewsSD-ENGを収集する。
我々のコーパスは、語彙や機械翻訳といった言語固有のツールに頼ることなく、英語で主観的検出を行う方法を舗装している。
論文 参考訳(メタデータ) (2023-05-29T11:54:50Z) - Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of
Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。
脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文 参考訳(メタデータ) (2022-04-10T21:46:52Z) - RuBioRoBERTa: a pre-trained biomedical language model for Russian
language biomedical text mining [117.56261821197741]
ロシア語生物医学テキストマイニングのためのBERTベースのモデルをいくつか提示する。
これらのモデルは、ロシアの生物医学領域で自由に利用できるテキストのコーパスで事前訓練されている。
論文 参考訳(メタデータ) (2022-04-08T09:18:59Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z) - The Russian Drug Reaction Corpus and Neural Models for Drug Reactions
and Effectiveness Detection in User Reviews [13.428173157465062]
ロシア・ドラッグ・リアクション・コーパス (RuDReC) は、ロシアにおける医薬品製品に関する消費者レビューを部分的に注釈付けした新しいコーパスである。
生の部分には、さまざまなインターネットソースから収集された14万件の健康関連ユーザー生成テキストが含まれている。
ラベル付き部は、薬物および疾患関連情報による薬物療法に関する500の消費者レビューを含んでいる。
論文 参考訳(メタデータ) (2020-04-07T19:26:13Z) - NUBES: A Corpus of Negation and Uncertainty in Spanish Clinical Texts [5.424799109837065]
本稿では,NUBes corpusの最初のバージョンを紹介する(スペイン語のバイオメディカルテキストにおける否定的アノテーションと不確実性アノテーション)。
コーパスは現在進行中の研究の一部であり、否定と不確実性を示す匿名化された健康記録から得られた29,682の文で構成されている。
論文 参考訳(メタデータ) (2020-04-02T15:51:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。