論文の概要: NUBES: A Corpus of Negation and Uncertainty in Spanish Clinical Texts
- arxiv url: http://arxiv.org/abs/2004.01092v1
- Date: Thu, 2 Apr 2020 15:51:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-17 10:11:41.727852
- Title: NUBES: A Corpus of Negation and Uncertainty in Spanish Clinical Texts
- Title(参考訳): nubes: スペイン語臨床文献における否定と不確実性のコーパス
- Authors: Salvador Lima, Naiara Perez, Montse Cuadros, and German Rigau
- Abstract要約: 本稿では,NUBes corpusの最初のバージョンを紹介する(スペイン語のバイオメディカルテキストにおける否定的アノテーションと不確実性アノテーション)。
コーパスは現在進行中の研究の一部であり、否定と不確実性を示す匿名化された健康記録から得られた29,682の文で構成されている。
- 参考スコア(独自算出の注目度): 5.424799109837065
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper introduces the first version of the NUBes corpus (Negation and
Uncertainty annotations in Biomedical texts in Spanish). The corpus is part of
an on-going research and currently consists of 29,682 sentences obtained from
anonymised health records annotated with negation and uncertainty. The article
includes an exhaustive comparison with similar corpora in Spanish, and presents
the main annotation and design decisions. Additionally, we perform preliminary
experiments using deep learning algorithms to validate the annotated dataset.
As far as we know, NUBes is the largest publicly available corpus for negation
in Spanish and the first that also incorporates the annotation of speculation
cues, scopes, and events.
- Abstract(参考訳): 本稿では,NUBes corpusの最初のバージョン(スペイン語のバイオメディカルテキストにおける否定的アノテーションと不確実性アノテーション)を紹介する。
コーパスは現在進行中の研究の一部であり、否定と不確実性を示す匿名化された健康記録から得られた29,682の文で構成されている。
この記事では、スペイン語の類似のコーパスと徹底的に比較し、主要なアノテーションと設計上の決定を示す。
さらに,アノテーション付きデータセットを検証するために,ディープラーニングアルゴリズムを用いた予備実験を行う。
われわれが知る限り、NUBesはスペイン語の否定のための最大公用コーパスであり、憶測の手がかり、スコープ、イベントのアノテーションも組み込んだ最初の企業である。
関連論文リスト
- FASSILA: A Corpus for Algerian Dialect Fake News Detection and Sentiment Analysis [0.0]
アルジェ方言(AD)は、注釈付きコーパスがないため、課題に直面している。
本研究では,Fake News(FN)検出・感情分析(SA)のための専門コーパスの開発プロセスについて概説する。
論文 参考訳(メタデータ) (2024-11-07T10:39:10Z) - Evaluating the Factuality of Zero-shot Summarizers Across Varied Domains [60.5207173547769]
バイオメディカル・アーティクルや法定請求書を含む専門分野におけるゼロショット生成サマリーを評価した。
ドメインの専門家からアノテーションを取得し、要約の不整合を識別し、これらのエラーを体系的に分類する。
収集したすべてのアノテーションを公開し、ニュース記事を超えて、事実的に正確な要約を計測および実現するためのさらなる研究を促進する。
論文 参考訳(メタデータ) (2024-02-05T20:51:11Z) - FRACAS: A FRench Annotated Corpus of Attribution relations in newS [0.0]
引用抽出と情報源帰属のために,フランス語で1676年のニュースワイヤテキストを手作業で注釈付けしたコーパスを提示する。
まず,データ選択時のコーパスの構成と選択について述べる。
次に、手動ラベリングに取り組んでいる8つのアノテータ間のアノテータ間合意について詳述する。
論文 参考訳(メタデータ) (2023-09-19T13:19:54Z) - Not another Negation Benchmark: The NaN-NLI Test Suite for Sub-clausal
Negation [59.307534363825816]
否定は現在の言語モデルでは不十分だが、この問題の範囲は広く理解されていない。
自然言語推論(NLI)テストスイートを導入し,NLP手法の能力を検証した。
論文 参考訳(メタデータ) (2022-10-06T23:39:01Z) - DEEP: DEnoising Entity Pre-training for Neural Machine Translation [123.6686940355937]
機械翻訳モデルは通常、トレーニングコーパスで稀な名前付きエンティティの翻訳を貧弱に生成することが示されている。
文中の名前付きエンティティ翻訳精度を向上させるために,大量のモノリンガルデータと知識ベースを利用するDenoising Entity Pre-training法であるDEEPを提案する。
論文 参考訳(メタデータ) (2021-11-14T17:28:09Z) - What's in the Box? An Analysis of Undesirable Content in the Common
Crawl Corpus [77.34726150561087]
言語モデルの訓練に広く使用されるコロッサルwebコーパスであるcommon crawlを分析した。
ヘイトスピーチや性的明示的なコンテンツなど、フィルタリング処理後も、好ましくないコンテンツがかなりの量含まれていることがわかりました。
論文 参考訳(メタデータ) (2021-05-06T14:49:43Z) - An analysis of full-size Russian complexly NER labelled corpus of
Internet user reviews on the drugs based on deep learning and language neural
nets [94.37521840642141]
我々は、インターネットユーザーレビューのフルサイズのロシアの複雑なNERラベルコーパスを提示します。
高度なディープラーニングニューラルネットワークセットは、ロシアのテキストから薬理学的に有意義な実体を抽出するために使用される。
論文 参考訳(メタデータ) (2021-04-30T19:46:24Z) - Understanding Pre-trained BERT for Aspect-based Sentiment Analysis [71.40586258509394]
本稿では、アスペクトベース感情分析(ABSA)におけるタスクに対するBERTのレビューから得られた事前学習された隠れ表現について分析する。
アスペクトや意見のアノテーションなしでラベル付けされていないコーパスでトレーニングされた(マスクされた)言語モデルの一般的なプロキシタスクが、ABSAの下流タスクにどのように重要な機能を提供するかは明らかではない。
論文 参考訳(メタデータ) (2020-10-31T02:21:43Z) - Named Entities in Medical Case Reports: Corpus and Experiments [0.5773440045183915]
本稿では, PubMed Centralのオープンアクセスライブラリを起源とする, 症例報告における医療機関のアノテーションを含む新しいコーパスを提案する。
症例報告では, 症例, 状況, 所見, 要因, 否定修飾剤を注記する。
この種のコーパスは、英語の科学コミュニティで利用可能となった最初のコーパスである。
論文 参考訳(メタデータ) (2020-03-29T14:08:43Z) - SemClinBr -- a multi institutional and multi specialty semantically
annotated corpus for Portuguese clinical NLP tasks [0.7311642662742726]
SemClinBrは1000の臨床ノートを持ち、65,117個のエンティティと11,263個の関係を持つコーパスである。
この研究はSemClinBrというコーパスで、臨床ノートが1000個あり、65,117のエンティティと11,263のリレーションがラベル付けされている。
論文 参考訳(メタデータ) (2020-01-27T20:39:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。