論文の概要: CLaCLab at SocialDisNER: Using Medical Gazetteers for Named-Entity
Recognition of Disease Mentions in Spanish Tweets
- arxiv url: http://arxiv.org/abs/2209.03528v1
- Date: Thu, 8 Sep 2022 02:08:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-09 12:26:18.411227
- Title: CLaCLab at SocialDisNER: Using Medical Gazetteers for Named-Entity
Recognition of Disease Mentions in Spanish Tweets
- Title(参考訳): CLaCLab at SocialDisNER: 医療用ガゼッタを用いたスペインのつぶやきにおける病名認識
- Authors: Harsh Verma, Parsa Bagherzadeh, Sabine Bergler
- Abstract要約: 本稿では,SMM4H 2022タスク10のCLaC申請について要約する。
我々は,多言語RoBERTa Large,UMLS gatteer,disTEMIST gatteerといった機能を用いて,各トークンをトランスフォーマーエンコーダでエンコードする。
厳密なF1スコアは0.869で、競争平均は0.675、標準偏差は0.245、中央値は0.761である。
- 参考スコア(独自算出の注目度): 0.7918886297003019
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper summarizes the CLaC submission for SMM4H 2022 Task 10 which
concerns the recognition of diseases mentioned in Spanish tweets. Before
classifying each token, we encode each token with a transformer encoder using
features from Multilingual RoBERTa Large, UMLS gazetteer, and DISTEMIST
gazetteer, among others. We obtain a strict F1 score of 0.869, with competition
mean of 0.675, standard deviation of 0.245, and median of 0.761.
- Abstract(参考訳): 本稿では,SMM4H 2022タスク10のCLaC申請について要約する。
各トークンを分類する前に,多言語roberta large,umls gazetteer,distemist gazetteerなどの特徴を用いて,各トークンをトランスフォーマエンコーダで符号化する。
f1のスコアは0.869で、競争平均0.675、標準偏差0.245、中央値0.761である。
関連論文リスト
- Diagnosis extraction from unstructured Dutch echocardiogram reports using span- and document-level characteristic classification [0.0]
本研究は,非構造オランダ心エコー図による自動スパンレベル診断と文書レベル診断の有用性について検討した。
本研究では,重み付きおよびマクロF1スコア,精度,性能評価のためのリコールを用いて,スパンレベルと文書レベルの両方で自動ラベリング手法を開発し,試験した。
SpanCategorizerとMedRoBERTa$.$nlモデルは、他のすべてのスパンと文書分類器よりも優れていた。
論文 参考訳(メタデータ) (2024-08-13T14:33:32Z) - ThangDLU at #SMM4H 2024: Encoder-decoder models for classifying text data on social disorders in children and adolescents [49.00494558898933]
本稿では,#SMM4H (Social Media Mining for Health) 2024 Workshopのタスク3とタスク5への参加について述べる。
タスク3は、屋外環境が社会不安の症状に与える影響を議論するツイートを中心にした多クラス分類タスクである。
タスク5は、子供の医学的障害を報告しているツイートに焦点を当てたバイナリ分類タスクを含む。
BART-baseやT5-smallのような事前訓練されたエンコーダデコーダモデルからの転送学習を適用し、与えられたツイートの集合のラベルを同定した。
論文 参考訳(メタデータ) (2024-04-30T17:06:20Z) - CTC-based Non-autoregressive Speech Translation [51.37920141751813]
非自己回帰音声翻訳における接続性時間分類の可能性について検討する。
我々は、CTCによって誘導される2つのエンコーダからなるモデルを構築し、ソースおよびターゲットテキストを予測する。
MuST-Cベンチマークの実験では、我々のNASTモデルは平均BLEUスコアが29.5であり、スピードアップは5.67$times$である。
論文 参考訳(メタデータ) (2023-05-27T03:54:09Z) - Transformer-based Model for Word Level Language Identification in
Code-mixed Kannada-English Texts [55.41644538483948]
コードミキシングしたカンナダ英語テキストにおける単語レベル言語識別のためのトランスフォーマーベースモデルを提案する。
The proposed model on the CoLI-Kenglish dataset achieves a weighted F1-score of 0.84 and a macro F1-score of 0.61。
論文 参考訳(メタデータ) (2022-11-26T02:39:19Z) - A Scalable Workflow to Build Machine Learning Classifiers with
Clinician-in-the-Loop to Identify Patients in Specific Diseases [10.658425378457363]
臨床医は、EHR(Electronic Health Records)から疾患のある患者を識別するために、ICD(International Classification of Diseases)などの医療コーディングシステムを利用することができる。
近年の研究では、ICD符号は、実際の臨床実践において特定の疾患に対して、患者を正確に特徴づけることができないことが示唆されている。
本稿では,構造化データと非構造化テキストノートの両方を,NLP,AutoML,Cysian-in-the-Loop機構などの技術で活用するスケーラブルなワークフローを提案する。
論文 参考訳(メタデータ) (2022-05-18T12:24:07Z) - WSSS4LUAD: Grand Challenge on Weakly-supervised Tissue Semantic
Segmentation for Lung Adenocarcinoma [51.50991881342181]
この課題には10,091個のパッチレベルのアノテーションと1300万以上のラベル付きピクセルが含まれる。
第一位チームは0.8413mIoUを達成した(腫瘍:0.8389、ストーマ:0.7931、正常:0.8919)。
論文 参考訳(メタデータ) (2022-04-13T15:27:05Z) - Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of
Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。
脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文 参考訳(メタデータ) (2022-04-10T21:46:52Z) - Automatic Difficulty Classification of Arabic Sentences [0.0]
3方向cefr分類の精度はアラビア語-bert分類では0.80, xlm-r分類では0.75, 回帰では0.71スピアマン相関である。
我々は,異なる種類の文埋め込み(fastText, mBERT, XLM-R, Arabic-BERT)とPOSタグ, 依存性木, 可読性スコア, 言語学習者の頻度リストなど,従来の言語機能との比較を行った。
論文 参考訳(メタデータ) (2021-03-07T16:02:04Z) - CO-Search: COVID-19 Information Retrieval with Semantic Search, Question
Answering, and Abstractive Summarization [53.67205506042232]
CO-Searchは、新型コロナウイルスの文献上の複雑なクエリを処理するように設計された、レトリバーランサーセマンティック検索エンジンである。
ドメイン固有の比較的限られたデータセットを考慮し、文書の段落と引用の2部グラフを生成する。
TREC-COVID情報検索課題のデータに基づいて,本システムの評価を行った。
論文 参考訳(メタデータ) (2020-06-17T01:32:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。