論文の概要: Refinement of an Epilepsy Dictionary through Human Annotation of Health-related posts on Instagram
- arxiv url: http://arxiv.org/abs/2405.08784v1
- Date: Tue, 14 May 2024 17:27:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-15 13:08:43.148079
- Title: Refinement of an Epilepsy Dictionary through Human Annotation of Health-related posts on Instagram
- Title(参考訳): Instagramにおけるヒトの健康関連投稿の注釈によるてんかん辞書のリファインメント
- Authors: Aehong Min, Xuan Wang, Rion Brattig Correia, Jordan Rozum, Wendy R. Miller, Luis M. Rocha,
- Abstract要約: 私たちは、バイオメディカル用語で作られた辞書を使って、少なくとも一度はてんかん関連薬に言及したユーザーによって、800万件以上のInstagram投稿をタグ付けしました。
1,771のポストと2,947の項一致のランダムなサンプルを、ヒトのアノテーターによって評価し、偽陽性を同定した。
OpenAIのGPTシリーズモデルは人間のアノテーションと比較された。
- 参考スコア(独自算出の注目度): 5.410785987233275
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We used a dictionary built from biomedical terminology extracted from various sources such as DrugBank, MedDRA, MedlinePlus, TCMGeneDIT, to tag more than 8 million Instagram posts by users who have mentioned an epilepsy-relevant drug at least once, between 2010 and early 2016. A random sample of 1,771 posts with 2,947 term matches was evaluated by human annotators to identify false-positives. OpenAI's GPT series models were compared against human annotation. Frequent terms with a high false-positive rate were removed from the dictionary. Analysis of the estimated false-positive rates of the annotated terms revealed 8 ambiguous terms (plus synonyms) used in Instagram posts, which were removed from the original dictionary. To study the effect of removing those terms, we constructed knowledge networks using the refined and the original dictionaries and performed an eigenvector-centrality analysis on both networks. We show that the refined dictionary thus produced leads to a significantly different rank of important terms, as measured by their eigenvector-centrality of the knowledge networks. Furthermore, the most important terms obtained after refinement are of greater medical relevance. In addition, we show that OpenAI's GPT series models fare worse than human annotators in this task.
- Abstract(参考訳): 私たちは、2010年から2016年初めにかけて、少なくとも一度はてんかん関連薬について言及したユーザーによって800万件以上のInstagram投稿をタグ付けするために、D薬バンク、MedDRA、MedlinePlus、TMGeneDITなどの様々なソースから抽出されたバイオメディカル用語から作られた辞書を使用しました。
1,771のポストと2,947の項一致のランダムなサンプルを、ヒトのアノテーターによって評価し、偽陽性を同定した。
OpenAIのGPTシリーズモデルは人間のアノテーションと比較された。
高い偽陽性率の用語が辞書から削除された。
注釈付き用語の推定偽陽性率の分析では、Instagramの投稿で使われている8つの曖昧な用語(+同義語)が、元の辞書から削除された。
それらの用語を除去する効果を研究するため,精細辞書と原辞書を用いて知識ネットワークを構築し,両ネットワークで固有ベクトル-中央集権解析を行った。
得られた改良辞書は,知識ネットワークの固有ベクトル中央性によって測定されるように,重要な用語のランクが著しく異なることを示す。
さらに、精製後に得られる最も重要な用語は、より大きな医療関連性である。
また, OpenAI の GPT シリーズモデルでは, 人間のアノテータよりも悪い結果が得られた。
関連論文リスト
- Incorporating Dictionaries into a Neural Network Architecture to Extract
COVID-19 Medical Concepts From Social Media [0.2302001830524133]
自然言語処理のためのニューラルネットワークアーキテクチャに辞書情報を組み込むことの潜在的な利点について検討する。
特に、このアーキテクチャを用いて、オンライン医療フォーラムからCOVID-19に関連するいくつかの概念を抽出する。
この結果から,小ドメイン辞書を深層学習モデルに組み込むことで,概念抽出作業の改善が期待できることがわかった。
論文 参考訳(メタデータ) (2023-09-05T12:47:44Z) - Biomedical Named Entity Recognition via Dictionary-based Synonym
Generalization [51.89486520806639]
本研究では,入力テキストに含まれる生物医学的概念をスパンベース予測を用いて認識する,新しいSynGenフレームワークを提案する。
提案手法を広範囲のベンチマークで広範囲に評価し,SynGenが従来の辞書ベースモデルよりも顕著なマージンで優れていることを確認した。
論文 参考訳(メタデータ) (2023-05-22T14:36:32Z) - DICTDIS: Dictionary Constrained Disambiguation for Improved NMT [50.888881348723295]
我々は辞書から派生した複数の候補翻訳の曖昧さを解消する語彙制約付きNMTシステムであるDictDisを提案する。
我々は、規制、金融、工学を含む様々な分野において、英語・ヒンディー語・英語・ドイツ語文に関する広範な実験を通じて、DictDisの有用性を実証する。
論文 参考訳(メタデータ) (2022-10-13T13:04:16Z) - Always Keep your Target in Mind: Studying Semantics and Improving
Performance of Neural Lexical Substitution [124.99894592871385]
本稿では,従来の言語モデルと最近の言語モデルの両方を用いた語彙置換手法の大規模比較研究を行う。
目的語に関する情報を適切に注入すれば,SOTA LMs/MLMsによるすでに競合する結果がさらに大幅に改善できることを示す。
論文 参考訳(メタデータ) (2022-06-07T16:16:19Z) - Semantic-Preserving Adversarial Text Attacks [85.32186121859321]
深層モデルの脆弱性を調べるために, Bigram と Unigram を用いた適応的セマンティック保存最適化法 (BU-SPO) を提案する。
提案手法は,既存手法と比較して最小の単語数を変更することで,攻撃成功率とセマンティックス率を最大化する。
論文 参考訳(メタデータ) (2021-08-23T09:05:18Z) - Clinical Named Entity Recognition using Contextualized Token
Representations [49.036805795072645]
本稿では,各単語の意味的意味をより正確に把握するために,文脈型単語埋め込み手法を提案する。
言語モデル(C-ELMo)とC-Flair(C-Flair)の2つの深い文脈型言語モデル(C-ELMo)を事前訓練する。
明示的な実験により、静的単語埋め込みとドメインジェネリック言語モデルの両方と比較して、我々のモデルは劇的に改善されている。
論文 参考訳(メタデータ) (2021-06-23T18:12:58Z) - An Automated Method to Enrich Consumer Health Vocabularies Using GloVe
Word Embeddings and An Auxiliary Lexical Resource [0.0]
平民は、ドメインに共通する専門用語を理解できないため、専門家とのコミュニケーションが困難になる可能性がある。
いくつかの専門用語は、平凡な医学用語を専門的な医学用語にマッピングするために作られており、その逆も同様である。
本稿では,どのドメインの語彙にも適用可能な,平民の語彙を豊かにするための自動手法を提案する。
論文 参考訳(メタデータ) (2021-05-18T20:16:45Z) - BBAEG: Towards BERT-based Biomedical Adversarial Example Generation for
Text Classification [1.14219428942199]
バイオメディカルテキスト分類のためのブラックボックス攻撃アルゴリズムであるBBAEG(Biomedical BERT-based Adversarial Example Generation)を提案する。
我々は,BBAEGがより優れた言語流布,セマンティック・コヒーレンス(セマンティック・コヒーレンス)でより強力な攻撃を行うことを示す。
論文 参考訳(メタデータ) (2021-04-05T05:32:56Z) - Speakers Fill Lexical Semantic Gaps with Context [65.08205006886591]
我々は単語の語彙的あいまいさを意味のエントロピーとして運用する。
単語のあいまいさの推定値と,WordNetにおける単語の同義語数との間には,有意な相関関係が認められた。
これは、あいまいさの存在下では、話者が文脈をより情報的にすることで補うことを示唆している。
論文 参考訳(メタデータ) (2020-10-05T17:19:10Z) - Can Embeddings Adequately Represent Medical Terminology? New Large-Scale
Medical Term Similarity Datasets Have the Answer! [13.885093944392464]
医療データに基づいて訓練された埋め込みが多数出現しているが、医療用語がどの程度うまく表現されているかは定かではない。
大規模医療用語類似度データセットを複数作成する。
我々は,複数のベクトル類似度指標と単語ベクトル集約技術を比較し,新しいデータセット上での最先端の単語と文脈の埋め込みを評価した。
論文 参考訳(メタデータ) (2020-03-24T19:18:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。