論文の概要: A PubMedBERT-based Classifier with Data Augmentation Strategy for
Detecting Medication Mentions in Tweets
- arxiv url: http://arxiv.org/abs/2112.02998v1
- Date: Wed, 3 Nov 2021 14:29:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-09 06:32:22.701465
- Title: A PubMedBERT-based Classifier with Data Augmentation Strategy for
Detecting Medication Mentions in Tweets
- Title(参考訳): つぶやきのメディケーション検出のためのデータ拡張戦略付きPubMedBERTに基づく分類器
- Authors: Qing Han, Shubo Tian, Jinfeng Zhang
- Abstract要約: Twitterは毎日大量のユーザー生成テキスト(ツイート)を公開している。
エンティティ認識(NER)は、ツイートデータにいくつかの特別な課題を提示します。
本稿では,複数のデータ拡張手法を組み合わせたPubMedBERTベースの分類器について検討する。
提案手法はF1スコアが0.762であり, 平均値よりもかなり高い値を示した。
- 参考スコア(独自算出の注目度): 2.539568419434224
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: As a major social media platform, Twitter publishes a large number of
user-generated text (tweets) on a daily basis. Mining such data can be used to
address important social, public health, and emergency management issues that
are infeasible through other means. An essential step in many text mining
pipelines is named entity recognition (NER), which presents some special
challenges for tweet data. Among them are nonstandard expressions, extreme
imbalanced classes, and lack of context information, etc. The track 3 of
BioCreative challenge VII (BC7) was organized to evaluate methods for detecting
medication mentions in tweets. In this paper, we report our work on BC7 track
3, where we explored a PubMedBERT-based classifier trained with a combination
of multiple data augmentation approaches. Our method achieved an F1 score of
0.762, which is substantially higher than the mean of all submissions (0.696).
- Abstract(参考訳): 主要なソーシャルメディアプラットフォームとして、twitterは毎日大量のユーザー生成テキスト(ツイート)を公開している。
このようなデータをマイニングすることで、他の方法では実現できない重要な社会的、公衆衛生、緊急管理の問題に対処することができる。
多くのテキストマイニングパイプラインで不可欠なステップはエンティティ認識(ner)と呼ばれるもので、ツイートデータに対していくつかの特別な課題を提示している。
その中には、非標準表現、極端な不均衡クラス、文脈情報の欠如などが含まれる。
BioCreative Challenge VII (BC7) のトラック3は、ツイート中の医薬品の言及を検出する方法を評価するために編成された。
本稿では,複数のデータ拡張手法を組み合わせたPubMedBERTベースの分類器について検討したBC7トラック3について報告する。
提案手法はF1スコアが0.762であり, 平均値 (0.696) よりもかなり高い値を示した。
関連論文リスト
- ThangDLU at #SMM4H 2024: Encoder-decoder models for classifying text data on social disorders in children and adolescents [49.00494558898933]
本稿では,#SMM4H (Social Media Mining for Health) 2024 Workshopのタスク3とタスク5への参加について述べる。
タスク3は、屋外環境が社会不安の症状に与える影響を議論するツイートを中心にした多クラス分類タスクである。
タスク5は、子供の医学的障害を報告しているツイートに焦点を当てたバイナリ分類タスクを含む。
BART-baseやT5-smallのような事前訓練されたエンコーダデコーダモデルからの転送学習を適用し、与えられたツイートの集合のラベルを同定した。
論文 参考訳(メタデータ) (2024-04-30T17:06:20Z) - Unsupervised Sentiment Analysis of Plastic Surgery Social Media Posts [91.3755431537592]
ソーシャルメディアプラットフォームにまたがる膨大なユーザー投稿は、主に人工知能(AI)のユースケースに使われていない。
自然言語処理(NLP)は、コーパス(corpora)として知られるドキュメントの体系を利用して、人間のような言語理解でコンピュータを訓練するAIのサブフィールドである。
本研究は, 教師なし解析の応用により, コンピュータがプラスティック手術に対する否定的, 肯定的, 中立的なユーザ感情を予測できることを示した。
論文 参考訳(メタデータ) (2023-07-05T20:16:20Z) - ManiTweet: A New Benchmark for Identifying Manipulation of News on Social Media [74.93847489218008]
ソーシャルメディア上でのニュースの操作を識別し,ソーシャルメディア投稿の操作を検出し,操作された情報や挿入された情報を特定することを目的とした,新しいタスクを提案する。
この課題を研究するために,データ収集スキーマを提案し,3.6K対のツイートとそれに対応する記事からなるManiTweetと呼ばれるデータセットをキュレートした。
我々の分析では、このタスクは非常に難しいことを示し、大きな言語モデル(LLM)は不満足なパフォーマンスをもたらす。
論文 参考訳(メタデータ) (2023-05-23T16:40:07Z) - ViralBERT: A User Focused BERT-Based Approach to Virality Prediction [11.992815669875924]
本稿では、コンテンツとユーザベースの機能を用いて、ツイートのバイラル性を予測できるViralBERTを提案する。
ハッシュタグやフォロワー数などの数値的特徴を合成してテキストをツイートし、2つのBERTモジュールを利用する手法を用いる。
ViralBERTをトレーニングするために330kのツイートのデータセットを収集し、この分野での現在の研究からベースラインを使用して、モデルの有効性を検証する。
論文 参考訳(メタデータ) (2022-05-17T21:40:24Z) - Twitter-COMMs: Detecting Climate, COVID, and Military Multimodal
Misinformation [83.2079454464572]
本稿では,DARPAセマンティック・フォレスティクス(SemaFor)プログラムにおける画像テキスト不整合検出へのアプローチについて述べる。
Twitter-COMMsは大規模マルチモーダルデータセットで、884万のツイートが気候変動、新型コロナウイルス、軍用車両のトピックに関連する。
我々は、最先端のCLIPモデルに基づいて、自動生成されたランダムとハードのネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガ
論文 参考訳(メタデータ) (2021-12-16T03:37:20Z) - Automatic Extraction of Medication Names in Tweets as Named Entity
Recognition [3.7462395049372894]
バイオクリエイティヴVIIタスク3は、ツイート中の医薬品や栄養補助薬の言及を認識することで、この情報をマイニングすることに焦点を当てている。
トークンレベルの分類を行うために,複数のBERTスタイルの言語モデルを微調整することで,この問題に対処する。
我々の最良のシステムは、5つのメガトロン-BERT-345Mモデルで構成され、未知のテストデータに対して厳密なF1スコア0.764を達成する。
論文 参考訳(メタデータ) (2021-11-30T18:25:32Z) - Extraction of Medication Names from Twitter Using Augmentation and an
Ensemble of Language Models [55.44979919361194]
BioCreative VII Track 3の課題は、Twitterのユーザータイムラインで薬物名を特定することである。
この課題への回答として、いくつかのデータ拡張技術を用いて、利用可能なトレーニングデータを拡張しました。
その後、拡張されたデータは、一般ドメインのTwitterコンテンツで事前トレーニングされた言語モデルのアンサンブルを微調整するために使用された。
論文 参考訳(メタデータ) (2021-11-12T11:18:46Z) - I-AID: Identifying Actionable Information from Disaster-related Tweets [0.0]
ソーシャルメディアは、被災者、寄付、支援要請に関する貴重なデータを提供することによって、災害管理において重要な役割を担っている。
ツイートを自動的にマルチラベル情報タイプに分類するマルチモデルアプローチであるI-AIDを提案する。
以上の結果から,I-AIDはTREC-ISデータセットおよびCOVID-19 Tweetsにおいて,平均F1得点の6%,+4%において最先端のアプローチよりも優れていた。
論文 参考訳(メタデータ) (2020-08-04T19:07:50Z) - Students Need More Attention: BERT-based AttentionModel for Small Data
with Application to AutomaticPatient Message Triage [65.7062363323781]
BioBERT (Bidirectional Representations from Transformers for Biomedical Text Mining) に基づく新しいフレームワークを提案する。
LESA-BERTと呼ぶBERTの各層にラベル埋め込みを導入し、(ii)LESA-BERTを小さな変種に蒸留することにより、小さなデータセットで作業する際のオーバーフィッティングとモデルサイズを低減することを目指す。
アプリケーションとして,本フレームワークを用いて,患者ポータルメッセージトリアージのモデルを構築し,メッセージの緊急度を非緊急度,中度度,緊急度という3つのカテゴリに分類する。
論文 参考訳(メタデータ) (2020-06-22T03:39:00Z) - Utilizing Deep Learning to Identify Drug Use on Twitter Data [0.0]
サポートベクトルマシン(SVM)、XGBoost、畳み込みニューラルネットワーク(CNN)に基づく分類器を含む複数の手法の分類能力を比較した。
精度は76.35%と82.31%で、AUCは0.90と0.91である。
合成されたセットはスコアを増やし、分類能力を改善し、この方法論の価値を証明した。
論文 参考訳(メタデータ) (2020-03-08T07:52:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。