論文の概要: UCE-FID: Using Large Unlabeled, Medium Crowdsourced-Labeled, and Small
Expert-Labeled Tweets for Foodborne Illness Detection
- arxiv url: http://arxiv.org/abs/2312.01225v1
- Date: Sat, 2 Dec 2023 21:03:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 18:29:37.192487
- Title: UCE-FID: Using Large Unlabeled, Medium Crowdsourced-Labeled, and Small
Expert-Labeled Tweets for Foodborne Illness Detection
- Title(参考訳): UCE-FID:食中毒検出のための大規模未ラベル、中級クラウドソースラベル、少人数専門家ラベル付きつぶやき
- Authors: Ruofan Hu, Dongyu Zhang, Dandan Tao, Huayi Zhang, Hao Feng, and Elke
Rundensteiner
- Abstract要約: 食品性疾患検出のための深層学習フレームワークEGALを提案する。
EGALは、クラウドソーシングされた大量のラベルのないデータによって強化された、専門家ラベル付き小さなツイートを使用する。
EGALは、ツイートストリーミングのリアルタイム分析のためにデプロイされる可能性がある。
- 参考スコア(独自算出の注目度): 8.934980946374367
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Foodborne illnesses significantly impact public health. Deep learning
surveillance applications using social media data aim to detect early warning
signals. However, labeling foodborne illness-related tweets for model training
requires extensive human resources, making it challenging to collect a
sufficient number of high-quality labels for tweets within a limited budget.
The severe class imbalance resulting from the scarcity of foodborne
illness-related tweets among the vast volume of social media further
exacerbates the problem. Classifiers trained on a class-imbalanced dataset are
biased towards the majority class, making accurate detection difficult. To
overcome these challenges, we propose EGAL, a deep learning framework for
foodborne illness detection that uses small expert-labeled tweets augmented by
crowdsourced-labeled and massive unlabeled data. Specifically, by leveraging
tweets labeled by experts as a reward set, EGAL learns to assign a weight of
zero to incorrectly labeled tweets to mitigate their negative influence. Other
tweets receive proportionate weights to counter-balance the unbalanced class
distribution. Extensive experiments on real-world \textit{TWEET-FID} data show
that EGAL outperforms strong baseline models across different settings,
including varying expert-labeled set sizes and class imbalance ratios. A case
study on a multistate outbreak of Salmonella Typhimurium infection linked to
packaged salad greens demonstrates how the trained model captures relevant
tweets offering valuable outbreak insights. EGAL, funded by the U.S. Department
of Agriculture (USDA), has the potential to be deployed for real-time analysis
of tweet streaming, contributing to foodborne illness outbreak surveillance
efforts.
- Abstract(参考訳): 食品による病気は公衆衛生に大きな影響を与える。
ソーシャルメディアデータを用いたディープラーニング監視アプリケーションは、早期警告信号の検出を目的としている。
しかし、モデルトレーニングのための食品関連ツイートのラベル付けには、膨大な人材が必要であり、限られた予算内で十分な数の高品質のツイートラベルを収集することは困難である。
大量のソーシャルメディアで食中毒関連ツイートが不足しているため、深刻な階級不均衡が問題をさらに悪化させる。
クラス不均衡データセットでトレーニングされた分類器は、多数派クラスに偏り、正確な検出が難しい。
これらの課題を克服するために,我々は,クラウドソーシングと大規模未ラベルデータによる小規模な専門家ラベル付きつぶやきを用いた食中毒検出のためのディープラーニングフレームワークEGALを提案する。
具体的には、専門家によってラベル付けされたツイートを報酬セットとして活用することで、EGALは、不正にラベル付けされたツイートにゼロの重みを割り当てることを学び、ネガティブな影響を軽減する。
他のツイートは、バランスのとれないクラス分布のバランスをとるために比例重みを受け取る。
実世界の \textit{tweet-fid}データに関する広範な実験は、egalがさまざまな設定で強力なベースラインモデルを上回ることを示している。
サラダグリーンに関連付けられたサルモネラのタイフィムリウム感染の多州発生に関するケーススタディでは、トレーニングされたモデルが、適切なアウトブレイク洞察を提供する関連ツイートを捉えた方法が示されている。
u.s. department of agriculture (usda)が出資するegalは、ツイートストリーミングのリアルタイム分析のために展開される可能性を秘めている。
関連論文リスト
- Epidemiology-informed Network for Robust Rumor Detection [59.89351792706995]
本稿では, 疫学知識を統合し, 性能を高めるための新しい疫学情報ネットワーク(EIN)を提案する。
疫学理論をうわさ検出に適応させるため,各利用者が情報源情報に対する姿勢を付加することが期待されている。
実験結果から,提案したEINは実世界のデータセット上で最先端の手法より優れるだけでなく,樹木の深度にまたがる堅牢性も向上することが示された。
論文 参考訳(メタデータ) (2024-11-20T00:43:32Z) - CrisisMatch: Semi-Supervised Few-Shot Learning for Fine-Grained Disaster
Tweet Classification [51.58605842457186]
半教師付き, 少数ショットの学習環境下で, 微粒な災害ツイート分類モデルを提案する。
私たちのモデルであるCrisisMatchは、ラベルなしデータと大量のラベルなしデータを用いて、ツイートを関心の細かいクラスに効果的に分類する。
論文 参考訳(メタデータ) (2023-10-23T07:01:09Z) - Named Entity Recognition for Monitoring Plant Health Threats in Tweets:
a ChouBERT Approach [0.0]
ChouBERTは訓練済みの言語モデルで、植物健康問題の観察に関するつぶやきを特定できる。
本稿では,小さなラベル付き集合上でのトークンレベルのアノテーションタスクに関するChouBERTのノウハウを更に研究することによって,ラベル付きデータの欠如に対処する。
論文 参考訳(メタデータ) (2023-10-19T06:54:55Z) - A Novel Site-Agnostic Multimodal Deep Learning Model to Identify
Pro-Eating Disorder Content on Social Media [0.0]
本研究の目的は、ソーシャルメディア投稿が摂食障害を促進するかどうかを判断できるマルチモーダルディープラーニングモデルを構築することである。
ツイートのラベル付きデータセットがTwitterから収集され、最近Xと改名され、12のディープラーニングモデルがトレーニングされ、評価された。
RoBERTaとMaxViTの融合モデルは、TumblrとRedditの未ラベルの投稿のデータセットを分類するためにデプロイされた。
論文 参考訳(メタデータ) (2023-07-06T16:04:46Z) - Exploring Model Dynamics for Accumulative Poisoning Discovery [62.08553134316483]
そこで我々は,モデルレベルの情報を通して,防衛を探索するための新しい情報尺度,すなわち,記憶の離散性(Memorization Discrepancy)を提案する。
暗黙的にデータ操作の変更をモデル出力に転送することで、メモリ識別は許容できない毒のサンプルを発見することができる。
我々は、その性質を徹底的に探求し、累積中毒に対する防御のために、離散型サンプル補正(DSC)を提案する。
論文 参考訳(メタデータ) (2023-06-06T14:45:24Z) - RevealED: Uncovering Pro-Eating Disorder Content on Twitter Using Deep
Learning [0.0]
本研究の目的は、ソーシャルメディア投稿が画像データのみに基づいて摂食障害を促進するかどうかを判断できる深層学習モデルを構築することである。
いくつかのディープラーニングモデルは、スクラップデータセットに基づいてトレーニングされ、その精度、F1スコア、精度、リコールに基づいて評価された。
このモデルは「#selfie」から取り除かれた未ラベルのTwitter画像データに適用された。
論文 参考訳(メタデータ) (2022-12-28T16:50:49Z) - Attend Who is Weak: Pruning-assisted Medical Image Localization under
Sophisticated and Implicit Imbalances [102.68466217374655]
ディープニューラルネットワーク(DNN)は、医療画像理解タスクのテキストファクト選択として急速に普及している。
本稿では,プルーニングを用いてテキスト・ハード・トゥ・ラーン(HTL)学習サンプルを自動かつ適応的に識別する手法を提案する。
また、HTLが複雑な人口動態の不均衡を捉える能力を示す興味深い統計分析も提示する。
論文 参考訳(メタデータ) (2022-12-06T00:32:03Z) - TWEET-FID: An Annotated Dataset for Multiple Foodborne Illness Detection
Tasks [14.523433519237607]
食中毒は深刻なが予防可能な公衆衛生上の問題である。
効果的なアウトブレイク検出モデルを開発するためにラベル付きデータセットが不足している。
TWEET-FIDは、食品性疾患検出タスクのための、初めて公開された注釈付きデータセットである。
論文 参考訳(メタデータ) (2022-05-22T03:47:18Z) - Robust Deep Semi-Supervised Learning: A Brief Introduction [63.09703308309176]
半教師付き学習(SSL)は、ラベルが不十分なときにラベル付きデータを活用することにより、学習性能を向上させることを目的としている。
ディープモデルによるSSLは、標準ベンチマークタスクで成功したことが証明されている。
しかし、それらは現実世界のアプリケーションにおける様々な堅牢性に対する脅威に対して依然として脆弱である。
論文 参考訳(メタデータ) (2022-02-12T04:16:41Z) - Combining exogenous and endogenous signals with a semi-supervised
co-attention network for early detection of COVID-19 fake tweets [14.771202995527315]
新型コロナウイルス(COVID-19)の間、誤報のあるツイートは早期に警告され、中立化され、被害を軽減する必要がある。
偽ニュースを早期に検出する既存の方法のほとんどは、大きなラベル付きツイートに十分な伝搬情報を持っていると仮定している。
我々は、ツイートに関連する内因性および内因性信号を活用する新しい早期検出モデルENDEMICを提案する。
論文 参考訳(メタデータ) (2021-04-12T10:01:44Z) - Leveraging Multi-Source Weak Social Supervision for Early Detection of
Fake News [67.53424807783414]
ソーシャルメディアは、人々が前例のない速度でオンライン活動に参加することを可能にする。
この制限のないアクセスは、誤情報や偽ニュースの拡散を悪化させ、その緩和のために早期に検出されない限り混乱と混乱を引き起こす可能性がある。
ソーシャルエンゲージメントからの弱い信号とともに、限られた量のクリーンデータを活用して、メタラーニングフレームワークでディープニューラルネットワークをトレーニングし、さまざまな弱いインスタンスの品質を推定します。
実世界のデータセットの実験では、提案されたフレームワークは、予測時にユーザーエンゲージメントを使わずに、フェイクニュースを早期に検出するための最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2020-04-03T18:26:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。