論文の概要: Text Augmentations with R-drop for Classification of Tweets Self
Reporting Covid-19
- arxiv url: http://arxiv.org/abs/2311.03420v1
- Date: Mon, 6 Nov 2023 14:18:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-08 18:16:34.086221
- Title: Text Augmentations with R-drop for Classification of Tweets Self
Reporting Covid-19
- Title(参考訳): ツイート自己報告コービッド19の分類のためのR-dropによるテキスト強化
- Authors: Sumam Francis, Marie-Francine Moens
- Abstract要約: 本稿では,ソーシャル・メディア・マイニング・フォー・ヘルス2023共有タスクのためのモデルを提案する。
我々のアプローチは、多種多様なテキスト拡張を取り入れた分類モデルである。
テストセットのF1スコアは0.877である。
- 参考スコア(独自算出の注目度): 28.91836510067532
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents models created for the Social Media Mining for Health
2023 shared task. Our team addressed the first task, classifying tweets that
self-report Covid-19 diagnosis. Our approach involves a classification model
that incorporates diverse textual augmentations and utilizes R-drop to augment
data and mitigate overfitting, boosting model efficacy. Our leading model,
enhanced with R-drop and augmentations like synonym substitution, reserved
words, and back translations, outperforms the task mean and median scores. Our
system achieves an impressive F1 score of 0.877 on the test set.
- Abstract(参考訳): 本稿では,ソーシャル・メディア・マイニング・フォー・ヘルス2023共有タスクのためのモデルを提案する。
われわれのチームは最初の課題に対処し、Covid-19の診断を自己報告するツイートを分類した。
我々のアプローチは、多種多様なテキスト拡張を組み込んだ分類モデルと、R-dropを用いたデータ拡張と過剰適合の軽減、モデルの有効性の向上である。
我々の先行モデルは、R-dropで強化され、同義語、予約語、バック翻訳のような拡張され、タスク平均と中央値スコアを上回っます。
本システムでは,印象的なf1スコアである0.877をテストセットで達成する。
関連論文リスト
- ThangDLU at #SMM4H 2024: Encoder-decoder models for classifying text data on social disorders in children and adolescents [49.00494558898933]
本稿では,#SMM4H (Social Media Mining for Health) 2024 Workshopのタスク3とタスク5への参加について述べる。
タスク3は、屋外環境が社会不安の症状に与える影響を議論するツイートを中心にした多クラス分類タスクである。
タスク5は、子供の医学的障害を報告しているツイートに焦点を当てたバイナリ分類タスクを含む。
BART-baseやT5-smallのような事前訓練されたエンコーダデコーダモデルからの転送学習を適用し、与えられたツイートの集合のラベルを同定した。
論文 参考訳(メタデータ) (2024-04-30T17:06:20Z) - Sequencing Matters: A Generate-Retrieve-Generate Model for Building
Conversational Agents [9.191944519634111]
Georgetown InfoSense GroupはTREC iKAT 2023の課題を解決するために活動している。
提案手法は, 各カット数, 総合成功率において, nDCG において高い性能を示した。
我々のソリューションは、初期回答にLarge Language Models (LLMs) を用いること、BM25による回答基盤、ロジスティック回帰による通過品質フィルタリング、LLMによる回答生成である。
論文 参考訳(メタデータ) (2023-11-16T02:37:58Z) - Contrastive Transformer Learning with Proximity Data Generation for
Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。
このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。
本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-11-15T16:26:49Z) - Preserving Knowledge Invariance: Rethinking Robustness Evaluation of
Open Information Extraction [50.62245481416744]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。
我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。
さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文 参考訳(メタデータ) (2023-05-23T12:05:09Z) - TEDB System Description to a Shared Task on Euphemism Detection 2022 [0.0]
テキスト分類の最先端手法であるトランスフォーマーモデルについて検討した。
0.816 F1スコアの最良の結果は,特徴抽出器としてのエウヘミズム検出/TimeLMs予測RoBERTaモデルである。
論文 参考訳(メタデータ) (2023-01-16T20:37:56Z) - 5q032e@SMM4H'22: Transformer-based classification of premise in tweets
related to COVID-19 [2.3931689873603603]
本研究では,Twitterテキストにおける前提の存在を分類するために,トランスフォーマーアーキテクチャに基づく予測モデルを提案する。
Twitterデータセットを用いた実験の結果,RoBERTaは前提予測タスクの場合,他のトランスフォーマーモデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-09-08T14:46:28Z) - LaPraDoR: Unsupervised Pretrained Dense Retriever for Zero-Shot Text
Retrieval [55.097573036580066]
実験結果から,LaPraDoRは教師付き高密度検索モデルと比較して最先端の性能が得られることがわかった。
再ランクと比較すると,1ミリ秒 (22.5倍高速) でレキシコン強化手法を動作させることができるが,性能は良好である。
論文 参考訳(メタデータ) (2022-03-11T18:53:12Z) - The USYD-JD Speech Translation System for IWSLT 2021 [85.64797317290349]
本稿では,シドニー大学とJDが共同でIWSLT 2021低リソース音声翻訳タスクを提出したことを述べる。
私たちは、公式に提供されたASRとMTデータセットでモデルをトレーニングしました。
翻訳性能の向上を目的として, バック翻訳, 知識蒸留, 多機能再構成, トランスダクティブファインタニングなど, 最新の効果的な手法について検討した。
論文 参考訳(メタデータ) (2021-07-24T09:53:34Z) - Checkovid: A COVID-19 misinformation detection system on Twitter using
network and content mining perspectives [9.69596041242667]
新型コロナウイルス(COVID-19)パンデミックの間、ソーシャルメディアプラットフォームは社会的孤立と隔離のためにコミュニケーションするのに理想的だった。
この問題に対処するため、Twitterに2つのCOVID-19関連誤情報データセットを提示する。
機械学習アルゴリズムとNLP技術に基づくネットワークベースおよびコンテンツベースプロセスからなる誤情報検出システムを提案する。
論文 参考訳(メタデータ) (2021-07-20T20:58:23Z) - CIA_NITT at WNUT-2020 Task 2: Classification of COVID-19 Tweets Using
Pre-trained Language Models [0.0]
我々はこれをバイナリテキスト分類問題として扱い、事前訓練された言語モデルを用いて実験する。
我々はCT-BERTをベースとしたF1スコアを88.7%、CT-BERT、RoBERTa、SVMのアンサンブルであるF1スコアを88.52%とする。
論文 参考訳(メタデータ) (2020-09-12T12:59:54Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。