論文の概要: NLP-LTU at SemEval-2023 Task 10: The Impact of Data Augmentation and
Semi-Supervised Learning Techniques on Text Classification Performance on an
Imbalanced Dataset
- arxiv url: http://arxiv.org/abs/2304.12847v1
- Date: Tue, 25 Apr 2023 14:19:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-26 20:23:57.281334
- Title: NLP-LTU at SemEval-2023 Task 10: The Impact of Data Augmentation and
Semi-Supervised Learning Techniques on Text Classification Performance on an
Imbalanced Dataset
- Title(参考訳): semeval-2023タスク10:不均衡データセットにおけるテキスト分類性能に及ぼすデータ拡張と半教師付き学習技術の影響
- Authors: Sana Sabah Al-Azzawi, Gy\"orgy Kov\'acs, Filip Nilsson, Tosin Adewumi,
Marcus Liwicki
- Abstract要約: 本稿では、ソーシャルメディア投稿におけるオンライン性差別の検出と分類に焦点を当てたSemEval23のタスク10の方法論を提案する。
この課題に対する我々の解決策は、細調整されたトランスフォーマーベースモデルのアンサンブルに基づいている。
- 参考スコア(独自算出の注目度): 1.3445335428144554
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we propose a methodology for task 10 of SemEval23, focusing on
detecting and classifying online sexism in social media posts. The task is
tackling a serious issue, as detecting harmful content on social media
platforms is crucial for mitigating the harm of these posts on users. Our
solution for this task is based on an ensemble of fine-tuned transformer-based
models (BERTweet, RoBERTa, and DeBERTa). To alleviate problems related to class
imbalance, and to improve the generalization capability of our model, we also
experiment with data augmentation and semi-supervised learning. In particular,
for data augmentation, we use back-translation, either on all classes, or on
the underrepresented classes only. We analyze the impact of these strategies on
the overall performance of the pipeline through extensive experiments. while
for semi-supervised learning, we found that with a substantial amount of
unlabelled, in-domain data available, semi-supervised learning can enhance the
performance of certain models. Our proposed method (for which the source code
is available on Github attains an F1-score of 0.8613 for sub-taskA, which
ranked us 10th in the competition
- Abstract(参考訳): 本稿では,ソーシャルメディア投稿におけるオンライン性差別の検出と分類に着目し,semeval23タスク10の方法論を提案する。
ソーシャルメディアプラットフォーム上で有害なコンテンツを検出することは、こうした投稿のユーザーへの害を軽減する上で非常に重要である。
このタスクの解決策は、細調整されたトランスフォーマーベースモデル(BERTweet、RoBERTa、DeBERTa)のアンサンブルに基づいています。
クラス不均衡に関する問題を緩和し,モデルの一般化能力を向上させるため,データ強化と半教師付き学習も実験した。
特に、データ拡張では、すべてのクラスで、または表現不足のクラスでのみ、バックトランスレーションを使用します。
これらの戦略がパイプライン全体の性能に与える影響を広範な実験を通じて分析する。
半教師付き学習では、かなりの量のドメイン内データが利用可能な場合、半教師付き学習は特定のモデルの性能を高めることができる。
提案手法(Githubでソースコードが公開されている)では,サブタスクAのF1スコアが0.8613に達した。
関連論文リスト
- TACLE: Task and Class-aware Exemplar-free Semi-supervised Class Incremental Learning [16.734025446561695]
そこで本研究では,先進的な半教師付きクラスインクリメンタルラーニングの問題に対処する新しいTACLEフレームワークを提案する。
このシナリオでは、新しいタスクごとに、ラベル付きデータとラベルなしデータの両方から新しいクラスを学習する必要があります。
事前訓練されたモデルの能力を活用することに加えて、TACLEは新しいタスク適応しきい値を提案する。
論文 参考訳(メタデータ) (2024-07-10T20:46:35Z) - Sexism Detection on a Data Diet [14.899608305188002]
モデルのトレーニング中に、インフルエンススコアを利用してデータポイントの重要性を推定する方法を示します。
ドメイン外の3つのデータセット上で異なるプルーニング戦略を用いて、データプルーニングに基づいてトレーニングされたモデル性能を評価する。
論文 参考訳(メタデータ) (2024-06-07T12:39:54Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - Dynamic Loss For Robust Learning [17.33444812274523]
本研究は,メタラーニングに基づく動的損失を学習プロセスで自動調整し,長い尾の雑音データから分類器を頑健に学習する手法を提案する。
本研究では,CIFAR-10/100,Animal-10N,ImageNet-LT,Webvisionなど,さまざまな種類のデータバイアスを持つ複数の実世界および合成データセットに対して,最先端の精度を実現する。
論文 参考訳(メタデータ) (2022-11-22T01:48:25Z) - Class-Aware Contrastive Semi-Supervised Learning [51.205844705156046]
本研究では,擬似ラベル品質を向上し,実環境におけるモデルの堅牢性を高めるため,CCSSL(Class-Aware Contrastive Semi-Supervised Learning)と呼ばれる一般的な手法を提案する。
提案するCCSSLは,標準データセットCIFAR100とSTL10の最先端SSLメソッドに対して,大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2022-03-04T12:18:23Z) - CMW-Net: Learning a Class-Aware Sample Weighting Mapping for Robust Deep
Learning [55.733193075728096]
現代のディープニューラルネットワークは、破損したラベルやクラス不均衡を含むバイアス付きトレーニングデータに容易に適合する。
サンプル再重み付け手法は、このデータバイアス問題を緩和するために一般的に使用されている。
本稿では,データから直接明示的な重み付け方式を適応的に学習できるメタモデルを提案する。
論文 参考訳(メタデータ) (2022-02-11T13:49:51Z) - Quasi-Global Momentum: Accelerating Decentralized Deep Learning on
Heterogeneous Data [77.88594632644347]
ディープラーニングモデルの分散トレーニングは、ネットワーク上でデータプライバシとデバイス上での学習を可能にする重要な要素である。
現実的な学習シナリオでは、異なるクライアントのローカルデータセットに異質性が存在することが最適化の課題となる。
本稿では,この分散学習の難しさを軽減するために,運動量に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2021-02-09T11:27:14Z) - CatFedAvg: Optimising Communication-efficiency and Classification
Accuracy in Federated Learning [2.2172881631608456]
そこで我々はCatFedAvgというフェデレート学習アルゴリズムを新たに導入した。
コミュニケーション効率は向上するが、NIST戦略のカテゴリカバレッジを用いて学習の質を向上させる。
実験の結果,FedAvgよりもネットワーク転送率が70%低いMデータセットでは,10%の絶対点精度が向上していることがわかった。
論文 参考訳(メタデータ) (2020-11-14T06:52:02Z) - Revisiting LSTM Networks for Semi-Supervised Text Classification via
Mixed Objective Function [106.69643619725652]
我々は,単純なBiLSTMモデルであっても,クロスエントロピー損失でトレーニングした場合に,競争的な結果が得られるようなトレーニング戦略を開発する。
いくつかのベンチマークデータセット上で,テキスト分類タスクの最先端結果について報告する。
論文 参考訳(メタデータ) (2020-09-08T21:55:22Z) - Mitigating Dataset Imbalance via Joint Generation and Classification [17.57577266707809]
教師付きディープラーニング手法は、コンピュータビジョンの多くの実践的応用において大きな成功を収めている。
バイアスや不均衡データに対する顕著な性能劣化は、これらの手法の信頼性に疑問を投げかける。
ニューラルネットワーク分類器とGAN(Generative Adversarial Networks)を組み合わせた共同データセット修復戦略を提案する。
重度のクラス不均衡に対する分類器とGANの堅牢性向上に寄与することを示す。
論文 参考訳(メタデータ) (2020-08-12T18:40:38Z) - Deep F-measure Maximization for End-to-End Speech Understanding [52.36496114728355]
本稿では,F測度に対する微分可能な近似法を提案し,標準バックプロパゲーションを用いてネットワークをトレーニングする。
我々は、アダルト、コミュニティ、犯罪の2つの標準フェアネスデータセットの実験を行い、ATISデータセットの音声・インテリジェンス検出と音声・COCOデータセットの音声・イメージ概念分類を行った。
これらの4つのタスクのすべてにおいて、F測定は、クロスエントロピー損失関数で訓練されたモデルと比較して、最大8%の絶対的な絶対的な改善を含む、マイクロF1スコアの改善をもたらす。
論文 参考訳(メタデータ) (2020-08-08T03:02:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。