論文の概要: Overlapping Word Removal is All You Need: Revisiting Data Imbalance in
Hope Speech Detection
- arxiv url: http://arxiv.org/abs/2204.05488v1
- Date: Tue, 12 Apr 2022 02:38:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-14 03:27:21.453702
- Title: Overlapping Word Removal is All You Need: Revisiting Data Imbalance in
Hope Speech Detection
- Title(参考訳): 重なり合う単語の除去: 音声検出におけるデータ不均衡の再考
- Authors: Hariharan RamakrishnaIyer LekshmiAmmal, Manikandan Ravikiran, Gayathri
Nisha, Navyasree Balamuralidhar, Adithya Madhusoodanan, Anand Kumar Madasamy,
and Bharathi Raja Chakravarthi
- Abstract要約: ホープ音声検出のための焦点損失、データ拡張、前処理戦略を導入する。
焦点損失の導入はクラス不均衡の影響を緩和し、F1-マクロ全体の0.11の改善を図っている。
また,前処理による単語の重複除去は単純ではあるがF1-Macroを0.28改善することを示した。
- 参考スコア(独自算出の注目度): 2.8341970739919433
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hope Speech Detection, a task of recognizing positive expressions, has made
significant strides recently. However, much of the current works focus on model
development without considering the issue of inherent imbalance in the data.
Our work revisits this issue in hope-speech detection by introducing focal
loss, data augmentation, and pre-processing strategies. Accordingly, we find
that introducing focal loss as part of Multilingual-BERT's (M-BERT) training
process mitigates the effect of class imbalance and improves overall F1-Macro
by 0.11. At the same time, contextual and back-translation-based word
augmentation with M-BERT improves results by 0.10 over baseline despite
imbalance. Finally, we show that overlapping word removal based on
pre-processing, though simple, improves F1-Macro by 0.28. In due process, we
present detailed studies depicting various behaviors of each of these
strategies and summarize key findings from our empirical results for those
interested in getting the most out of M-BERT for hope speech detection under
real-world conditions of data imbalance.
- Abstract(参考訳): ポジティブな表現を認識するタスクであるホープ音声検出は、近年大きな進歩を遂げている。
しかし、現在の作業の多くは、データに固有の不均衡の問題を考えることなく、モデル開発に焦点を当てている。
我々の研究は、焦点損失、データ拡張、前処理戦略を導入することで、希望音声検出においてこの問題を再考する。
そこで,M-BERTトレーニングプロセスの一部として焦点損失を導入することで,クラス不均衡の影響を軽減し,F1-Macro全体の0.11の改善を図る。
同時に、M-BERTによる文脈的および逆翻訳に基づく単語拡張は、不均衡にもかかわらずベースラインよりも0.10向上する。
最後に,前処理による単語の重複除去は単純ではあるがF1-Macroを0.28改善することを示す。
そこで本研究では,これらの戦略の様々な動作を詳述した詳細な研究を行い,実世界のデータ不均衡条件下での希望音声検出にM-BERTを最大限に活用することに関心のある人々に対して,実験結果から重要な知見を要約する。
関連論文リスト
- Improving Sampling Methods for Fine-tuning SentenceBERT in Text Streams [49.3179290313959]
本研究では,選択的な微調整言語モデルの設計した7つのテキストサンプリング手法の有効性について検討した。
これらの手法がSBERTモデルの微調整に与える影響を, 4つの異なる損失関数を用いて正確に評価する。
その結果,テキストストリームの分類にはソフトマックスの損失とバッチ・オール・トリプレットの損失が特に有効であることが示唆された。
論文 参考訳(メタデータ) (2024-03-18T23:41:52Z) - Speech foundation models on intelligibility prediction for
hearing-impaired listeners [4.742307809368852]
音声基礎モデル(SFM)は、多くの音声処理タスクでベンチマークされている。
本稿では,10個のSFMの体系的評価を行い,その1つの応用について述べる。
そこで本研究では,凍結したSFM上で特別な予測ヘッドを学習し,この問題に対処する簡単な手法を提案する。
論文 参考訳(メタデータ) (2024-01-24T18:26:52Z) - Automatically measuring speech fluency in people with aphasia: first
achievements using read-speech data [55.84746218227712]
本研究の目的は,言語習得の分野で開発された信号処理algorithmの関連性を評価することである。
論文 参考訳(メタデータ) (2023-08-09T07:51:40Z) - UZH_CLyp at SemEval-2023 Task 9: Head-First Fine-Tuning and ChatGPT Data
Generation for Cross-Lingual Learning in Tweet Intimacy Prediction [3.1798318618973362]
本稿では,SemEval 2023 Task 9「Multilingual Tweet Intimacy Analysis」に対するUZH_CLypの提出について述べる。
公式なピアソン相関回帰評価尺度により,全10言語で2番目に高い結果を得た。
論文 参考訳(メタデータ) (2023-03-02T12:18:53Z) - Advancing Stuttering Detection via Data Augmentation, Class-Balanced
Loss and Multi-Contextual Deep Learning [7.42741711946564]
スタッタリング(英: Stuttering)は、制御されていない発話とコアの振る舞いを特徴とする、神経発達の音声障害である。
本稿では,データ不足に対処する多分岐学習方式におけるデータ拡張の有効性について検討する。
さらに,発声音声の異なる文脈を利用するマルチコンテキスト(MC)のStutterNetを提案する。
論文 参考訳(メタデータ) (2023-02-21T14:03:47Z) - Understanding and Mitigating the Uncertainty in Zero-Shot Translation [92.25357943169601]
ゼロショット翻訳の不確実性の観点から、オフターゲット問題を理解し、緩和することを目的としている。
そこで本研究では,モデルトレーニングのためのトレーニングデータを認知するための,軽量かつ補完的な2つのアプローチを提案する。
提案手法は,強いMNMTベースライン上でのゼロショット翻訳の性能を著しく向上させる。
論文 参考訳(メタデータ) (2022-05-20T10:29:46Z) - Scale-Equivalent Distillation for Semi-Supervised Object Detection [57.59525453301374]
近年のSemi-Supervised Object Detection (SS-OD) 法は主に自己学習に基づいており、教師モデルにより、ラベルなしデータを監視信号としてハードな擬似ラベルを生成する。
実験結果から,これらの手法が直面する課題を分析した。
本稿では,大規模オブジェクトサイズの分散とクラス不均衡に頑健な簡易かつ効果的なエンド・ツー・エンド知識蒸留フレームワークであるSED(Scale-Equivalent Distillation)を提案する。
論文 参考訳(メタデータ) (2022-03-23T07:33:37Z) - Deep F-measure Maximization for End-to-End Speech Understanding [52.36496114728355]
本稿では,F測度に対する微分可能な近似法を提案し,標準バックプロパゲーションを用いてネットワークをトレーニングする。
我々は、アダルト、コミュニティ、犯罪の2つの標準フェアネスデータセットの実験を行い、ATISデータセットの音声・インテリジェンス検出と音声・COCOデータセットの音声・イメージ概念分類を行った。
これらの4つのタスクのすべてにおいて、F測定は、クロスエントロピー損失関数で訓練されたモデルと比較して、最大8%の絶対的な絶対的な改善を含む、マイクロF1スコアの改善をもたらす。
論文 参考訳(メタデータ) (2020-08-08T03:02:27Z) - Mutual Information Maximization for Effective Lip Reading [99.11600901751673]
本稿では,局所的特徴レベルとグローバルなシーケンスレベルの両方について,相互情報制約を導入することを提案する。
これら2つの利点を組み合わせることで, 有効な唇読解法として, 識別性と頑健性の両方が期待できる。
論文 参考訳(メタデータ) (2020-03-13T18:47:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。