論文の概要: Automatic Textual Normalization for Hate Speech Detection
- arxiv url: http://arxiv.org/abs/2311.06851v4
- Date: Thu, 25 Jul 2024 06:41:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-26 19:46:37.245459
- Title: Automatic Textual Normalization for Hate Speech Detection
- Title(参考訳): ヘイト音声検出のためのテキストの正規化
- Authors: Anh Thi-Hoang Nguyen, Dung Ha Nguyen, Nguyet Thi Nguyen, Khanh Thanh-Duy Ho, Kiet Van Nguyen,
- Abstract要約: ソーシャルメディアデータには、幅広い非標準語(NSW)が含まれている。
ベトナム語に対する現在の最先端の手法は、語彙正規化の問題としてこの問題に対処している。
私たちのアプローチは単純で、Seq2Seq(Seq2Seq)モデルのみを使用します。
- 参考スコア(独自算出の注目度): 0.8990550886501417
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Social media data is a valuable resource for research, yet it contains a wide range of non-standard words (NSW). These irregularities hinder the effective operation of NLP tools. Current state-of-the-art methods for the Vietnamese language address this issue as a problem of lexical normalization, involving the creation of manual rules or the implementation of multi-staged deep learning frameworks, which necessitate extensive efforts to craft intricate rules. In contrast, our approach is straightforward, employing solely a sequence-to-sequence (Seq2Seq) model. In this research, we provide a dataset for textual normalization, comprising 2,181 human-annotated comments with an inter-annotator agreement of 0.9014. By leveraging the Seq2Seq model for textual normalization, our results reveal that the accuracy achieved falls slightly short of 70%. Nevertheless, textual normalization enhances the accuracy of the Hate Speech Detection (HSD) task by approximately 2%, demonstrating its potential to improve the performance of complex NLP tasks. Our dataset is accessible for research purposes.
- Abstract(参考訳): ソーシャルメディアデータは研究にとって貴重な資源であるが、幅広い非標準語(NSW)を含んでいる。
これらの不規則さは、NLPツールの効果的な操作を妨げる。
ベトナム語における現在の最先端の手法は、この問題を語彙正規化の問題として扱い、手動ルールの作成や、複雑なルールを構築するための広範囲な努力を必要とする多段階のディープラーニングフレームワークの実装を含む。
対照的に、我々のアプローチは単純であり、Seq2Seq(Seq2Seq)モデルのみを用いる。
本研究では,2,181人の注釈付きコメントと0.9014のアノテーション間合意からなるテキスト正規化のためのデータセットを提供する。
テキスト正規化にSeq2Seqモデルを応用することにより,得られた精度が70%以下に低下することを明らかにする。
それでもテキスト正規化は、Hate Speech Detection (HSD)タスクの精度を約2%向上させ、複雑なNLPタスクのパフォーマンスを向上させる可能性を示している。
私たちのデータセットは研究目的で利用できます。
関連論文リスト
- NeKo: Toward Post Recognition Generative Correction Large Language Models with Task-Oriented Experts [57.53692236201343]
提案するマルチタスク補正MOEでは,専門家が音声・テキスト・言語・テキスト・視覚・テキスト・データセットの「専門家」になるよう訓練する。
NeKoはマルチタスクモデルとして文法とポストOCR補正を競合的に実行している。
論文 参考訳(メタデータ) (2024-11-08T20:11:24Z) - Localizing Factual Inconsistencies in Attributable Text Generation [91.981439746404]
本稿では,帰属可能なテキスト生成における事実の不整合をローカライズするための新しい形式であるQASemConsistencyを紹介する。
まず,人間のアノテーションに対するQASemConsistency法の有効性を示す。
そこで我々は,局所的な事実の不整合を自動的に検出するいくつかの手法を実装した。
論文 参考訳(メタデータ) (2024-10-09T22:53:48Z) - A Weakly Supervised Data Labeling Framework for Machine Lexical Normalization in Vietnamese Social Media [1.053698976085779]
本研究では,ソーシャルメディアテキストにおける語彙正規化の課題に対処する,革新的な自動ラベリングフレームワークを提案する。
本稿では,半教師付き学習と弱監督技術を統合するフレームワークを提案する。
我々のフレームワークは、非標準語彙を標準化形式に変換することによって、生データを自動的にラベル付けする。
論文 参考訳(メタデータ) (2024-09-30T16:26:40Z) - Thesis proposal: Are We Losing Textual Diversity to Natural Language Processing? [3.8073142980733]
ニューラルネットワーク翻訳で使用されるアルゴリズムは、ほとんどの入力タイプに有益であるが、非典型的テキストの処理に有害な帰納的バイアスを持つかどうかを問う。
我々は,NMTシステムがこのようなテキストの多様性を維持するのに苦戦しているかどうかを調べるために,一連の実験を行った。
我々の最終的な目標は、出力の統計特性の分布に一様性を課さない代替手段を開発することである。
論文 参考訳(メタデータ) (2024-09-15T01:06:07Z) - Fine-tuning Language Models for Factuality [96.5203774943198]
大規模な事前訓練型言語モデル(LLM)は、しばしば伝統的な検索エンジンの代替として、広く使われるようになった。
しかし、言語モデルは説得力のあるが事実的に不正確な主張をしがちである(しばしば「幻覚」と呼ばれる)。
本研究では,人間のラベル付けなしに,より現実的な言語モデルを微調整する。
論文 参考訳(メタデータ) (2023-11-14T18:59:15Z) - Reference Free Domain Adaptation for Translation of Noisy Questions with
Question Specific Rewards [22.297433705607464]
Neural Machine Translationを使って質問を翻訳することは、ノイズの多い環境でより多くの課題をもたらす。
ソース側データのみを用いてNMTシステムを微調整する訓練手法を提案する。
提案手法は,BERTScore と Masked Language Model (MLM) Score を組み合わせた損失関数を利用することで,妥当性と流速のバランスをとる。
論文 参考訳(メタデータ) (2023-10-23T18:08:01Z) - Unify word-level and span-level tasks: NJUNLP's Participation for the
WMT2023 Quality Estimation Shared Task [59.46906545506715]
我々は、WMT 2023 Quality Estimation (QE)共有タスクにNJUNLPチームを紹介する。
私たちのチームは2つのサブタスクすべてで英語とドイツ語のペアの予測を提出しました。
我々のモデルは、単語レベルと細粒度エラースパン検出サブタスクの両方において、英語とドイツ語で最高の結果を得た。
論文 参考訳(メタデータ) (2023-09-23T01:52:14Z) - Does Correction Remain A Problem For Large Language Models? [63.24433996856764]
本稿では,2つの実験を行ない,大規模言語モデルの文脈における補正の役割について検討する。
最初の実験では、誤り訂正のためのGPTのようなモデルを用いた数発の学習技術を用いて、単独のタスクとしての修正に焦点を当てた。
第2の実験では、あるレベルのノイズや誤りを含むテキストに対して、大きな言語モデルが許容し、適切に実行可能であるかどうかを検証し、他のNLPタスクの予備タスクとしての補正の概念について検討した。
論文 参考訳(メタデータ) (2023-08-03T14:09:31Z) - AdaPrompt: Adaptive Model Training for Prompt-based NLP [77.12071707955889]
PLMの継続事前学習のための外部データを適応的に検索するAdaPromptを提案する。
5つのNLPベンチマークの実験結果から、AdaPromptは数ショット設定で標準PLMよりも改善可能であることが示された。
ゼロショット設定では、標準のプロンプトベースの手法を26.35%の相対誤差削減で上回ります。
論文 参考訳(メタデータ) (2022-02-10T04:04:57Z) - Sequence-to-Sequence Lexical Normalization with Multilingual
Transformers [3.3302293148249125]
現在の自然言語処理のベンチマークタスクには、非公式な日々のデジタルコミュニケーションで使用されるテキストと質的に異なるテキストが含まれている。
この不一致は、実世界のデータに基づいて微調整された場合、最先端のNLPモデルの大幅な性能劣化を引き起こした。
機械翻訳問題として,mBARTに基づく文レベルのシーケンス・ツー・シーケンスモデルを提案する。
論文 参考訳(メタデータ) (2021-10-06T15:53:20Z) - Aggressive Language Detection with Joint Text Normalization via
Adversarial Multi-task Learning [31.02484600391725]
攻撃的言語検出(ALD)はNLPコミュニティにおいて重要な応用の1つである。
本研究では,テキスト正規化(TN)を相反するマルチタスク学習フレームワークを用いて共同で行うことにより,ALDの改善を目標とする。
論文 参考訳(メタデータ) (2020-09-19T06:26:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。