論文の概要: ViHateT5: Enhancing Hate Speech Detection in Vietnamese With A Unified Text-to-Text Transformer Model
- arxiv url: http://arxiv.org/abs/2405.14141v1
- Date: Thu, 23 May 2024 03:31:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-24 19:05:09.662134
- Title: ViHateT5: Enhancing Hate Speech Detection in Vietnamese With A Unified Text-to-Text Transformer Model
- Title(参考訳): ViHateT5:統一テキスト・テキスト・トランスモデルによるベトナムにおけるヘイトスピーチ検出の強化
- Authors: Luan Thanh Nguyen,
- Abstract要約: 提案する大規模ドメイン固有データセット VOZ-HSD を事前トレーニングした T5 ベースのモデルである ViHateT5 を紹介する。
ViHateT5はテキストからテキストへのアーキテクチャのパワーを活用することで、統一モデルを使用して複数のタスクに対処し、ベトナムのすべての標準HSDベンチマークで最先端のパフォーマンスを達成することができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent advancements in hate speech detection (HSD) in Vietnamese have made significant progress, primarily attributed to the emergence of transformer-based pre-trained language models, particularly those built on the BERT architecture. However, the necessity for specialized fine-tuned models has resulted in the complexity and fragmentation of developing a multitasking HSD system. Moreover, most current methodologies focus on fine-tuning general pre-trained models, primarily trained on formal textual datasets like Wikipedia, which may not accurately capture human behavior on online platforms. In this research, we introduce ViHateT5, a T5-based model pre-trained on our proposed large-scale domain-specific dataset named VOZ-HSD. By harnessing the power of a text-to-text architecture, ViHateT5 can tackle multiple tasks using a unified model and achieve state-of-the-art performance across all standard HSD benchmarks in Vietnamese. Our experiments also underscore the significance of label distribution in pre-training data on model efficacy. We provide our experimental materials for research purposes, including the VOZ-HSD dataset, pre-trained checkpoint, the unified HSD-multitask ViHateT5 model, and related source code on GitHub publicly.
- Abstract(参考訳): 近年のベトナムにおけるヘイトスピーチ検出(HSD)の進歩は、主にトランスフォーマーベースの事前訓練言語モデル、特にBERTアーキテクチャを基盤としたモデルが出現したことに起因する。
しかし、特殊な微調整モデルの必要性は、マルチタスク型HSDシステムの開発の複雑さと断片化をもたらしている。
さらに、現在の方法論のほとんどは、オンラインプラットフォーム上での人間の振る舞いを正確に捉えないWikipediaのような形式的なテキストデータセットに基づいてトレーニングされた、微調整された一般的な事前訓練モデルに焦点を当てている。
本研究では,提案する大規模ドメイン固有データセット VOZ-HSD を事前学習した T5 ベースのモデルである ViHateT5 を紹介する。
ViHateT5はテキストからテキストへのアーキテクチャのパワーを活用することで、統一モデルを使用して複数のタスクに対処し、ベトナムのすべての標準HSDベンチマークで最先端のパフォーマンスを達成することができる。
また,本実験は,モデルの有効性に関する事前学習データにおけるラベル分布の重要性も明らかにした。
我々は、VOZ-HSDデータセット、事前訓練されたチェックポイント、統合されたHSD-multitask ViHateT5モデル、GitHub上の関連ソースコードなど、研究目的で実験資料を提供しています。
関連論文リスト
- A Text-to-Text Model for Multilingual Offensive Language Identification [19.23565690468299]
本研究では,テキスト・トゥ・テキスト・トランスフォーマを用いた攻撃的言語識別のためのエンコーダ・デコーダアーキテクチャを用いた最初の事前学習モデルを提案する(T5)。
我々の事前学習されたT5モデルは、複数の英語ベンチマークにおいて、fBERTやHateBERTのような攻撃的言語検出のために微調整された他のトランスフォーマーベースモデルよりも優れている。
同様のアプローチで、mT5を用いて攻撃的言語識別のための最初の多言語事前訓練モデルを訓練する。
論文 参考訳(メタデータ) (2023-12-06T09:37:27Z) - Contrastive Transformer Learning with Proximity Data Generation for
Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。
このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。
本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-11-15T16:26:49Z) - Unified Model Learning for Various Neural Machine Translation [63.320005222549646]
既存の機械翻訳(NMT)研究は主にデータセット固有のモデルの開発に焦点を当てている。
我々は,NMT(UMLNMT)のための統一モデル学習モデル(Unified Model Learning for NMT)を提案する。
OurNMTは、データセット固有のモデルよりも大幅に改善され、モデルデプロイメントコストが大幅に削減される。
論文 参考訳(メタデータ) (2023-05-04T12:21:52Z) - ViT5: Pretrained Text-to-Text Transformer for Vietnamese Language
Generation [2.0302025541827247]
ベトナム語のトランスフォーマーを用いたエンコーダデコーダモデルViT5を提案する。
T5スタイルの自己教師型プレトレーニングでは、ViT5は高品質で多様なベトナム語のテキストのコーパスで訓練されている。
論文 参考訳(メタデータ) (2022-05-13T06:08:35Z) - Learning to Generalize to More: Continuous Semantic Augmentation for
Neural Machine Translation [50.54059385277964]
CsaNMT(Continuous Semantic Augmentation)と呼ばれる新しいデータ拡張パラダイムを提案する。
CsaNMTは各トレーニングインスタンスを、同じ意味の下で適切なリテラル式をカバーできる隣接領域で拡張する。
論文 参考訳(メタデータ) (2022-04-14T08:16:28Z) - A study on the efficacy of model pre-training in developing neural
text-to-speech system [55.947807261757056]
本研究の目的は,モデル事前学習がTSシステム性能に肯定的に寄与する理由と方法を明らかにすることである。
トレーニング前のデータを元のサイズの1/8に減らすと,TSシステムは同等の性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-10-08T02:09:28Z) - Few-shot learning through contextual data augmentation [74.20290390065475]
機械翻訳モデルは、時間とともに性能を維持するために新しいデータに適応する必要がある。
一つの例から5つの例への適応が可能であることを示す。
本モデルでは,平均313個の並列例でトレーニングした基準システムよりも精度がよいことを示す。
論文 参考訳(メタデータ) (2021-03-31T09:05:43Z) - From Universal Language Model to Downstream Task: Improving
RoBERTa-Based Vietnamese Hate Speech Detection [8.602181445598776]
汎用のRoBERTa言語モデルを特定のテキスト分類タスクであるベトナムのヘイト音声検出に適応させるパイプラインを提案する。
実験の結果,提案パイプラインの性能が著しく向上し,0.7221 f1のベトナム人ヘイトスピーチ検出キャンペーンが達成された。
論文 参考訳(メタデータ) (2021-02-24T09:30:55Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Text-to-Text Pre-Training for Data-to-Text Tasks [9.690158790639131]
データ・トゥ・テキスト・タスクのための事前訓練+微調整戦略について検討する。
実験により,テキストからテキストへの事前学習により,単純なエンドツーエンドのトランスフォーマーモデルが実現できることが示唆された。
論文 参考訳(メタデータ) (2020-05-21T02:46:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。