論文の概要: Feature Selection Empowered BERT for Detection of Hate Speech with Vocabulary Augmentation
- arxiv url: http://arxiv.org/abs/2512.02141v1
- Date: Mon, 01 Dec 2025 19:11:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.577326
- Title: Feature Selection Empowered BERT for Detection of Hate Speech with Vocabulary Augmentation
- Title(参考訳): 語彙拡張によるヘイトスピーチ検出のための特徴選択を用いたBERT
- Authors: Pritish N. Desai, Tanay Kewalramani, Srimanta Mandal,
- Abstract要約: ソーシャルメディア上での乱暴なスピーチは、永続的で進化的な挑戦である。
本稿では,ヘイトスピーチ分類に基づくBERTの微調整手法を提案する。
提案手法では,TF IDFに基づくサンプル選択機構を用いて,最も有用な例のみを保持する。
- 参考スコア(独自算出の注目度): 0.5833117322405447
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Abusive speech on social media poses a persistent and evolving challenge, driven by the continuous emergence of novel slang and obfuscated terms designed to circumvent detection systems. In this work, we present a data efficient strategy for fine tuning BERT on hate speech classification by significantly reducing training set size without compromising performance. Our approach employs a TF IDF-based sample selection mechanism to retain only the most informative 75 percent of examples, thereby minimizing training overhead. To address the limitations of BERT's native vocabulary in capturing evolving hate speech terminology, we augment the tokenizer with domain-specific slang and lexical variants commonly found in abusive contexts. Experimental results on a widely used hate speech dataset demonstrate that our method achieves competitive performance while improving computational efficiency, highlighting its potential for scalable and adaptive abusive content moderation.
- Abstract(参考訳): ソーシャルメディア上での虐待的なスピーチは、検出システムを回避するために設計された新しいスラングや難解な言葉の継続的な出現によって、永続的で進化する課題を呈する。
本研究では,ヘイトスピーチ分類におけるBERTの微調整のためのデータ効率向上戦略を提案する。
提案手法では,TF IDFに基づくサンプル選択機構を用いて,最も情報に富む75%のサンプルしか保持せず,トレーニングのオーバーヘッドを最小限に抑える。
ヘイトスピーチ用語の進化にともなうBERTの固有語彙の限界に対処するため、乱用文脈でよく見られるドメイン固有のスラングと語彙の変種を用いてトークン化を行う。
広範に使用されているヘイトスピーチデータセットの実験結果から,提案手法は計算効率を向上し,スケーラブルで適応的なコンテンツモデレーションの可能性を強調しながら,競争性能を向上することが示された。
関連論文リスト
- A high-capacity linguistic steganography based on entropy-driven rank-token mapping [81.29800498695899]
言語ステガノグラフィーは、秘密のメッセージを無害なテキストに埋め込むことによって、秘密のコミュニケーションを可能にする。
従来の修正ベースの手法は検出可能な異常を導入し、検索ベースの戦略は埋め込み能力の低下に悩まされている。
本稿では、ランクベース適応符号化と文脈認識の圧縮を正規化エントロピーと統合したRTMStegaというエントロピー駆動のフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-27T06:02:47Z) - Lost in Translation? Vocabulary Alignment for Source-Free Adaptation in Open-Vocabulary Semantic Segmentation [90.5844979560448]
VocAlignは、セマンティックセグメンテーションにおいてVLM用に特別に設計された、ソースフリーのドメイン適応フレームワークである。
提案手法は,CityScapesデータセットの6.11mIoU改善を実現し,ゼロショットセグメンテーションベンチマークにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2025-09-18T17:59:58Z) - Evolving Hate Speech Online: An Adaptive Framework for Detection and Mitigation [18.459726677931023]
本稿では,単語埋め込みを用いて語彙を更新し,新たなスラリーや新しい言語パターンに適応するハイブリッドモデルを開発する適応的手法を提案する。
我々のハイブリッドモデルは、BERTとレキシコンベースの技術を組み合わせて、ほとんどの最先端データセットに対して95%の精度を達成する。
論文 参考訳(メタデータ) (2025-02-15T22:46:50Z) - An Analysis of BPE Vocabulary Trimming in Neural Machine Translation [56.383793805299234]
語彙トリミング(vocabulary trimming)は、まれなサブワードをコンポーネントサブワードに置き換える後処理のステップである。
ボキャブラリトリミングは性能向上に失敗し,さらに大きな劣化を招きやすいことを示す。
論文 参考訳(メタデータ) (2024-03-30T15:29:49Z) - Maximizing Data Efficiency for Cross-Lingual TTS Adaptation by
Self-Supervised Representation Mixing and Embedding Initialization [57.38123229553157]
本稿では,テキスト音声合成システムにおける言語適応のための効果的な伝達学習フレームワークを提案する。
ラベル付きおよびラベルなしの最小データを用いて言語適応を実現することに注力する。
実験結果から,本フレームワークは,ラベル付きデータの4つの発声とラベル付きデータの15分で,未知の言語で理解不能な音声を合成できることが示唆された。
論文 参考訳(メタデータ) (2024-01-23T21:55:34Z) - Weakly-supervised forced alignment of disfluent speech using
phoneme-level modeling [10.283092375534311]
重み付き有限状態変換器を用いたアライメントグラフの構成法を提案する。
提案手法は, 強制アライメントのための音声不一致の動詞的書き起こしの必要性を軽減する。
TIMITテストセットとUCLASSデータセットの劣化バージョンについて評価したところ,大幅な改善が見られた。
論文 参考訳(メタデータ) (2023-05-30T09:57:36Z) - To BAN or not to BAN: Bayesian Attention Networks for Reliable Hate
Speech Detection [3.7768834126209234]
ヘイトスピーチは、ユーザ生成コンテンツの管理において重要な問題である。攻撃的コンテンツを削除したり、誤動作を禁止したりするには、コンテンツモデレーターは信頼できるヘイトスピーチ検知器が必要である。
BERTモデルのようなトランスフォーマーアーキテクチャに基づくディープニューラルネットワークは、ヘイトスピーチ検出を含む多くの自然言語分類タスクにおいて優れたパフォーマンスを達成する。
変圧器モデルのアテンション層内におけるモンテカルロのドロップアウトを用いたベイズ法による信頼性推定法を提案する。
論文 参考訳(メタデータ) (2020-07-10T11:09:00Z) - TAVAT: Token-Aware Virtual Adversarial Training for Language
Understanding [55.16953347580948]
グラディエントベースの敵トレーニングは、ニューラルネットワークの堅牢性向上に広く利用されている。
埋め込み空間が離散であるため、自然言語処理タスクに容易に適応することはできない。
微粒な摂動を創り出すためのトークン認識仮想アドリアリトレーニング法を提案する。
論文 参考訳(メタデータ) (2020-04-30T02:03:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。