論文の概要: U-GIFT: Uncertainty-Guided Firewall for Toxic Speech in Few-Shot Scenario
- arxiv url: http://arxiv.org/abs/2501.00907v1
- Date: Wed, 01 Jan 2025 17:47:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-05 17:12:40.236865
- Title: U-GIFT: Uncertainty-Guided Firewall for Toxic Speech in Few-Shot Scenario
- Title(参考訳): U-GIFT:いくつかのシナリオにおける有害音声のための確実なガイド付きファイアウォール
- Authors: Jiaxin Song, Xinyu Wang, Yihao Wang, Yifan Tang, Ru Zhang, Jianyi Liu, Gongshen Liu,
- Abstract要約: U-GIFTにおける有害音声に対する不確実性誘導ファイアウォールを提案する。
U-GIFTは、アクティブラーニングとベイズニューラルネットワーク(BNN)を組み合わせることで、ラベルのないデータから高品質なサンプルを自動的に識別する。
5ショット設定では、基本モデルよりも14.92%の性能向上を実現している。
- 参考スコア(独自算出の注目度): 13.954929026841413
- License:
- Abstract: With the widespread use of social media, user-generated content has surged on online platforms. When such content includes hateful, abusive, offensive, or cyberbullying behavior, it is classified as toxic speech, posing a significant threat to the online ecosystem's integrity and safety. While manual content moderation is still prevalent, the overwhelming volume of content and the psychological strain on human moderators underscore the need for automated toxic speech detection. Previously proposed detection methods often rely on large annotated datasets; however, acquiring such datasets is both costly and challenging in practice. To address this issue, we propose an uncertainty-guided firewall for toxic speech in few-shot scenarios, U-GIFT, that utilizes self-training to enhance detection performance even when labeled data is limited. Specifically, U-GIFT combines active learning with Bayesian Neural Networks (BNNs) to automatically identify high-quality samples from unlabeled data, prioritizing the selection of pseudo-labels with higher confidence for training based on uncertainty estimates derived from model predictions. Extensive experiments demonstrate that U-GIFT significantly outperforms competitive baselines in few-shot detection scenarios. In the 5-shot setting, it achieves a 14.92\% performance improvement over the basic model. Importantly, U-GIFT is user-friendly and adaptable to various pre-trained language models (PLMs). It also exhibits robust performance in scenarios with sample imbalance and cross-domain settings, while showcasing strong generalization across various language applications. We believe that U-GIFT provides an efficient solution for few-shot toxic speech detection, offering substantial support for automated content moderation in cyberspace, thereby acting as a firewall to promote advancements in cybersecurity.
- Abstract(参考訳): ソーシャルメディアの普及に伴い、オンラインプラットフォームではユーザー生成コンテンツが急増している。
このようなコンテンツがヘイトフル、虐待、攻撃的、サイバーいじめ行動を含む場合、有害なスピーチに分類され、オンラインエコシステムの完全性と安全性に重大な脅威をもたらす。
手動によるコンテンツモデレーションは依然として一般的であるが、コンテンツの圧倒的な量と人間のモデレーターの心理的歪みは、自動的な有毒な音声検出の必要性を浮き彫りにしている。
従来提案された検出方法は、大きな注釈付きデータセットに依存することが多いが、そのようなデータセットを取得するのはコストがかかり、実際は困難である。
この問題を解決するために,ラベル付きデータに制限がある場合でも,自己学習を利用して検出性能を向上させる,無害な音声に対する不確実性誘導ファイアウォールU-GIFTを提案する。
具体的には、U-GIFTはアクティブラーニングとベイズニューラルネットワーク(BNN)を組み合わせて、ラベルのないデータから高品質なサンプルを自動的に識別し、モデル予測から得られた不確実性推定に基づいて、トレーニングの信頼性の高い擬似ラベルの選択を優先する。
大規模な実験により、U-GIFTは数発の検知シナリオにおいて、競争ベースラインを大幅に上回っていることが示された。
5ショット設定では、基本モデルよりも14.92\%の性能向上を実現している。
重要なのは、U-GIFTはユーザフレンドリで、様々な事前訓練された言語モデル(PLM)に適応可能であることだ。
また、サンプルの不均衡とクロスドメイン設定のシナリオで堅牢なパフォーマンスを示すと同時に、さまざまな言語アプリケーションにまたがる強力な一般化を示す。
U-GIFTは、数発の有害な音声検出のための効率的なソリューションであり、サイバースペースにおける自動コンテンツモデレーションの相当なサポートを提供し、それによって、サイバーセキュリティの進歩を促進するファイアウォールとして機能すると考えている。
関連論文リスト
- Certifying Language Model Robustness with Fuzzed Randomized Smoothing: An Efficient Defense Against Backdoor Attacks [21.930305838969133]
textbfFuzzed textbfRandomized textbfFRS (textbfFRS)を導入した。
我々の理論解析は、FRSが既存の手法と比較して広く証明されたロバストネス半径を達成できることを実証している。
論文 参考訳(メタデータ) (2025-02-09T12:03:59Z) - Prompt-based Unifying Inference Attack on Graph Neural Networks [24.85661326294946]
グラフニューラルネットワーク(GNN)上での新規なPromptベースの統一推論攻撃フレームワークを提案する。
ProIAは、事前学習中にグラフの重要なトポロジ情報を保持し、推論攻撃モデルの背景知識を高める。
次に、統一的なプロンプトを利用し、ダウンストリームアタックにおいてタスク関連知識に適応するために、さらなる混乱要因を導入する。
論文 参考訳(メタデータ) (2024-12-20T09:56:17Z) - Scalable and Effective Negative Sample Generation for Hyperedge Prediction [55.9298019975967]
ハイパーエッジ予測は、Webベースのアプリケーションにおける複雑なマルチエンタリティ相互作用を理解するために不可欠である。
従来の手法では、正と負のインスタンスの不均衡により、高品質な負のサンプルを生成するのが困難であることが多い。
本稿では,これらの課題に対処するために拡散モデルを利用するハイパーエッジ予測(SEHP)フレームワークのスケーラブルで効果的な負のサンプル生成について述べる。
論文 参考訳(メタデータ) (2024-11-19T09:16:25Z) - Adversarial Robustification via Text-to-Image Diffusion Models [56.37291240867549]
アドリラルロバスト性は、ニューラルネットワークをエンコードする難しい性質として伝統的に信じられてきた。
データを使わずに敵の堅牢性を実現するために,スケーラブルでモデルに依存しないソリューションを開発した。
論文 参考訳(メタデータ) (2024-07-26T10:49:14Z) - Unleashing the Power of Unlabeled Data: A Self-supervised Learning Framework for Cyber Attack Detection in Smart Grids [6.5023425872686085]
各種のサイバー攻撃を検知・識別する自己教師型学習ベースフレームワークを提案する。
提案するフレームワークは,大量のラベル付きラベル付きデータに頼らず,膨大なラベルなしデータを利用する。
実験の結果,37台のバスを用いた5エリアの電力グリッドシステムにおいて,既存手法よりも優れた性能を示すことができた。
論文 参考訳(メタデータ) (2024-05-22T20:04:52Z) - Enabling Privacy-Preserving Cyber Threat Detection with Federated Learning [4.475514208635884]
本研究は, プライバシー保護型サイバー脅威検出のための学習の可能性について, 有効性, ビザンチンレジリエンス, 効率の観点から, 体系的に検証した。
FLトレーニングされた検出モデルは、中央訓練された検出モデルに匹敵する性能が得られることを示す。
現実的な脅威モデルの下では、FLはデータ中毒とモデル中毒の両方の攻撃に対して抵抗性があることが判明した。
論文 参考訳(メタデータ) (2024-04-08T01:16:56Z) - A Pretrainer's Guide to Training Data: Measuring the Effects of Data
Age, Domain Coverage, Quality, & Toxicity [84.6421260559093]
この研究は、テキスト事前学習に関する文書化されていない直観を検証、定量化、公開するための最大の実験である。
以上の結果から,トレーニングデータをフィルタリングする一大ソリューションが存在しないことが示唆された。
論文 参考訳(メタデータ) (2023-05-22T15:57:53Z) - Adversarial training with informed data selection [53.19381941131439]
アドリアリトレーニングは、これらの悪意のある攻撃からネットワークを守るための最も効率的なソリューションである。
本研究では,ミニバッチ学習に適用すべきデータ選択戦略を提案する。
シミュレーションの結果,ロバスト性および標準精度に関して良好な妥協が得られることがわかった。
論文 参考訳(メタデータ) (2023-01-07T12:09:50Z) - Attribute Inference Attack of Speech Emotion Recognition in Federated
Learning Settings [56.93025161787725]
Federated Learning(FL)は、クライアントをコーディネートして、ローカルデータを共有せずにモデルを協調的にトレーニングする分散機械学習パラダイムである。
本稿では,共有勾配やモデルパラメータからクライアントの機密属性情報を推測する属性推論攻撃フレームワークを提案する。
FLを用いて学習したSERシステムに対して,属性推論攻撃が達成可能であることを示す。
論文 参考訳(メタデータ) (2021-12-26T16:50:42Z) - Bridging the Gap Between Clean Data Training and Real-World Inference
for Spoken Language Understanding [76.89426311082927]
既存のモデルはクリーンデータに基づいてトレーニングされ、クリーンデータトレーニングと現実世界の推論の間にtextitgapが発生する。
本稿では,良質なサンプルと低品質のサンプルの両方が類似ベクトル空間に埋め込まれた領域適応法を提案する。
広く使用されているデータセット、スニップス、および大規模な社内データセット(1000万のトレーニング例)に関する実験では、この方法は実世界の(騒々しい)コーパスのベースラインモデルを上回るだけでなく、堅牢性、すなわち、騒々しい環境下で高品質の結果を生み出すことを実証しています。
論文 参考訳(メタデータ) (2021-04-13T17:54:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。