論文の概要: Human-in-the-Loop Hate Speech Classification in a Multilingual Context
- arxiv url: http://arxiv.org/abs/2212.02108v1
- Date: Mon, 5 Dec 2022 09:05:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-06 15:27:36.418799
- Title: Human-in-the-Loop Hate Speech Classification in a Multilingual Context
- Title(参考訳): 多言語文脈におけるヘイトスピーチ分類
- Authors: Ana Kotarcic, Dominik Hangartner, Fabrizio Gilardi, Selina Kurer,
Karsten Donnay
- Abstract要約: 本稿では,新たなHuman-in-the-loop BERTベースのヘイトスピーチ分類パイプラインを導入する。
我々の分類器は、もともとの422k以上のサンプルのコーパスからのデータを使って訓練されており、スイスの本質的に多言語的な設定のために特別に開発されています。
- 参考スコア(独自算出の注目度): 0.2624902795082451
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The shift of public debate to the digital sphere has been accompanied by a
rise in online hate speech. While many promising approaches for hate speech
classification have been proposed, studies often focus only on a single
language, usually English, and do not address three key concerns:
post-deployment performance, classifier maintenance and infrastructural
limitations. In this paper, we introduce a new human-in-the-loop BERT-based
hate speech classification pipeline and trace its development from initial data
collection and annotation all the way to post-deployment. Our classifier,
trained using data from our original corpus of over 422k examples, is
specifically developed for the inherently multilingual setting of Switzerland
and outperforms with its F1 score of 80.5 the currently best-performing
BERT-based multilingual classifier by 5.8 F1 points in German and 3.6 F1 points
in French. Our systematic evaluations over a 12-month period further highlight
the vital importance of continuous, human-in-the-loop classifier maintenance to
ensure robust hate speech classification post-deployment.
- Abstract(参考訳): デジタル分野への公的な議論のシフトは、オンラインヘイトスピーチの増加に伴うものだ。
ヘイトスピーチ分類のための多くの有望なアプローチが提案されているが、研究はしばしば単一言語(通常英語)にのみ焦点をあて、デプロイ後のパフォーマンス、分類器の保守、インフラ上の制限という3つの主要な懸念に対処しない。
本稿では,新たなHuman-in-the-loop BERTベースのヘイトスピーチ分類パイプラインを導入し,初期データ収集とアノテーションからデプロイ後に至るまでの開発をトレースする。
我々の分類器は、もともとの422k以上の例のコーパスからのデータを用いて訓練され、スイスの本質的に多言語的な設定のために特別に開発され、F1スコアは80.5であり、現在最もパフォーマンスの良いBERTベースの多言語分類器はドイツ語で5.8F1ポイント、フランス語で3.6F1ポイントである。
12ヶ月にわたる体系的な評価は、配置後のロバストなヘイトスピーチ分類を保証するために、連続的かつループ内分類器のメンテナンスが重要であることをさらに強調する。
関連論文リスト
- BUFFET: Benchmarking Large Language Models for Few-shot Cross-lingual
Transfer [81.5984433881309]
本稿では,54言語にまたがる15のタスクをシーケンス・ツー・シーケンス・フォーマットで統一するBUFFETを紹介する。
BUFFETは、数発の言語間移動のための厳密で公平な評価フレームワークを確立するように設計されている。
コンテクスト内言語間移動における改善の余地は極めて大きいことが判明した。
論文 参考訳(メタデータ) (2023-05-24T08:06:33Z) - CCPrefix: Counterfactual Contrastive Prefix-Tuning for Many-Class
Classification [57.62886091828512]
多クラス分類のための新しいプレフィックスチューニング手法であるCCPrefixを提案する。
基本的に、ラベル空間における実数対から派生したインスタンス依存の軟式接頭辞は、多クラス分類における言語動詞化を補完するために利用される。
論文 参考訳(メタデータ) (2022-11-11T03:45:59Z) - Robustification of Multilingual Language Models to Real-world Noise with
Robust Contrastive Pretraining [14.087882550564169]
ノイズの多いデータに基づいてニューラルモデルのロバスト性を評価し,改良は英語に限られていることを示唆する。
事前訓練された多言語モデルの性能をベンチマークするために、5つの言語と4つのNLPタスクをカバーするノイズの多いデータセットを構築した。
本稿では,多言語事前学習モデルのゼロショット言語間ロバスト性を高めるために,ロバストコントラスト事前学習(RCP)を提案する。
論文 参考訳(メタデータ) (2022-10-10T15:40:43Z) - Overcoming Catastrophic Forgetting in Zero-Shot Cross-Lingual Generation [48.80125962015044]
ラベル付きデータが英語でのみ利用可能である場合、対象言語で生成タスク(すなわち要約)を実行するという問題について検討する。
パラメータ効率の低い言語間での移動において、パラメータ効率の適応は標準的な微調整よりも向上することがわかった。
提案手法はさらなる品質向上を実現し,ロバストなゼロショット・クロスランガル生成が到達範囲内であることを示唆する。
論文 参考訳(メタデータ) (2022-05-25T10:41:34Z) - IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and
Languages [87.5457337866383]
画像認識言語理解評価ベンチマークについて紹介する。
IGLUEは、視覚的質問応答、クロスモーダル検索、グラウンドド推論、20言語にわたるグラウンドドエンターテイメントタスクをまとめて提供する。
翻訳-テストの転送はゼロショットの転送よりも優れており、少数ショットの学習は多くのタスクに役立てることが難しい。
論文 参考訳(メタデータ) (2022-01-27T18:53:22Z) - Detecting Abusive Albanian [5.092028049119383]
scShajは、さまざまなソーシャルメディアプラットフォーム上のユーザーテキストコンテンツから構築されたヘイトスピーチと攻撃的なスピーチのための注釈付きデータセットである。
データセットは3つの異なる分類モデルを用いてテストされ、最も良いものは攻撃言語を識別するためのF1スコア0.77を達成することである。
論文 参考訳(メタデータ) (2021-07-28T18:47:32Z) - It's All in the Heads: Using Attention Heads as a Baseline for
Cross-Lingual Transfer in Commonsense Reasoning [4.200736775540874]
我々は,重みを重み付けした線形分類器を特徴として訓練するコモンセンス推論への簡単なアプローチを設計する。
本手法は,近年のコモンセンス推論における教師なし・教師なしの手法と競合する。
パフォーマンスの大部分は、すべての研究対象言語に対する注目の小さなサブセットによって与えられる。
論文 参考訳(メタデータ) (2021-06-22T21:25:43Z) - Modeling Profanity and Hate Speech in Social Media with Semantic
Subspaces [15.457286059556393]
特に英語以外の言語では、憎しみの言葉と憎しみの検知は、データの拡散に悩まされる。
代名詞部分空間を単語と文表現で識別し,その一般化能力を探求する。
類似したタスクと遠方のタスク、およびすべての言語において、サブスペースベースの表現は標準のBERT表現よりも効果的に転送される。
論文 参考訳(メタデータ) (2021-06-14T15:34:37Z) - On Negative Interference in Multilingual Models: Findings and A
Meta-Learning Treatment [59.995385574274785]
従来の信念に反して、負の干渉は低リソース言語にも影響を及ぼすことを示す。
メタ学習アルゴリズムは、より優れた言語間変換性を得、負の干渉を軽減する。
論文 参考訳(メタデータ) (2020-10-06T20:48:58Z) - On Target Segmentation for Direct Speech Translation [20.456325305495966]
サブワードレベルのセグメンテーションは、ニューラルマシン翻訳の最先端となった。
8言語方向と多言語訓練を含む3つのベンチマークで2つの手法を比較した。
サブワードレベルのセグメンテーションは、すべての設定で好意的に比較され、1から3のBLEUポイントの範囲で文字レベルのセグメンテーションを上回っている。
論文 参考訳(メタデータ) (2020-09-10T07:47:01Z) - Robust Cross-lingual Embeddings from Parallel Sentences [65.85468628136927]
本稿では,文整合コーパスを利用して頑健な言語間単語表現を実現するCBOW手法のバイリンガル拡張を提案する。
提案手法は,他のすべての手法と比較して,言語間文検索性能を著しく向上させる。
また、ゼロショットのクロスランガル文書分類タスクにおいて、ディープRNN法と同等性を実現する。
論文 参考訳(メタデータ) (2019-12-28T16:18:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。