論文の概要: How to Solve Few-Shot Abusive Content Detection Using the Data We
Actually Have
- arxiv url: http://arxiv.org/abs/2305.14081v1
- Date: Tue, 23 May 2023 14:04:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 15:50:10.596343
- Title: How to Solve Few-Shot Abusive Content Detection Using the Data We
Actually Have
- Title(参考訳): 実際に取得したデータを用いた乱用コンテンツ検出の解法
- Authors: Viktor Hangya, Alexander Fraser
- Abstract要約: この作業では、すでに持っているデータセットを活用し、虐待的な言語検出に関連する幅広いタスクをカバーしています。
まず、マルチタスク方式でモデルをトレーニングし、ターゲット要件に数発の適応を実行する。
我々の実験は、既存のデータセットとターゲットタスクのほんの数ショットだけを活用することで、モデルの性能をモノリンガルだけでなく言語間でも改善できることを示した。
- 参考スコア(独自算出の注目度): 83.93896701392238
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Due to the broad range of social media platforms and their user groups, the
requirements of abusive language detection systems are varied and
ever-changing. Already a large set of annotated corpora with different
properties and label sets were created, such as hate or misogyny detection, but
the form and targets of abusive speech are constantly changing. Since, the
annotation of new corpora is expensive, in this work we leverage datasets we
already have, covering a wide range of tasks related to abusive language
detection, in order to build models cheaply for a new target label set and/or
language, using only a few training examples of the target domain. We propose a
two-step approach: first we train our model in a multitask fashion. We then
carry out few-shot adaptation to the target requirements. Our experiments show
that by leveraging already existing datasets and only a few-shots of the target
task the performance of models can be improved not only monolingually but
across languages as well. Our analysis also shows that our models acquire a
general understanding of abusive language, since they improve the prediction of
labels which are present only in the target dataset. We also analyze the
trade-off between specializing the already existing datasets to a given target
setup for best performance and its negative effects on model adaptability.
- Abstract(参考訳): ソーシャルメディアプラットフォームとそのユーザグループの範囲が広いため、乱用言語検出システムの要件は様々であり、常に変化している。
ヘイトや不正検出など、さまざまな特性とラベルセットを持つ注釈付きコーパスがすでに作成されているが、乱用されたスピーチの形式とターゲットは常に変化している。
新しいコーパスのアノテーションは高価であるため、この作業では、私たちがすでに持っているデータセットを活用して、乱用言語検出に関連する幅広いタスクをカバーし、ターゲットドメインのいくつかのトレーニング例のみを使用して、新しいターゲットラベルセットと/または言語のためのモデルを安価に構築します。
まず,マルチタスク方式でモデルをトレーニングする。
次に、ターゲット要件に少数の順応を実行します。
我々の実験は、既存のデータセットとターゲットタスクのほんの数ショットだけを活用することで、モデルの性能をモノリンガルだけでなく言語間でも改善できることを示した。
また,本モデルでは,対象データセットにのみ存在するラベルの予測を改善するため,乱用言語に対する一般的な理解も得られている。
また、既存のデータセットを最適なパフォーマンスのために所定のターゲット設定に特殊化することと、モデル適応性に悪影響を及ぼすこととのトレードオフを分析する。
関連論文リスト
- Exploiting Unlabeled Data with Vision and Language Models for Object
Detection [64.94365501586118]
堅牢で汎用的なオブジェクト検出フレームワークを構築するには、より大きなラベルスペースとより大きなトレーニングデータセットへのスケーリングが必要である。
本稿では,近年の視覚と言語モデルで利用可能なリッチなセマンティクスを利用して,未ラベル画像中のオブジェクトのローカライズと分類を行う手法を提案する。
生成した擬似ラベルの価値を,オープン語彙検出と半教師付きオブジェクト検出の2つのタスクで示す。
論文 参考訳(メタデータ) (2022-07-18T21:47:15Z) - KOLD: Korean Offensive Language Dataset [11.699797031874233]
韓国の攻撃言語データセット(KOLD)と40kのコメントに,攻撃性,目標,対象とするグループ情報をラベル付けしたコメントを提示する。
タイトル情報は文脈として役立ち、特にコメントで省略された場合、憎悪の対象を識別するのに役立ちます。
論文 参考訳(メタデータ) (2022-05-23T13:58:45Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - Few-Shot Cross-Lingual Stance Detection with Sentiment-Based
Pre-Training [32.800766653254634]
本研究は,現在までの言語間スタンス検出に関する最も包括的な研究である。
6つの言語ファミリーの12言語で15の多様なデータセットを使用します。
実験では,新しいラベルエンコーダの追加を提案し,パターン探索トレーニングを構築した。
論文 参考訳(メタデータ) (2021-09-13T15:20:06Z) - Genre as Weak Supervision for Cross-lingual Dependency Parsing [18.755176247223616]
ジャンルのラベルは頻繁に入手できるが、言語間の設定ではほとんど探索されていない。
木バンクレベルのジャンル情報をよりきめ細かい文レベルに投影する。
12の低リソース言語ツリーバンク(うち6つはテストのみ)では、ジャンル固有の手法が競争のベースラインを大幅に上回っています。
論文 参考訳(メタデータ) (2021-09-10T08:24:54Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - Intent Detection with WikiHow [28.28719498563396]
私たちのモデルは、wikiHowでトレーニングされているため、多くのアクションから幅広い目的を予測できます。
我々のモデルは、Snipsデータセット、Guided Dialogueデータセット、およびFacebookの多言語ダイアログデータセットの3つの言語で最先端の結果を得る。
論文 参考訳(メタデータ) (2020-09-12T12:53:47Z) - Leveraging Adversarial Training in Self-Learning for Cross-Lingual Text
Classification [52.69730591919885]
本稿では,ラベル保存型入力摂動の最大損失を最小限に抑える半教師付き対向学習法を提案する。
多様な言語群に対する文書分類と意図分類において,有効性が著しく向上するのを観察する。
論文 参考訳(メタデータ) (2020-07-29T19:38:35Z) - Words aren't enough, their order matters: On the Robustness of Grounding
Visual Referring Expressions [87.33156149634392]
視覚的参照表現認識のための標準ベンチマークであるRefCOgを批判的に検討する。
83.7%のケースでは言語構造に関する推論は不要である。
比較学習とマルチタスク学習の2つの手法を提案し,ViLBERTのロバスト性を高める。
論文 参考訳(メタデータ) (2020-05-04T17:09:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。