Fugu-MT 論文翻訳(概要): How to Solve Few-Shot Abusive Content Detection Using the Data We Actually Have

論文の概要: How to Solve Few-Shot Abusive Content Detection Using the Data We Actually Have

arxiv url: http://arxiv.org/abs/2305.14081v1
Date: Tue, 23 May 2023 14:04:12 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-24 15:50:10.596343
Title: How to Solve Few-Shot Abusive Content Detection Using the Data We Actually Have
Title（参考訳）: 実際に取得したデータを用いた乱用コンテンツ検出の解法
Authors: Viktor Hangya, Alexander Fraser
Abstract要約: この作業では、すでに持っているデータセットを活用し、虐待的な言語検出に関連する幅広いタスクをカバーしています。まず、マルチタスク方式でモデルをトレーニングし、ターゲット要件に数発の適応を実行する。我々の実験は、既存のデータセットとターゲットタスクのほんの数ショットだけを活用することで、モデルの性能をモノリンガルだけでなく言語間でも改善できることを示した。
参考スコア（独自算出の注目度）: 83.93896701392238
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Due to the broad range of social media platforms and their user groups, the requirements of abusive language detection systems are varied and ever-changing. Already a large set of annotated corpora with different properties and label sets were created, such as hate or misogyny detection, but the form and targets of abusive speech are constantly changing. Since, the annotation of new corpora is expensive, in this work we leverage datasets we already have, covering a wide range of tasks related to abusive language detection, in order to build models cheaply for a new target label set and/or language, using only a few training examples of the target domain. We propose a two-step approach: first we train our model in a multitask fashion. We then carry out few-shot adaptation to the target requirements. Our experiments show that by leveraging already existing datasets and only a few-shots of the target task the performance of models can be improved not only monolingually but across languages as well. Our analysis also shows that our models acquire a general understanding of abusive language, since they improve the prediction of labels which are present only in the target dataset. We also analyze the trade-off between specializing the already existing datasets to a given target setup for best performance and its negative effects on model adaptability.
Abstract（参考訳）: ソーシャルメディアプラットフォームとそのユーザグループの範囲が広いため、乱用言語検出システムの要件は様々であり、常に変化している。ヘイトや不正検出など、さまざまな特性とラベルセットを持つ注釈付きコーパスがすでに作成されているが、乱用されたスピーチの形式とターゲットは常に変化している。新しいコーパスのアノテーションは高価であるため、この作業では、私たちがすでに持っているデータセットを活用して、乱用言語検出に関連する幅広いタスクをカバーし、ターゲットドメインのいくつかのトレーニング例のみを使用して、新しいターゲットラベルセットと/または言語のためのモデルを安価に構築します。まず,マルチタスク方式でモデルをトレーニングする。次に、ターゲット要件に少数の順応を実行します。我々の実験は、既存のデータセットとターゲットタスクのほんの数ショットだけを活用することで、モデルの性能をモノリンガルだけでなく言語間でも改善できることを示した。また,本モデルでは,対象データセットにのみ存在するラベルの予測を改善するため,乱用言語に対する一般的な理解も得られている。また、既存のデータセットを最適なパフォーマンスのために所定のターゲット設定に特殊化することと、モデル適応性に悪影響を及ぼすこととのトレードオフを分析する。

関連論文リスト

Exploiting Unlabeled Data with Vision and Language Models for Object Detection [64.94365501586118]
堅牢で汎用的なオブジェクト検出フレームワークを構築するには、より大きなラベルスペースとより大きなトレーニングデータセットへのスケーリングが必要である。本稿では,近年の視覚と言語モデルで利用可能なリッチなセマンティクスを利用して,未ラベル画像中のオブジェクトのローカライズと分類を行う手法を提案する。生成した擬似ラベルの価値を,オープン語彙検出と半教師付きオブジェクト検出の2つのタスクで示す。
論文参考訳（メタデータ） (2022-07-18T21:47:15Z)
KOLD: Korean Offensive Language Dataset [11.699797031874233]
韓国の攻撃言語データセット(KOLD)と40kのコメントに,攻撃性,目標,対象とするグループ情報をラベル付けしたコメントを提示する。タイトル情報は文脈として役立ち、特にコメントで省略された場合、憎悪の対象を識別するのに役立ちます。
論文参考訳（メタデータ） (2022-05-23T13:58:45Z)
Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文参考訳（メタデータ） (2022-01-15T20:48:14Z)
Few-Shot Cross-Lingual Stance Detection with Sentiment-Based Pre-Training [32.800766653254634]
本研究は,現在までの言語間スタンス検出に関する最も包括的な研究である。 6つの言語ファミリーの12言語で15の多様なデータセットを使用します。実験では,新しいラベルエンコーダの追加を提案し,パターン探索トレーニングを構築した。
論文参考訳（メタデータ） (2021-09-13T15:20:06Z)
Genre as Weak Supervision for Cross-lingual Dependency Parsing [18.755176247223616]
ジャンルのラベルは頻繁に入手できるが、言語間の設定ではほとんど探索されていない。木バンクレベルのジャンル情報をよりきめ細かい文レベルに投影する。 12の低リソース言語ツリーバンク(うち6つはテストのみ)では、ジャンル固有の手法が競争のベースラインを大幅に上回っています。
論文参考訳（メタデータ） (2021-09-10T08:24:54Z)
Comparison of Interactive Knowledge Base Spelling Correction Models for Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文参考訳（メタデータ） (2020-10-20T17:31:07Z)
Intent Detection with WikiHow [28.28719498563396]
私たちのモデルは、wikiHowでトレーニングされているため、多くのアクションから幅広い目的を予測できます。我々のモデルは、Snipsデータセット、Guided Dialogueデータセット、およびFacebookの多言語ダイアログデータセットの3つの言語で最先端の結果を得る。
論文参考訳（メタデータ） (2020-09-12T12:53:47Z)
Leveraging Adversarial Training in Self-Learning for Cross-Lingual Text Classification [52.69730591919885]
本稿では,ラベル保存型入力摂動の最大損失を最小限に抑える半教師付き対向学習法を提案する。多様な言語群に対する文書分類と意図分類において,有効性が著しく向上するのを観察する。
論文参考訳（メタデータ） (2020-07-29T19:38:35Z)
Words aren't enough, their order matters: On the Robustness of Grounding Visual Referring Expressions [87.33156149634392]
視覚的参照表現認識のための標準ベンチマークであるRefCOgを批判的に検討する。 83.7%のケースでは言語構造に関する推論は不要である。比較学習とマルチタスク学習の2つの手法を提案し,ViLBERTのロバスト性を高める。
論文参考訳（メタデータ） (2020-05-04T17:09:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。