論文の概要: How to Solve Few-Shot Abusive Content Detection Using the Data We
Actually Have
- arxiv url: http://arxiv.org/abs/2305.14081v1
- Date: Tue, 23 May 2023 14:04:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 15:50:10.596343
- Title: How to Solve Few-Shot Abusive Content Detection Using the Data We
Actually Have
- Title(参考訳): 実際に取得したデータを用いた乱用コンテンツ検出の解法
- Authors: Viktor Hangya, Alexander Fraser
- Abstract要約: この作業では、すでに持っているデータセットを活用し、虐待的な言語検出に関連する幅広いタスクをカバーしています。
まず、マルチタスク方式でモデルをトレーニングし、ターゲット要件に数発の適応を実行する。
我々の実験は、既存のデータセットとターゲットタスクのほんの数ショットだけを活用することで、モデルの性能をモノリンガルだけでなく言語間でも改善できることを示した。
- 参考スコア(独自算出の注目度): 83.93896701392238
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Due to the broad range of social media platforms and their user groups, the
requirements of abusive language detection systems are varied and
ever-changing. Already a large set of annotated corpora with different
properties and label sets were created, such as hate or misogyny detection, but
the form and targets of abusive speech are constantly changing. Since, the
annotation of new corpora is expensive, in this work we leverage datasets we
already have, covering a wide range of tasks related to abusive language
detection, in order to build models cheaply for a new target label set and/or
language, using only a few training examples of the target domain. We propose a
two-step approach: first we train our model in a multitask fashion. We then
carry out few-shot adaptation to the target requirements. Our experiments show
that by leveraging already existing datasets and only a few-shots of the target
task the performance of models can be improved not only monolingually but
across languages as well. Our analysis also shows that our models acquire a
general understanding of abusive language, since they improve the prediction of
labels which are present only in the target dataset. We also analyze the
trade-off between specializing the already existing datasets to a given target
setup for best performance and its negative effects on model adaptability.
- Abstract(参考訳): ソーシャルメディアプラットフォームとそのユーザグループの範囲が広いため、乱用言語検出システムの要件は様々であり、常に変化している。
ヘイトや不正検出など、さまざまな特性とラベルセットを持つ注釈付きコーパスがすでに作成されているが、乱用されたスピーチの形式とターゲットは常に変化している。
新しいコーパスのアノテーションは高価であるため、この作業では、私たちがすでに持っているデータセットを活用して、乱用言語検出に関連する幅広いタスクをカバーし、ターゲットドメインのいくつかのトレーニング例のみを使用して、新しいターゲットラベルセットと/または言語のためのモデルを安価に構築します。
まず,マルチタスク方式でモデルをトレーニングする。
次に、ターゲット要件に少数の順応を実行します。
我々の実験は、既存のデータセットとターゲットタスクのほんの数ショットだけを活用することで、モデルの性能をモノリンガルだけでなく言語間でも改善できることを示した。
また,本モデルでは,対象データセットにのみ存在するラベルの予測を改善するため,乱用言語に対する一般的な理解も得られている。
また、既存のデータセットを最適なパフォーマンスのために所定のターゲット設定に特殊化することと、モデル適応性に悪影響を及ぼすこととのトレードオフを分析する。
関連論文リスト
- DeMuX: Data-efficient Multilingual Learning [57.37123046817781]
DEMUXは、大量の重複しない多言語データからラベルを付けるための正確なデータポイントを規定するフレームワークである。
エンドツーエンドのフレームワークは言語に依存しず、モデル表現を記述し、多言語的ターゲット設定をサポートしています。
論文 参考訳(メタデータ) (2023-11-10T20:09:08Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - Super-Prompting: Utilizing Model-Independent Contextual Data to Reduce
Data Annotation Required in Visual Commonsense Tasks [3.42658286826597]
我々は,言語モデルとマルチモーダル因果変換器モデルの両方における結果を改善するために,異なるプロンプトベースの微調整手法を解析する。
以上の結果から,モデルに依存しないインシデントベースの微調整により,微調整データセットの35%~40%のみを用いて,同等の精度で達成できることが示唆された。
論文 参考訳(メタデータ) (2022-04-25T18:56:55Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - Genre as Weak Supervision for Cross-lingual Dependency Parsing [18.755176247223616]
ジャンルのラベルは頻繁に入手できるが、言語間の設定ではほとんど探索されていない。
木バンクレベルのジャンル情報をよりきめ細かい文レベルに投影する。
12の低リソース言語ツリーバンク(うち6つはテストのみ)では、ジャンル固有の手法が競争のベースラインを大幅に上回っています。
論文 参考訳(メタデータ) (2021-09-10T08:24:54Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z) - Intent Detection with WikiHow [28.28719498563396]
私たちのモデルは、wikiHowでトレーニングされているため、多くのアクションから幅広い目的を予測できます。
我々のモデルは、Snipsデータセット、Guided Dialogueデータセット、およびFacebookの多言語ダイアログデータセットの3つの言語で最先端の結果を得る。
論文 参考訳(メタデータ) (2020-09-12T12:53:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。