論文の概要: Sociocultural knowledge is needed for selection of shots in hate speech
detection tasks
- arxiv url: http://arxiv.org/abs/2304.01890v1
- Date: Tue, 4 Apr 2023 15:42:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-05 13:20:55.172875
- Title: Sociocultural knowledge is needed for selection of shots in hate speech
detection tasks
- Title(参考訳): ヘイトスピーチ検出課題におけるショット選択のための社会文化的知識
- Authors: Antonis Maronikolakis, Abdullatif K\"oksal, Hinrich Sch\"utze
- Abstract要約: ブラジル、ドイツ、インド、ケニアの国々を対象としたヘイトスピーチとヘイトスピーチのレキシコンであるHATELEXICONを紹介する。
予測を行う場合,極端音声を分類するために開発されたモデルは,ターゲット語に大きく依存していることが示される。
本稿では,HATELEXICONを用いた低リソース環境下での撮影選択を支援する手法を提案する。
- 参考スコア(独自算出の注目度): 1.5039745292757671
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We introduce HATELEXICON, a lexicon of slurs and targets of hate speech for
the countries of Brazil, Germany, India and Kenya, to aid training and
interpretability of models. We demonstrate how our lexicon can be used to
interpret model predictions, showing that models developed to classify extreme
speech rely heavily on target words when making predictions. Further, we
propose a method to aid shot selection for training in low-resource settings
via HATELEXICON. In few-shot learning, the selection of shots is of paramount
importance to model performance. In our work, we simulate a few-shot setting
for German and Hindi, using HASOC data for training and the Multilingual
HateCheck (MHC) as a benchmark. We show that selecting shots based on our
lexicon leads to models performing better on MHC than models trained on shots
sampled randomly. Thus, when given only a few training examples, using our
lexicon to select shots containing more sociocultural information leads to
better few-shot performance.
- Abstract(参考訳): 我々は,ブラジル,ドイツ,インド,ケニアの国々において,モデルの学習と解釈を支援するために,スラリーとヘイトスピーチのターゲットであるヘイトレクシコンを紹介する。
モデル予測の解釈に我々の語彙をどのように利用できるかを示し、極端な音声を分類するために開発されたモデルは予測を行う際にターゲット語に大きく依存することを示した。
さらに,HATELEXICONを用いた低リソース環境下での撮影選択を支援する手法を提案する。
数ショットの学習では、ショットの選択はモデルの性能において最重要となる。
本研究では,HASOCデータをトレーニング用として用い,Multilingual HateCheck (MHC) をベンチマークとして,ドイツ語とヒンディー語のいくつかの設定をシミュレートする。
我々は,我々のレキシコンに基づくショットの選択が,ランダムにサンプリングされたショットで訓練されたモデルよりも,MHCで優れた性能を示すことを示す。
したがって、いくつかのトレーニング例しか与えられていない場合、我々のレキシコンを使用して、より多くの社会文化的情報を含むショットを選択すると、より少ないパフォーマンスが得られます。
関連論文リスト
- DistilXLSR: A Light Weight Cross-Lingual Speech Representation Model [16.31307448314024]
蒸留言語間音声表現モデルであるDistilXLSRを提案する。
既存の音声の音素をランダムにシャッフルすることにより、言語情報を減らし、英語データのみを用いて言語間モデルを蒸留する。
本手法は,様々な言語/教師モデルに対して一般化可能であることが証明され,英語事前学習モデルの言語間性能を向上させる可能性がある。
論文 参考訳(メタデータ) (2023-06-02T07:03:06Z) - Learning Cross-lingual Visual Speech Representations [108.68531445641769]
言語横断的な自己監督型視覚表現学習は、ここ数年、研究トピックとして成長している。
我々は最近提案したRAVEn(Raw Audio-Visual Speechs)フレームワークを用いて,未ラベルデータを用いた音声-視覚モデルの事前学習を行う。
1)データ量が多いマルチ言語モデルはモノリンガルモデルよりも優れているが、データの量を維持すると、モノリンガルモデルの性能が向上する傾向にある。
論文 参考訳(メタデータ) (2023-03-14T17:05:08Z) - M-SpeechCLIP: Leveraging Large-Scale, Pre-Trained Models for
Multilingual Speech to Image Retrieval [56.49878599920353]
本研究は,多言語画像音声検索におけるCLIPとHuBERTの大規模,英語のみの事前学習モデル(CLIPとHuBERT)の利用について検討する。
非英語画像音声検索では、各言語毎に個別のモデルを訓練する場合と、3言語すべてで音声を処理する1つのモデルの両方において、最先端のパフォーマンスを幅広いマージンで上回ります。
論文 参考訳(メタデータ) (2022-11-02T14:54:45Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Language Models are Few-shot Multilingual Learners [66.11011385895195]
我々は、非英語言語における多言語分類を行う際に、GPTモデルとT5モデルの多言語的スキルを評価する。
文脈としての英語の例を見ると、事前学習された言語モデルは、英語のテストサンプルだけでなく、英語以外のサンプルも予測できることが示されている。
論文 参考訳(メタデータ) (2021-09-16T03:08:22Z) - True Few-Shot Learning with Language Models [78.42578316883271]
ホールドアウト例が利用できない場合, LMの少数ショット能力を評価する。
以上の結果から,先行研究はLMの真少ショット能力を大幅に過大評価していたことが示唆された。
論文 参考訳(メタデータ) (2021-05-24T17:55:51Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。