論文の概要: A simple language-agnostic yet very strong baseline system for hate
speech and offensive content identification
- arxiv url: http://arxiv.org/abs/2202.02511v1
- Date: Sat, 5 Feb 2022 08:09:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-11 11:24:25.664732
- Title: A simple language-agnostic yet very strong baseline system for hate
speech and offensive content identification
- Title(参考訳): ヘイトスピーチと攻撃的コンテンツ識別のための単純言語非依存かつ非常に強力なベースラインシステム
- Authors: Yves Bestgen
- Abstract要約: 古典的な教師付きアルゴリズムに基づくシステムは、文字n-gramのみを供給し、したがって完全に言語に依存しないシステムを提案する。
英語では中程度のパフォーマンスに達しており、ディープラーニングアプローチの開発が容易な言語である。
これらの言語の3つのタスクでパフォーマンスが平均化され、多くのディープラーニングアプローチを上回ります。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: For automatically identifying hate speech and offensive content in tweets, a
system based on a classical supervised algorithm only fed with character
n-grams, and thus completely language-agnostic, is proposed by the SATLab team.
After its optimization in terms of the feature weighting and the classifier
parameters, it reached, in the multilingual HASOC 2021 challenge, a medium
performance level in English, the language for which it is easy to develop deep
learning approaches relying on many external linguistic resources, but a far
better level for the two less resourced language, Hindi and Marathi. It ends
even first when performances are averaged over the three tasks in these
languages, outperforming many deep learning approaches. These performances
suggest that it is an interesting reference level to evaluate the benefits of
using more complex approaches such as deep learning or taking into account
complementary resources.
- Abstract(参考訳): ツイート中のヘイトスピーチと攻撃的コンテンツを自動的に識別するために、従来の教師付きアルゴリズムに基づくシステムは文字n-gramのみを供給し、したがって完全に言語に依存しない。
機能の重み付けと分類パラメータの最適化によって、多言語hasoc 2021チャレンジでは、英語の中間パフォーマンスレベルである、多くの外部言語リソースに依存するディープラーニングアプローチの開発が容易な言語、ヒンディー語とマラティ語という2つの少ない言語に対して、はるかに優れたレベルに達した。
パフォーマンスがこれらの言語で3つのタスクに平均され、多くのディープラーニングアプローチを上回って初めて終わる。
これらのパフォーマンスは、ディープラーニングのようなより複雑なアプローチや補完的リソースを考慮に入れることのメリットを評価するのに、興味深い参照レベルであることを示唆している。
関連論文リスト
- Lens: Rethinking Multilingual Enhancement for Large Language Models [70.85065197789639]
Lensは、大規模言語モデル(LLM)の多言語機能を強化する新しいアプローチである
LLMの上位層から言語に依存しない、言語固有のサブ空間内の隠された表現を操作できる。
既存のポストトレーニング手法に比べて計算資源がはるかに少ないため、優れた結果が得られる。
論文 参考訳(メタデータ) (2024-10-06T08:51:30Z) - No Train but Gain: Language Arithmetic for training-free Language Adapters enhancement [59.37775534633868]
本稿では,学習不要な後処理が可能な言語演算法を提案する。
提案手法の有効性を,MAD-Xに基づく言語間スキームの3つの下流課題に適用した。
論文 参考訳(メタデータ) (2024-04-24T08:52:40Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - Cross-lingual Transfer for Speech Processing using Acoustic Language
Similarity [81.51206991542242]
言語間の移動は、このデジタル分割を橋渡しする魅力的な方法を提供する。
現在の言語間アルゴリズムは、テキストベースのタスクや音声関連タスクを低リソース言語で実現している。
本稿では,数百の言語をまたがる音響的言語間移動対を効率的に同定する言語類似性手法を提案する。
論文 参考訳(メタデータ) (2021-11-02T01:55:17Z) - Cross-lingual hate speech detection based on multilingual
domain-specific word embeddings [4.769747792846004]
トランスファーラーニングの視点から多言語のヘイトスピーチ検出の課題に取り組むことを提案する。
私たちの目標は、ある特定の言語の知識が他の言語の分類に使用できるかどうかを判断することです。
単純かつ特定された多言語ヘイト表現を用いることで分類結果が向上することを示す。
論文 参考訳(メタデータ) (2021-04-30T02:24:50Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - Gamified Crowdsourcing for Idiom Corpora Construction [0.0]
本稿では,慣用的な表現のための言語学習教材を収集するための,ゲーミフィケーションなクラウドソーシング手法を紹介する。
メッセージングボットは、互いに競合するネイティブスピーカーのための非同期マルチプレイヤーゲームとして設計されている。
このアプローチは、異なる自然言語に対するイディオムコーパスの構築を高速化する可能性があることが示されている。
論文 参考訳(メタデータ) (2021-02-01T14:44:43Z) - Adapt-and-Adjust: Overcoming the Long-Tail Problem of Multilingual
Speech Recognition [58.849768879796905]
エンドツーエンドの多言語音声認識のためのトランスフォーマーベースマルチタスク学習フレームワークであるAdapt-and-Adjust (A2)を提案する。
A2フレームワークは,(1) 訓練済み多言語言語モデル (mBERT) を利用して低リソース言語の性能を向上させる,(2) 言語固有の適応と言語に依存しない2つのアダプタを最小限の追加パラメータで提案する,(3) クラス不均衡を克服する,という3つの手法で解決する。
論文 参考訳(メタデータ) (2020-12-03T03:46:16Z) - LSCP: Enhanced Large Scale Colloquial Persian Language Understanding [2.7249643773851724]
ラージスケール・コロクィアル・ペルシア語データセット」は、低リソース言語におけるコロクィアル言語を記述することを目的としている。
提案したコーパスは,2700万のツイートに解析木,音声タグ,感情の極性,5つの言語による翻訳を付加した1億2000万文からなる。
論文 参考訳(メタデータ) (2020-03-13T22:24:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。