論文の概要: Overview of the HASOC Subtrack at FIRE 2021: Hate Speech and Offensive
Content Identification in English and Indo-Aryan Languages
- arxiv url: http://arxiv.org/abs/2112.09301v1
- Date: Fri, 17 Dec 2021 03:28:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-21 03:10:49.224468
- Title: Overview of the HASOC Subtrack at FIRE 2021: Hate Speech and Offensive
Content Identification in English and Indo-Aryan Languages
- Title(参考訳): FIRE 2021におけるHASOCサブトラックの概要:英語とインド・アーリア語におけるヘイトスピーチと攻撃的コンテンツ同定
- Authors: Thomas Mandl, Sandip Modha, Gautam Kishore Shahi, Hiren Madhu, Shrey
Satapara, Prasenjit Majumder, Johannes Schaefer, Tharindu Ranasinghe, Marcos
Zampieri, Durgesh Nandini and Amit Kumar Jaiswal
- Abstract要約: 本稿では,英語,ヒンディー語,マラタイ語のHASOCサブトラックについて述べる。
データセットはTwitterから集められた。
タスクAの最良の分類アルゴリズムのパフォーマンスは、マラタイ、ヒンディー語、英語でそれぞれ0.91、0.78、0.83である。
- 参考スコア(独自算出の注目度): 4.267837363677351
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The widespread of offensive content online such as hate speech poses a
growing societal problem. AI tools are necessary for supporting the moderation
process at online platforms. For the evaluation of these identification tools,
continuous experimentation with data sets in different languages are necessary.
The HASOC track (Hate Speech and Offensive Content Identification) is dedicated
to develop benchmark data for this purpose. This paper presents the HASOC
subtrack for English, Hindi, and Marathi. The data set was assembled from
Twitter. This subtrack has two sub-tasks. Task A is a binary classification
problem (Hate and Not Offensive) offered for all three languages. Task B is a
fine-grained classification problem for three classes (HATE) Hate speech,
OFFENSIVE and PROFANITY offered for English and Hindi. Overall, 652 runs were
submitted by 65 teams. The performance of the best classification algorithms
for task A are F1 measures 0.91, 0.78 and 0.83 for Marathi, Hindi and English,
respectively. This overview presents the tasks and the data development as well
as the detailed results. The systems submitted to the competition applied a
variety of technologies. The best performing algorithms were mainly variants of
transformer architectures.
- Abstract(参考訳): ヘイトスピーチのような悪質なコンテンツをオンラインで広めることは社会的な問題となっている。
オンラインプラットフォームでのモデレーションプロセスをサポートするには、AIツールが必要である。
これらの識別ツールの評価には、異なる言語でデータセットを連続的に実験する必要がある。
HASOCトラック(Hate Speech and Offensive Content Identification)は、この目的のためのベンチマークデータの開発を目的としている。
本稿では、hasoc subtrack for english, hindi, marathiについて述べる。
データセットはtwitterから収集された。
このサブトラックには2つのサブタスクがある。
タスクAは3つの言語すべてに対して提供されるバイナリ分類問題(Hate and Not Offensive)である。
タスクBは、英語とヒンディー語で提供される3つのクラス(HATE)Hateスピーチ、OFENSIVE、ProFANITYのきめ細かい分類問題である。
合計652チームが出場した。
タスクaの最適分類アルゴリズムの性能は、マラーティー、ヒンディー語、英語でそれぞれ 0.91, 0.78, 0.83 である。
この概要では、タスクとデータ開発、および詳細な結果について概説する。
競技に提出されたシステムは様々な技術を適用した。
最高の性能のアルゴリズムは主にトランスフォーマーアーキテクチャの変種である。
関連論文リスト
- CoSTA: Code-Switched Speech Translation using Aligned Speech-Text Interleaving [61.73180469072787]
インド語から英語のテキストへのコード変更音声の音声翻訳(ST)の問題に焦点をあてる。
本稿では、事前訓練された自動音声認識(ASR)と機械翻訳(MT)モジュールを足場として、新しいエンドツーエンドモデルアーキテクチャCOSTAを提案する。
COSTAは、多くの競合するカスケードおよびエンドツーエンドのマルチモーダルベースラインを3.5BLEUポイントまで上回っている。
論文 参考訳(メタデータ) (2024-06-16T16:10:51Z) - SeamlessM4T: Massively Multilingual & Multimodal Machine Translation [90.71078166159295]
音声から音声への翻訳,音声からテキストへの翻訳,テキストからテキストへの翻訳,最大100言語の自動音声認識をサポートする単一モデルSeamlessM4Tを紹介する。
我々は、音声とテキストの両方に英語を翻訳できる最初の多言語システムを開発した。
FLEURSでは、SeamlessM4Tが複数のターゲット言語への翻訳の新しい標準を設定し、音声からテキストへの直接翻訳において、以前のSOTAよりも20%BLEUの改善を実現している。
論文 参考訳(メタデータ) (2023-08-22T17:44:18Z) - Adversarial Training For Low-Resource Disfluency Correction [50.51901599433536]
ディフルエンシ補正(DC)のための逆学習型シーケンスタグ付けモデルを提案する。
提案手法の利点は,3つのインド語でDCに対して評価することで,合成された非流動データに大きく依存することを示す。
また,本手法は,音声障害によって導入されたASR文字の破面的不一致の除去にも有効である。
論文 参考訳(メタデータ) (2023-06-10T08:58:53Z) - Overview of the HASOC Subtrack at FIRE 2022: Offensive Language
Identification in Marathi [15.466844451996051]
HASOC(Hate Speech and Offensive Content Identification)共有タスクは、これらのイニシアチブの1つである。
4枚目のバージョンでは、HASOC 2022は英語、ヒンディー語、マラティ語のサブトラックを3曲収録した。
HASOC 2022 Marathi subtrackの結果を報告する。このサブトラックは,一般的なOLID分類法を用いて手動でアノテートしたTwitterのデータを含むデータセットを参加者に提供する。
最高のパフォーマンスアルゴリズムは、伝統的な学習アプローチとディープラーニングアプローチの混合である。
論文 参考訳(メタデータ) (2022-11-18T11:17:15Z) - Overview of Abusive and Threatening Language Detection in Urdu at FIRE
2021 [50.591267188664666]
我々は、ウルドゥー語に対する虐待と脅しの2つの共通タスクを提示する。
本研究では, (i) 乱用と非乱用というラベル付きツイートを含む手動注釈付きデータセットと, (ii) 脅威と非脅威の2つを提示する。
両方のサブタスクに対して、m-Bertベースのトランスモデルは最高の性能を示した。
論文 参考訳(メタデータ) (2022-07-14T07:38:13Z) - Multilingual Hate Speech and Offensive Content Detection using Modified
Cross-entropy Loss [0.0]
大規模な言語モデルは大量のデータに基づいてトレーニングされており、コンテキスト埋め込みも利用しています。
データのバランスもよくないので、修正されたクロスエントロピー損失を使ってこの問題に対処しました。
我々のチーム(HNLP)は、それぞれ英語サブタスクAと英語サブタスクBで0.808、0.639のマクロF1スコアを達成した。
論文 参考訳(メタデータ) (2022-02-05T20:31:40Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - Fine-tuning of Pre-trained Transformers for Hate, Offensive, and Profane
Content Detection in English and Marathi [0.0]
本稿では,英語とインド・アーリア語におけるHate Speech and Offensive Content Identificationのために開発されたニューラルモデルについて述べる。
英語のサブタスクに対して,ヘイトスピーチ検出のための追加コーパスが微調整変圧器モデルに与える影響について検討する。
Marathiタスクに対しては,Language-Agnostic BERT Sentence Embedding (LaBSE)に基づくシステムを提案する。
論文 参考訳(メタデータ) (2021-10-25T07:11:02Z) - One to rule them all: Towards Joint Indic Language Hate Speech Detection [7.296361860015606]
本稿では、最先端のトランスフォーマー言語モデルを用いて、ヘイトや攻撃的な音声検出を共同で学習する多言語アーキテクチャを提案する。
提案したテストコーパスでは,サブタスク1AのマクロF1スコアが0.7996,0.7748,0.8651,サブタスク1Bのきめ細かい分類において0.6268,0.5603となる。
論文 参考訳(メタデータ) (2021-09-28T13:30:00Z) - Overview of the HASOC track at FIRE 2020: Hate Speech and Offensive
Content Identification in Indo-European Languages [2.927129789938848]
HASOCトラックはヒンディー語、ドイツ語、英語向けのHate Speech Detectionアルゴリズムの開発と最適化を目的としている。
データセットはTwitterアーカイブから収集され、機械学習システムによって事前に分類される。
全体では40チーム252本が提出された。タスクAの最良の分類アルゴリズムは、それぞれ英語、ヒンディー語、ドイツ語で0.51本、0.53本、ドイツ語で0.52本である。
論文 参考訳(メタデータ) (2021-08-12T19:02:53Z) - Kungfupanda at SemEval-2020 Task 12: BERT-Based Multi-Task Learning for
Offensive Language Detection [55.445023584632175]
我々は,マルチタスク学習とBERTモデルを組み合わせた攻撃的言語検出システムを構築した。
我々のモデルは、英語のサブタスクAで91.51%のF1スコアを獲得し、これは第1位に匹敵する。
論文 参考訳(メタデータ) (2020-04-28T11:27:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。