論文の概要: Battling Hateful Content in Indic Languages HASOC '21
- arxiv url: http://arxiv.org/abs/2110.12780v1
- Date: Mon, 25 Oct 2021 10:19:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-27 00:40:03.157387
- Title: Battling Hateful Content in Indic Languages HASOC '21
- Title(参考訳): indic languages hasoc '21でヘイトフルコンテンツとの戦い
- Authors: Aditya Kadam, Anmol Goel, Jivitesh Jain, Jushaan Singh Kalra, Mallika
Subramanian, Manvith Reddy, Prashant Kodali, T.H. Arjun, Manish Shrivastava,
Ponnurangam Kumaraguru
- Abstract要約: 本稿では,チームPreCog IIIT HyderabadによるHASOC 2021 Multilingual Twitter Hate-Speech Detectionの解を提案する。
我々は多言語トランスフォーマーベースのアプローチを採用し、6つのサブタスクすべてに対するアーキテクチャを課題の一部として記述する。
- 参考スコア(独自算出の注目度): 18.34508130325949
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The extensive rise in consumption of online social media (OSMs) by a large
number of people poses a critical problem of curbing the spread of hateful
content on these platforms. With the growing usage of OSMs in multiple
languages, the task of detecting and characterizing hate becomes more complex.
The subtle variations of code-mixed texts along with switching scripts only add
to the complexity. This paper presents a solution for the HASOC 2021
Multilingual Twitter Hate-Speech Detection challenge by team PreCog IIIT
Hyderabad. We adopt a multilingual transformer based approach and describe our
architecture for all 6 sub-tasks as part of the challenge. Out of the 6 teams
that participated in all the sub tasks, our submissions rank 3rd overall.
- Abstract(参考訳): 多くの人々によるオンラインソーシャルメディア(osm)の広範な消費増加は、これらのプラットフォーム上での憎悪コンテンツの拡散を抑制する重要な問題となっている。
複数の言語でのOSMの使用の増加に伴い、ヘイトの検出と特徴付けのタスクはより複雑になる。
コードミックスされたテキストの微妙なバリエーションとスクリプトの切り替えは複雑さを増すだけだ。
本稿では,チームPreCog IIIT HyderabadによるHASOC 2021 Multilingual Twitter Hate-Speech Detectionの解を提案する。
我々は,多言語トランスフォーマーに基づくアプローチを採用し,課題の一部として6つのサブタスクのアーキテクチャを説明する。
すべてのサブタスクに参加した6チームの中で、私たちの応募は全体で3位でした。
関連論文リスト
- CoSTA: Code-Switched Speech Translation using Aligned Speech-Text Interleaving [61.73180469072787]
インド語から英語のテキストへのコード変更音声の音声翻訳(ST)の問題に焦点をあてる。
本稿では、事前訓練された自動音声認識(ASR)と機械翻訳(MT)モジュールを足場として、新しいエンドツーエンドモデルアーキテクチャCOSTAを提案する。
COSTAは、多くの競合するカスケードおよびエンドツーエンドのマルチモーダルベースラインを3.5BLEUポイントまで上回っている。
論文 参考訳(メタデータ) (2024-06-16T16:10:51Z) - Wav2Gloss: Generating Interlinear Glossed Text from Speech [78.64412090339044]
音声から4つの言語アノテーションを自動抽出するタスクであるWav2Glossを提案する。
音声からのインターリニア・グロッシド・テキスト・ジェネレーションの今後の研究の基盤となる基盤となるものについて述べる。
論文 参考訳(メタデータ) (2024-03-19T21:45:29Z) - SADAS: A Dialogue Assistant System Towards Remediating Norm Violations
in Bilingual Socio-Cultural Conversations [56.31816995795216]
SADAS(Socially-Aware Dialogue Assistant System)は、会話が敬意と理解で広がることを保証するためのシステムである。
本システムの新しいアーキテクチャは,(1)対話に存在する規範のカテゴリを特定すること,(2)潜在的な規範違反を検出すること,(3)違反の深刻さを評価すること,(4)違反の是正を目的とした対策を実施すること,を含む。
論文 参考訳(メタデータ) (2024-01-29T08:54:21Z) - Bridging Cross-Lingual Gaps During Leveraging the Multilingual
Sequence-to-Sequence Pretraining for Text Generation [80.16548523140025]
プレトレインとファインチューンの間のギャップを埋めるために、コードスイッチングの復元タスクを追加して、バニラプレトレイン-ファインチューンパイプラインを拡張します。
提案手法は,言語間文表現距離を狭くし,簡単な計算コストで低周波語翻訳を改善する。
論文 参考訳(メタデータ) (2022-04-16T16:08:38Z) - BERTuit: Understanding Spanish language in Twitter through a native
transformer [70.77033762320572]
bfBERTuitは、これまでスペイン語のために提案された大きなトランスフォーマーで、2億3000万のスペイン語ツイートの膨大なデータセットで事前トレーニングされている。
私たちのモチベーションは、スペイン語のTwitterをよりよく理解し、このソーシャルネットワークにフォーカスしたアプリケーションに利用するための強力なリソースを提供することです。
論文 参考訳(メタデータ) (2022-04-07T14:28:51Z) - Toxicity Detection for Indic Multilingual Social Media Content [0.0]
本稿では、emphIIIT-D Abusive Comment Identification Challengeにおいて、ShareChat/Mojが提供するデータを用いて、チーム「Moj Masti」によって提案されたシステムについて述べる。
我々は、多言語トランスフォーマーに基づく事前訓練および微調整モデルを用いて、コード混在/コード切替型分類タスクにアプローチする方法に焦点をあてる。
論文 参考訳(メタデータ) (2022-01-03T12:01:47Z) - Leveraging Transformers for Hate Speech Detection in Conversational
Code-Mixed Tweets [36.29939722039909]
本稿では,HASOC 2021サブタスク2のためのMIDAS-IIITDチームによって提案されたシステムについて述べる。
これは、Hindi- Englishのコードミキシングされた会話からヘイトスピーチを検出することに焦点を当てた最初の共有タスクの1つである。
Indic-BERT,XLM-RoBERTa,Multilingual BERTのハード投票アンサンブルがマクロF1スコア0.7253を達成した。
論文 参考訳(メタデータ) (2021-12-18T19:27:33Z) - Overview of the HASOC Subtrack at FIRE 2021: Hate Speech and Offensive
Content Identification in English and Indo-Aryan Languages [4.267837363677351]
本稿では,英語,ヒンディー語,マラタイ語のHASOCサブトラックについて述べる。
データセットはTwitterから集められた。
タスクAの最良の分類アルゴリズムのパフォーマンスは、マラタイ、ヒンディー語、英語でそれぞれ0.91、0.78、0.83である。
論文 参考訳(メタデータ) (2021-12-17T03:28:54Z) - One to rule them all: Towards Joint Indic Language Hate Speech Detection [7.296361860015606]
本稿では、最先端のトランスフォーマー言語モデルを用いて、ヘイトや攻撃的な音声検出を共同で学習する多言語アーキテクチャを提案する。
提案したテストコーパスでは,サブタスク1AのマクロF1スコアが0.7996,0.7748,0.8651,サブタスク1Bのきめ細かい分類において0.6268,0.5603となる。
論文 参考訳(メタデータ) (2021-09-28T13:30:00Z) - Multilingual and code-switching ASR challenges for low resource Indian
languages [59.2906853285309]
インドの7つの言語に関連する2つのサブタスクを通じて、多言語およびコードスイッチングASRシステムの構築に重点を置いている。
これらの言語では、列車とテストセットからなる600時間分の音声データを合計で提供します。
また,マルチリンガルサブタスクとコードスイッチサブタスクのテストセットでは,それぞれ30.73%と32.45%という,タスクのベースラインレシピも提供しています。
論文 参考訳(メタデータ) (2021-04-01T03:37:01Z) - Exploring multi-task multi-lingual learning of transformer models for
hate speech and offensive speech identification in social media [0.0]
我々は、ヘイトスピーチの3つのサブタスクを解決するために、マルチタスクとマルチ言語アプローチを用いる。
これらのサブタスクは、インド・ヨーロッパ語におけるヘイトスピーチと攻撃的コンテンツ(HASOC)の識別に関する2019年の共有タスクの一部だった。
異なる言語やタスクで容易に一般化できるモデルを得るために、異なる組み合わせのアプローチを利用することが可能であることを示す。
論文 参考訳(メタデータ) (2021-01-27T01:25:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。