論文の概要: WLV-RIT at HASOC-Dravidian-CodeMix-FIRE2020: Offensive Language
Identification in Code-switched YouTube Comments
- arxiv url: http://arxiv.org/abs/2011.00559v1
- Date: Sun, 1 Nov 2020 16:52:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 22:45:37.828030
- Title: WLV-RIT at HASOC-Dravidian-CodeMix-FIRE2020: Offensive Language
Identification in Code-switched YouTube Comments
- Title(参考訳): WLV-RIT at HASOC-Dravidian-CodeMix-FIRE2020: Offensive Language Identification in Code-switched YouTube comments
- Authors: Tharindu Ranasinghe, Sarthak Gupte, Marcos Zampieri, Ifeoma Nwogu
- Abstract要約: 本稿では,インド・ヨーロッパ語におけるHate Speech and Offensive Content IdentificationのWLV-RITエントリについて述べる。
HASOC 2020の主催者は、ドラヴィダ語(マラヤラム語とタミル語)で混在するコードのソーシャルメディア投稿を含むデータセットを参加者に提供した。
テストセットの平均F1スコアは89.89で,12名中5位にランクインした。
- 参考スコア(独自算出の注目度): 16.938836887702923
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper describes the WLV-RIT entry to the Hate Speech and Offensive
Content Identification in Indo-European Languages (HASOC) shared task 2020. The
HASOC 2020 organizers provided participants with annotated datasets containing
social media posts of code-mixed in Dravidian languages (Malayalam-English and
Tamil-English). We participated in task 1: Offensive comment identification in
Code-mixed Malayalam Youtube comments. In our methodology, we take advantage of
available English data by applying cross-lingual contextual word embeddings and
transfer learning to make predictions to Malayalam data. We further improve the
results using various fine tuning strategies. Our system achieved 0.89 weighted
average F1 score for the test set and it ranked 5th place out of 12
participants.
- Abstract(参考訳): 本稿では,インド・ヨーロッパ語におけるHate Speech and Offensive Content Identification(HASOC)のWLV-RITエントリについて述べる。
HASOC 2020の主催者は、ドラヴィダ語(マラヤラム語とタミル語)で混在するコードのソーシャルメディア投稿を含む注釈付きデータセットを参加者に提供した。
Code-mixed Malayalam Youtubeコメントにおける攻撃的なコメント識別。
提案手法では,マラヤラムデータへの言語間文脈単語埋め込みと移動学習を適用して,利用可能な英語データを活用する。
様々な微調整手法を用いて, 結果をさらに改善する。
本システムでは,テストセットの重量平均f1得点が0.89で,12名中5位にランクインした。
関連論文リスト
- Adversarial Training For Low-Resource Disfluency Correction [50.51901599433536]
ディフルエンシ補正(DC)のための逆学習型シーケンスタグ付けモデルを提案する。
提案手法の利点は,3つのインド語でDCに対して評価することで,合成された非流動データに大きく依存することを示す。
また,本手法は,音声障害によって導入されたASR文字の破面的不一致の除去にも有効である。
論文 参考訳(メタデータ) (2023-06-10T08:58:53Z) - Transformer-based Model for Word Level Language Identification in
Code-mixed Kannada-English Texts [55.41644538483948]
コードミキシングしたカンナダ英語テキストにおける単語レベル言語識別のためのトランスフォーマーベースモデルを提案する。
The proposed model on the CoLI-Kenglish dataset achieves a weighted F1-score of 0.84 and a macro F1-score of 0.61。
論文 参考訳(メタデータ) (2022-11-26T02:39:19Z) - MasakhaNER 2.0: Africa-centric Transfer Learning for Named Entity
Recognition [55.95128479289923]
アフリカ系言語は10億人を超える人々によって話されているが、NLPの研究や開発ではあまり語られていない。
我々は、20のアフリカ言語で最大の人間アノテーション付きNERデータセットを作成します。
最適な転送言語を選択すると、ゼロショットF1スコアが平均14ポイント向上することを示す。
論文 参考訳(メタデータ) (2022-10-22T08:53:14Z) - Tencent AI Lab - Shanghai Jiao Tong University Low-Resource Translation
System for the WMT22 Translation Task [49.916963624249355]
本稿では, Tencent AI Lab - Shanghai Jiao Tong University (TAL-SJTU) Low-Resource Translation system for the WMT22 shared taskについて述べる。
我々は、英語$Leftrightarrow$Livonianの一般的な翻訳作業に参加する。
本システムは,M2M100を対象言語に適応させる新しい手法を用いて構築した。
論文 参考訳(メタデータ) (2022-10-17T04:34:09Z) - IIITDWD-ShankarB@ Dravidian-CodeMixi-HASOC2021: mBERT based model for
identification of offensive content in south Indian languages [0.0]
第1タスクはマラヤラムのデータにおける攻撃的内容の特定であり、第2タスクはマラヤラムとタミル・コード混成文を含む。
我がチームは第2タスクに参加した。
提案モデルでは,多言語BERTを用いて特徴抽出を行い,特徴抽出に3つの異なる分類器を用いた。
論文 参考訳(メタデータ) (2022-04-13T06:24:57Z) - CALCS 2021 Shared Task: Machine Translation for Code-Switched Data [27.28423961505655]
我々は、コード変更によるソーシャルメディアデータの機械翻訳に対処する。
コミュニティ共有タスクを作成します。
監督された設定では、参加者は英語をヒンディー語(英:Hindi- English)に単一方向に翻訳する。
教師なしの設定については、英語とスペイン語(Eng-Spanglish)、英語と現代標準アラビア語(Eng-MSAEA)の2つの言語対を提供する。
論文 参考訳(メタデータ) (2022-02-19T15:39:34Z) - CUSATNLP@HASOC-Dravidian-CodeMix-FIRE2020:Identifying Offensive Language
from ManglishTweets [0.0]
本稿では,HASOC 攻撃言語識別-DravidianCodeMix のサブトラックである Task2 に提案する作業モデルを提案する。
これはメッセージレベルの分類タスクです。
埋め込みモデルに基づく分類器は、我々のアプローチにおける攻撃的コメントではなく攻撃的コメントを識別する。
論文 参考訳(メタデータ) (2020-10-17T10:11:41Z) - BRUMS at SemEval-2020 Task 12 : Transformer based Multilingual Offensive
Language Identification in Social Media [9.710464466895521]
ソーシャルメディアにおける攻撃的言語を特定するための多言語深層学習モデルを提案する。
このアプローチは、言語間の柔軟性を維持しながら、許容できる評価スコアを達成する。
論文 参考訳(メタデータ) (2020-10-13T10:39:14Z) - Gauravarora@HASOC-Dravidian-CodeMix-FIRE2020: Pre-training ULMFiT on
Synthetically Generated Code-Mixed Data for Hate Speech Detection [0.0]
本稿では,ドラヴィダ語におけるHate Speech and Offensive Content Identification in Dravidian Language (Tamil-British and Malayalam-British)について述べる。
このタスクは、ソーシャルメディアから収集されたDravidian言語におけるコメント/ポストのコード混合データセットにおける攻撃的言語を特定することを目的としている。
論文 参考訳(メタデータ) (2020-10-05T15:25:47Z) - Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。
我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。
我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文 参考訳(メタデータ) (2020-08-21T20:59:34Z) - Kungfupanda at SemEval-2020 Task 12: BERT-Based Multi-Task Learning for
Offensive Language Detection [55.445023584632175]
我々は,マルチタスク学習とBERTモデルを組み合わせた攻撃的言語検出システムを構築した。
我々のモデルは、英語のサブタスクAで91.51%のF1スコアを獲得し、これは第1位に匹敵する。
論文 参考訳(メタデータ) (2020-04-28T11:27:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。