論文の概要: cantnlp@LT-EDI-2024: Automatic Detection of Anti-LGBTQ+ Hate Speech in
Under-resourced Languages
- arxiv url: http://arxiv.org/abs/2401.15777v1
- Date: Sun, 28 Jan 2024 21:58:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-30 16:38:51.028886
- Title: cantnlp@LT-EDI-2024: Automatic Detection of Anti-LGBTQ+ Hate Speech in
Under-resourced Languages
- Title(参考訳): cantnlp@LT-EDI-2024:アンダーリソース言語におけるLGBTQ+ヘイトスピーチの自動検出
- Authors: Sidney G.-J. Wong and Matthew Durward
- Abstract要約: 本稿では,LT-EDI-2024における共有タスクの一環として開発されたソーシャルメディアコメント検出システムにおけるホモフォビア/トランスフォビアについて述べる。
10の言語条件に対するマルチクラス分類モデルを開発するために,トランスフォーマーに基づくアプローチを採用した。
我々は,ソーシャルメディア言語の言語的現実を反映させるために,ドメイン適応中にスクリプト変更言語データの合成および有機的インスタンスを導入した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper describes our homophobia/transphobia in social media comments
detection system developed as part of the shared task at LT-EDI-2024. We took a
transformer-based approach to develop our multiclass classification model for
ten language conditions (English, Spanish, Gujarati, Hindi, Kannada, Malayalam,
Marathi, Tamil, Tulu, and Telugu). We introduced synthetic and organic
instances of script-switched language data during domain adaptation to mirror
the linguistic realities of social media language as seen in the labelled
training data. Our system ranked second for Gujarati and Telugu with varying
levels of performance for other language conditions. The results suggest
incorporating elements of paralinguistic behaviour such as script-switching may
improve the performance of language detection systems especially in the cases
of under-resourced languages conditions.
- Abstract(参考訳): 本稿では,LT-EDI-2024における共有タスクの一環として開発されたソーシャルメディアコメント検出システムにおけるホモフォビア/トランスフォビアについて述べる。
トランスフォーマティブに基づく10の言語条件(英語、スペイン語、グジャラティ、ヒンディー語、カンナダ語、マラヤラム語、マラティ語、タミル語、トゥルー語、テルグ語)の分類モデルを開発しました。
ラベル付き学習データに見られるソーシャルメディア言語の言語的現実を反映するために,ドメイン適応中のスクリプトスイッチ型言語データの合成および有機的なインスタンスを導入した。
我々のシステムは、他の言語条件におけるパフォーマンスレベルが異なるgujaratiとteluguの2位にランクインした。
その結果、スクリプトスイッチングのようなパラ言語的動作の要素を組み込むことで、言語検出システムの性能が向上する可能性が示唆された。
関連論文リスト
- cantnlp@LT-EDI-2023: Homophobia/Transphobia Detection in Social Media
Comments using Spatio-Temporally Retrained Language Models [0.9012198585960441]
本稿ではLTERAN@LP-2023共有タスクの一部として開発されたマルチクラス分類システムについて述べる。
我々は、BERTに基づく言語モデルを用いて、5つの言語条件におけるソーシャルメディアコメントにおけるホモフォビックおよびトランスフォビックな内容を検出する。
重み付きマクロ平均F1スコアに基づくマラヤラムの7ラベル分類システムを開発した。
論文 参考訳(メタデータ) (2023-08-20T21:30:34Z) - KIT's Multilingual Speech Translation System for IWSLT 2023 [58.5152569458259]
IWSLT 2023の多言語トラックに対する音声翻訳システムについて述べる。
このタスクは、様々な量のリソースを持つ10の言語に翻訳する必要がある。
我々のケースド音声システムは、科学的な話の翻訳において、エンドツーエンドの音声よりも大幅に優れています。
論文 参考訳(メタデータ) (2023-06-08T16:13:20Z) - Script Normalization for Unconventional Writing of Under-Resourced
Languages in Bilingual Communities [36.578851892373365]
ソーシャルメディアは言語的に表現されていないコミュニティに、彼らの母国語でコンテンツを制作する素晴らしい機会を与えてきた。
本稿では、主にペルソ・アラビア文字で書かれたいくつかの言語に対するスクリプト正規化の問題に対処する。
各種ノイズレベルの合成データと変圧器モデルを用いて, この問題を効果的に再現できることを実証した。
論文 参考訳(メタデータ) (2023-05-25T18:18:42Z) - No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。
何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。
本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文 参考訳(メタデータ) (2022-07-11T07:33:36Z) - Data and knowledge-driven approaches for multilingual training to
improve the performance of speech recognition systems of Indian languages [0.0]
対象言語を対象とした自動音声認識システムの多言語学習のためのデータと知識駆動型アプローチを提案する。
電話/セノンマッピングでは、ディープニューラルネットワーク(DNN)がセノンや電話をある言語から他の言語にマッピングすることを学ぶ。
他の手法では、全ての言語に対して同時に音響情報をモデル化する。
論文 参考訳(メタデータ) (2022-01-24T07:17:17Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - Harnessing Cross-lingual Features to Improve Cognate Detection for
Low-resource Languages [50.82410844837726]
言語間単語埋め込みを用いた14言語間のコニャートの検出を実証する。
インドの12言語からなる挑戦的データセットを用いて,コニャート検出手法の評価を行った。
我々は,コグネート検出のためのFスコアで最大18%の改善点を観察した。
論文 参考訳(メタデータ) (2021-12-16T11:17:58Z) - Cross-lingual Offensive Language Identification for Low Resource
Languages: The Case of Marathi [2.4737119633827174]
MOLDはMarathiのためにコンパイルされた最初のデータセットであり、低リソースのインド・アーリア語の研究のための新しいドメインを開設した。
このデータセットに関するいくつかの機械学習実験の結果は、ゼロショートや最先端の言語間変換器に関する他のトランスファーラーニング実験を含む。
論文 参考訳(メタデータ) (2021-09-08T11:29:44Z) - Role of Artificial Intelligence in Detection of Hateful Speech for
Hinglish Data on Social Media [1.8899300124593648]
ヒンディー語と英語のコードミックスデータ(Hinglish)の流行は、世界中の都市人口のほとんどで増加しています。
ほとんどのソーシャルネットワークプラットフォームが展開するヘイトスピーチ検出アルゴリズムは、これらのコード混合言語に投稿された不快で虐待的なコンテンツをフィルタリングできない。
非構造化コードミックスHinglish言語の効率的な検出方法を提案する。
論文 参考訳(メタデータ) (2021-05-11T10:02:28Z) - Multilingual and code-switching ASR challenges for low resource Indian
languages [59.2906853285309]
インドの7つの言語に関連する2つのサブタスクを通じて、多言語およびコードスイッチングASRシステムの構築に重点を置いている。
これらの言語では、列車とテストセットからなる600時間分の音声データを合計で提供します。
また,マルチリンガルサブタスクとコードスイッチサブタスクのテストセットでは,それぞれ30.73%と32.45%という,タスクのベースラインレシピも提供しています。
論文 参考訳(メタデータ) (2021-04-01T03:37:01Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。