論文の概要: Cordyceps@LT-EDI: Patching Language-Specific Homophobia/Transphobia
Classifiers with a Multilingual Understanding
- arxiv url: http://arxiv.org/abs/2309.13561v1
- Date: Sun, 24 Sep 2023 06:37:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-26 19:04:36.218406
- Title: Cordyceps@LT-EDI: Patching Language-Specific Homophobia/Transphobia
Classifiers with a Multilingual Understanding
- Title(参考訳): Cordyceps@LT-EDI:多言語理解による言語固有のホモフォビア/トランスフォビア分類
- Authors: Dean Ninalga
- Abstract要約: ホモフォビアおよびトランスフォビアヘイトスピーチ検出のための多言語(M-L)と言語固有の(L-S)アプローチを提案する。
M-Lモデルは、特定の言語では一般的でない、あるいは欠落している単語、フレーズ、概念をキャッチするために必要である。
L-Sモデルは、通常特定の言語で書くユーザーの文化的・言語的文脈を理解するのに適している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Detecting transphobia, homophobia, and various other forms of hate speech is
difficult. Signals can vary depending on factors such as language, culture,
geographical region, and the particular online platform. Here, we present a
joint multilingual (M-L) and language-specific (L-S) approach to homophobia and
transphobic hate speech detection (HSD). M-L models are needed to catch words,
phrases, and concepts that are less common or missing in a particular language
and subsequently overlooked by L-S models. Nonetheless, L-S models are better
situated to understand the cultural and linguistic context of the users who
typically write in a particular language. Here we construct a simple and
successful way to merge the M-L and L-S approaches through simple weight
interpolation in such a way that is interpretable and data-driven. We
demonstrate our system on task A of the 'Shared Task on Homophobia/Transphobia
Detection in social media comments' dataset for homophobia and transphobic HSD.
Our system achieves the best results in three of five languages and achieves a
0.997 macro average F1-score on Malayalam texts.
- Abstract(参考訳): トランスフォビア、ホモフォビア、その他の様々なヘイトスピーチの検出は困難である。
信号は、言語、文化、地理的地域、特定のオンラインプラットフォームなどの要因によって異なる。
本稿では,ホモフォビアおよびトランスフォビックヘイトスピーチ検出(HSD)に対する多言語(M-L)と言語固有の(L-S)アプローチを提案する。
M-Lモデルは、特定の言語では一般的でない言葉やフレーズ、概念をキャッチするために必要であり、L-Sモデルでは見過ごされる。
それでも、L-Sモデルは、通常特定の言語で書くユーザの文化的・言語的文脈を理解するのに適している。
ここでは、M-LとL-Sのアプローチを単純な重み補間を通じて、解釈可能でデータ駆動的な方法でマージする、単純で成功した方法を構築する。
ソーシャルメディアコメントにおける「ホモフォビア/トランスフォビア検出共有タスク」のタスクAにおいて、ホモフォビアおよびトランスフォビアHSDのためのデータセットを実証する。
本システムでは,5言語中3言語で最高の結果が得られ,マラヤラム文字のF1スコアが0.997である。
関連論文リスト
- Thank You, Stingray: Multilingual Large Language Models Can Not (Yet) Disambiguate Cross-Lingual Word Sense [30.62699081329474]
本稿では,言語間感覚曖昧化のための新しいベンチマーク,StingrayBenchを紹介する。
インドネシア語とマレー語、インドネシア語とタガログ語、中国語と日本語、英語とドイツ語の4つの言語ペアで偽の友人を集めます。
各種モデルの解析において,高リソース言語に偏りが生じる傾向が見られた。
論文 参考訳(メタデータ) (2024-10-28T22:09:43Z) - Scaling up Multimodal Pre-training for Sign Language Understanding [96.17753464544604]
手話は、難聴者コミュニティにとってコミュニケーションの主要な意味である。
難聴者と聴覚者のコミュニケーションを容易にするために,手話理解(SLU)タスクのシリーズが研究されている。
これらの課題は、多様な視点から手話のトピックを調査し、手話ビデオの効果的な表現を学ぶ上での課題を提起する。
論文 参考訳(メタデータ) (2024-08-16T06:04:25Z) - Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。
しかし、これらのモデルは言語間で対応する概念を関連付けることができ、効果的にクロスランガルなのでしょうか?
本研究は,言語横断的課題に関する6つの技術 LLM の評価を行った。
論文 参考訳(メタデータ) (2024-06-23T15:15:17Z) - Model-Agnostic Meta-Learning for Multilingual Hate Speech Detection [23.97444551607624]
ソーシャルメディアにおけるヘイトスピーチは増加傾向にあり、そのような有害なコンテンツを検出することが大きな牽引力となっている。
HateMAMLはモデルに依存しないメタ学習ベースのフレームワークで、低リソース言語でのヘイトスピーチ検出を効果的に行う。
大規模な実験は、8つの異なる低リソース言語にわたる5つのデータセットで実施されている。
論文 参考訳(メタデータ) (2023-03-04T22:28:29Z) - Multi-level Contrastive Learning for Cross-lingual Spoken Language
Understanding [90.87454350016121]
コントラスト学習のための難解なサンプルを, あらゆるレベルで生成するコードスイッチング手法を開発した。
言語間知識伝達にラベルセマンティクスを利用するラベル認識ジョイントモデルを開発した。
論文 参考訳(メタデータ) (2022-05-07T13:44:28Z) - bitsa_nlp@LT-EDI-ACL2022: Leveraging Pretrained Language Models for
Detecting Homophobia and Transphobia in Social Media Comments [0.9981479937152642]
ソーシャルメディアコメントにおけるホモフォビアとトランスフォビアを検出するためのLT-EDI共有タスクを提案する。
我々はmBERTのようなモノリンガル・マルチリンガル・トランスフォーマーモデルを用いて実験を行った。
私たちは、タミル語だけでなく、英語でYouTubeコメントの注意深い注釈付き実生活データセット上で、彼らのパフォーマンスを観察します。
論文 参考訳(メタデータ) (2022-03-27T10:15:34Z) - Cross-Lingual Ability of Multilingual Masked Language Models: A Study of
Language Structure [54.01613740115601]
本稿では,構成順序,構成,単語共起の3つの言語特性について検討する。
我々の主な結論は、構成順序と単語共起の寄与は限定的である一方、構成は言語間移動の成功にとってより重要であるということである。
論文 参考訳(メタデータ) (2022-03-16T07:09:35Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - Cross-lingual hate speech detection based on multilingual
domain-specific word embeddings [4.769747792846004]
トランスファーラーニングの視点から多言語のヘイトスピーチ検出の課題に取り組むことを提案する。
私たちの目標は、ある特定の言語の知識が他の言語の分類に使用できるかどうかを判断することです。
単純かつ特定された多言語ヘイト表現を用いることで分類結果が向上することを示す。
論文 参考訳(メタデータ) (2021-04-30T02:24:50Z) - Multilingual Contextual Affective Analysis of LGBT People Portrayals in
Wikipedia [34.183132688084534]
物語文における特定の語彙選択は、物語の中の人々に対する作家の態度を反映し、聴衆の反応に影響を与える。
言語や文化によって単語の意味がどう異なるかを示し、既存の英語データセットを一般化することの難しさを浮き彫りにしている。
次に、LGBTコミュニティのメンバーのウィキペディアの伝記ページを3つの言語で分析することで、本手法の有用性を実証する。
論文 参考訳(メタデータ) (2020-10-21T08:27:36Z) - Gender Bias in Multilingual Embeddings and Cross-Lingual Transfer [101.58431011820755]
多言語埋め込みにおけるジェンダーバイアスとNLPアプリケーションの伝達学習への影響について検討する。
我々は、バイアス分析のための多言語データセットを作成し、多言語表現におけるバイアスの定量化方法をいくつか提案する。
論文 参考訳(メタデータ) (2020-05-02T04:34:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。