論文の概要: Improving code-mixed hate detection by native sample mixing: A case study for Hindi-English code-mixed scenario
- arxiv url: http://arxiv.org/abs/2405.20755v1
- Date: Fri, 31 May 2024 11:43:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-03 14:47:24.333338
- Title: Improving code-mixed hate detection by native sample mixing: A case study for Hindi-English code-mixed scenario
- Title(参考訳): ネイティブサンプル混合によるコード混合ヘイト検出の改善:ヒンディー語と英語のコード混合シナリオを事例として
- Authors: Debajyoti Mazumder, Aakash Kumar, Jasabanta Patro,
- Abstract要約: ヘイト検出は長年、NLPコミュニティにとって難しい課題だった。
我々は、ヒンディー語と英語のコード混合設定をケーススタディとみなす。
コード混合トレーニングセットにネイティブなヘイトサンプルを追加することで、少量であっても、コード混合ヘイト検出の混合性能が改善された。
- 参考スコア(独自算出の注目度): 2.7582789611575897
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hate detection has long been a challenging task for the NLP community. The task becomes complex in a code-mixed environment because the models must understand the context and the hate expressed through language alteration. Compared to the monolingual setup, we see very less work on code-mixed hate as large-scale annotated hate corpora are unavailable to make the study. To overcome this bottleneck, we propose using native language hate samples. We hypothesise that in the era of multilingual language models (MLMs), hate in code-mixed settings can be detected by majorly relying on the native language samples. Even though the NLP literature reports the effectiveness of MLMs on hate detection in many cross-lingual settings, their extensive evaluation in a code-mixed scenario is yet to be done. This paper attempts to fill this gap through rigorous empirical experiments. We considered the Hindi-English code-mixed setup as a case study as we have the linguistic expertise for the same. Some of the interesting observations we got are: (i) adding native hate samples in the code-mixed training set, even in small quantity, improved the performance of MLMs for code-mixed hate detection, (ii) MLMs trained with native samples alone observed to be detecting code-mixed hate to a large extent, (iii) The visualisation of attention scores revealed that, when native samples were included in training, MLMs could better focus on the hate emitting words in the code-mixed context, and (iv) finally, when hate is subjective or sarcastic, naively mixing native samples doesn't help much to detect code-mixed hate. We will release the data and code repository to reproduce the reported results.
- Abstract(参考訳): ヘイト検出は長年、NLPコミュニティにとって難しい課題だった。
タスクは、言語変更によって表現されるコンテキストとヘイトを理解する必要があるため、コード混合環境では複雑になる。
モノリンガルのセットアップと比べて、大規模な注釈付きヘイトコーパスが研究に役立たないため、コードの混合ヘイトに関する作業は極めて少ない。
このボトルネックを克服するために、ネイティブ言語ヘイトサンプルの使用を提案する。
我々は、多言語言語モデル(MLM)の時代において、コード混合設定における憎悪は、主にネイティブ言語サンプルに依存することによって検出できると仮定する。
NLPの文献では、多くの言語間環境でのヘイト検出におけるMLMの有効性が報告されているが、コード混合シナリオにおけるそれらの広範な評価はまだ行われていない。
本稿では,厳密な実証実験を通じて,このギャップを埋めようとしている。
我々はヒンディー語と英語の混成構文をケーススタディとして検討した。
興味深い観察のいくつかは以下のとおりである。
i) コード混合学習セットにネイティブヘイトサンプルを追加することで, 少量であっても, コード混合ヘイト検出のためのMLMの性能が向上した。
(II)コードミキシングヘイトを大量に検出しているネイティブサンプルのみを用いて訓練したMLM。
三 注意点の可視化により、ネイティブサンプルをトレーニングに含めた場合、MLMは、コード混在文脈における憎悪の発する単語により焦点を合わせることができることが明らかとなった。
(iv)最後に、ヘイトが主観的または皮肉な場合、ネイティブサンプルを鼻で混ぜるだけでは、コードミキシングされたヘイトを検出するのにはあまり役に立たない。
報告された結果を再現するために、データとコードリポジトリをリリースします。
関連論文リスト
- Understanding and Mitigating Language Confusion in LLMs [76.96033035093204]
我々は,既存の英語および多言語プロンプトを用いた15の型的多様言語の評価を行った。
Llama Instruct と Mistral のモデルでは,言語的混乱の度合いが高いことがわかった。
言語混乱は,数発のプロンプト,多言語SFT,選好調整によって部分的に緩和できることがわかった。
論文 参考訳(メタデータ) (2024-06-28T17:03:51Z) - Data Contamination Can Cross Language Barriers [29.103517721155487]
大規模言語モデル(LLM)の開発における不透明さは、事前学習データにおける公開ベンチマークの汚染の可能性への懸念が高まっている。
まず, 電流検出手法を回避しつつ, LLMの性能を増大させる多言語性汚染について述べる。
本稿では,このような汚染を深く隠蔽する一般化に基づく手法を提案する。
論文 参考訳(メタデータ) (2024-06-19T05:53:27Z) - Label-aware Hard Negative Sampling Strategies with Momentum Contrastive Learning for Implicit Hate Speech Detection [10.436987814180544]
ランダムにサンプリングされたバッチデータに基づく対照的な学習は、モデルに強い負のサンプルを学習させることを促さない。
本稿では,強陰性サンプルから詳細な特徴を学習するためのラベル認識型強陰性サンプリング戦略 (LAHN) を提案する。
LAHNは、インデータセットとクロスデータセットの両方において、暗黙のヘイトスピーチ検出のために既存のモデルより優れている。
論文 参考訳(メタデータ) (2024-06-12T05:24:58Z) - From Human Judgements to Predictive Models: Unravelling Acceptability in Code-Mixed Sentences [18.53327811304381]
コード混在テキストの受理性に関する人間の判断をモデル化することは、自然なコード混在テキストの識別に役立ちます。
クラインは16,642文のタイプの中で最大であり、2つの情報源から得られたサンプルで構成されている。
Clineを用いた実験では、コードミキシングのメトリクスのみに基づいて訓練された単純な多層パーセプトロン(MLP)モデルが、微調整された多言語大言語モデル(MLLM)より優れていることが示された。
論文 参考訳(メタデータ) (2024-05-09T06:40:39Z) - Which Syntactic Capabilities Are Statistically Learned by Masked
Language Models for Code? [51.29970742152668]
精度に基づく測定に依存することで、モデルの能力が過大評価される可能性があることを強調する。
これらの問題に対処するために,SyntaxEval in Syntactic Capabilitiesというテクニックを導入する。
論文 参考訳(メタデータ) (2024-01-03T02:44:02Z) - Comparative Study of Pre-Trained BERT Models for Code-Mixed
Hindi-English Data [0.7874708385247353]
コードミックス(Code Mixed)とは、複数の言語を同一のテキストで使用すること。
本研究では、低リソースのヒンディー語-英語のコード混合言語に焦点を当てる。
我々は,HingBERTに基づくモデルを用いて,各データセットの最先端結果について報告する。
論文 参考訳(メタデータ) (2023-05-25T05:10:28Z) - Prompting Multilingual Large Language Models to Generate Code-Mixed
Texts: The Case of South East Asian Languages [47.78634360870564]
東南アジア7言語(SEA)のコードミキシングデータ生成のための多言語モデルの構築について検討する。
BLOOMZのような多言語学習モデルでは、異なる言語からフレーズや節でテキストを生成できないことが判明した。
ChatGPTは、コード混合テキストの生成において矛盾する機能を示しており、そのパフォーマンスはプロンプトテンプレートと言語ペアリングによって異なる。
論文 参考訳(メタデータ) (2023-03-23T18:16:30Z) - Modeling Sequential Sentence Relation to Improve Cross-lingual Dense
Retrieval [87.11836738011007]
マスク付き文モデル(MSM)と呼ばれる多言語多言語言語モデルを提案する。
MSMは、文表現を生成する文エンコーダと、文書から文ベクトルのシーケンスに適用される文書エンコーダとから構成される。
モデルをトレーニングするために,サンプル負の階層的コントラスト損失によって文ベクトルをマスクし,予測するマスク付き文予測タスクを提案する。
論文 参考訳(メタデータ) (2023-02-03T09:54:27Z) - Rethinking Collaborative Metric Learning: Toward an Efficient
Alternative without Negative Sampling [156.7248383178991]
コラボレーティブ・メトリック・ラーニング(CML)パラダイムはレコメンデーション・システム(RS)分野に広く関心を集めている。
負のサンプリングが一般化誤差のバイアス付き推定に繋がることがわかった。
そこで我々は,SFCML (textitSampling-Free Collaborative Metric Learning) という名前のCMLに対して,負のサンプリングを伴わない効率的な手法を提案する。
論文 参考訳(メタデータ) (2022-06-23T08:50:22Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - MIPE: A Metric Independent Pipeline for Effective Code-Mixed NLG
Evaluation [1.2559148369195197]
コードミキシング(Code-mixing)は、2つ以上の言語からの単語とフレーズを1つの発話で混合する現象である。
様々な一般的なメトリクスは、コードミキシングされたNLGタスクではうまく機能しない。
評価指標と人的判断の相関性を大幅に改善する指標独立評価パイプラインMIPEを提案する。
論文 参考訳(メタデータ) (2021-07-24T05:24:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。