論文の概要: Hate Speech Detection and Target Identification in Devanagari Languages via Parameter Efficient Fine-Tuning of LLMs
- arxiv url: http://arxiv.org/abs/2412.17131v1
- Date: Sun, 22 Dec 2024 18:38:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:59:43.158005
- Title: Hate Speech Detection and Target Identification in Devanagari Languages via Parameter Efficient Fine-Tuning of LLMs
- Title(参考訳): LLMのパラメータ効率的な微調整によるデバナガリ言語におけるヘイト音声検出とターゲット同定
- Authors: Rushendra Sidibomma, Pransh Patwa, Parth Patwa, Aman Chadha, Vinija Jain, Amitava Das,
- Abstract要約: 本稿では,ヘイトスピーチ検出とターゲット識別のためのPEFT(Efficient Fine tuning)に基づくソリューションを提案する。
我々は,Devanagariデータセットを用いた複数のLCMの評価を行った(Thapa et al., 2025)。
以上の結果から,Devanagari-scriptedコンテンツに対するアプローチの有効性が示された。
- 参考スコア(独自算出の注目度): 9.234570108225187
- License:
- Abstract: The detection of hate speech has become increasingly important in combating online hostility and its real-world consequences. Despite recent advancements, there is limited research addressing hate speech detection in Devanagari-scripted languages, where resources and tools are scarce. While large language models (LLMs) have shown promise in language-related tasks, traditional fine-tuning approaches are often infeasible given the size of the models. In this paper, we propose a Parameter Efficient Fine tuning (PEFT) based solution for hate speech detection and target identification. We evaluate multiple LLMs on the Devanagari dataset provided by (Thapa et al., 2025), which contains annotated instances in 2 languages - Hindi and Nepali. The results demonstrate the efficacy of our approach in handling Devanagari-scripted content.
- Abstract(参考訳): ヘイトスピーチの検出は、オンラインの敵意と実際の結果との戦いにおいてますます重要になっている。
近年の進歩にもかかわらず、リソースやツールが不足しているデバナガリ文字言語では、ヘイトスピーチ検出に対処する研究は限られている。
大きな言語モデル(LLM)は言語関連のタスクにおいて有望であるが、モデルのサイズを考えると、従来の微調整アプローチはしばしば実現不可能である。
本稿では,ヘイトスピーチ検出とターゲット同定のためのパラメータ効率の良いファインチューニング(PEFT)ソリューションを提案する。
我々は,ヒンディー語とネパール語という2つの言語で注釈付きインスタンスを含むDevanagariデータセット(Thapa et al , 2025)上で,複数のLSMを評価した。
以上の結果から,Devanagari-scripted Content に対するアプローチの有効性が示唆された。
関連論文リスト
- NLPineers@ NLU of Devanagari Script Languages 2025: Hate Speech Detection using Ensembling of BERT-based models [0.9974630621313314]
本稿では,ヒンディー語とネパール語に着目し,デバナガリ文字言語におけるヘイトスピーチの検出に焦点を当てた。
本研究では,様々なトランスフォーマーモデルを用いて,ヘイトスピーチと自由表現のニュアンス境界をナビゲートする効果について検討する。
この研究は、デバナガリ文字言語におけるヘイトスピーチ検出の必要性を強調し、さらなる研究の基盤を提供する。
論文 参考訳(メタデータ) (2024-12-11T07:37:26Z) - 1-800-SHARED-TASKS @ NLU of Devanagari Script Languages: Detection of Language, Hate Speech, and Targets using LLMs [0.0]
本稿では,CHiPSAL 2025共有タスクの入力に関する詳細なシステム記述について述べる。
本稿では,Devanagariスクリプト言語における言語検出,ヘイトスピーチ識別,ターゲット検出に焦点をあてる。
論文 参考訳(メタデータ) (2024-11-11T10:34:36Z) - Understanding and Mitigating Language Confusion in LLMs [76.96033035093204]
我々は,既存の英語および多言語プロンプトを用いた15の型的多様言語の評価を行った。
Llama Instruct と Mistral のモデルでは,言語的混乱の度合いが高いことがわかった。
言語混乱は,数発のプロンプト,多言語SFT,選好調整によって部分的に緩和できることがわかった。
論文 参考訳(メタデータ) (2024-06-28T17:03:51Z) - Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。
しかし、これらのモデルは言語間で対応する概念を関連付けることができ、効果的にクロスランガルなのでしょうか?
本研究は,言語横断的課題に関する6つの技術 LLM の評価を行った。
論文 参考訳(メタデータ) (2024-06-23T15:15:17Z) - The Ups and Downs of Large Language Model Inference with Vocabulary Trimming by Language Heuristics [74.99898531299148]
本研究は,興味のある言語への埋め込みエントリを制限し,時間と記憶効率を高めることによる語彙トリミング(VT)について検討する。
Unicodeベースのスクリプトフィルタリングとコーパスベースの選択という2つの言語を異なる言語ファミリやサイズに適用する。
その結果、VTは小型モデルのメモリ使用量を50%近く削減し、生成速度が25%向上した。
論文 参考訳(メタデータ) (2023-11-16T09:35:50Z) - Chain-of-Dictionary Prompting Elicits Translation in Large Language Models [100.47154959254937]
大規模言語モデル(LLM)は多言語ニューラルマシン翻訳(MNMT)において驚くほど優れた性能を示した
入力単語のサブセットに対する多言語辞書の連鎖による事前知識でLLMを拡張して翻訳能力を引き出す新しい方法であるCoDを提案する。
論文 参考訳(メタデータ) (2023-05-11T05:19:47Z) - Model-Agnostic Meta-Learning for Multilingual Hate Speech Detection [23.97444551607624]
ソーシャルメディアにおけるヘイトスピーチは増加傾向にあり、そのような有害なコンテンツを検出することが大きな牽引力となっている。
HateMAMLはモデルに依存しないメタ学習ベースのフレームワークで、低リソース言語でのヘイトスピーチ検出を効果的に行う。
大規模な実験は、8つの異なる低リソース言語にわたる5つのデータセットで実施されている。
論文 参考訳(メタデータ) (2023-03-04T22:28:29Z) - Data-Efficient Strategies for Expanding Hate Speech Detection into
Under-Resourced Languages [35.185808055004344]
殆どのヘイトスピーチデータセットは、英語のコンテンツに焦点を当てている。
より多くのデータが必要ですが、アノテータにとって有害な、憎しみのあるコンテンツは高価で時間もかかります。
我々は、ヘイトスピーチ検出を低リソース言語に拡張するためのデータ効率戦略について検討する。
論文 参考訳(メタデータ) (2022-10-20T15:49:00Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - Deep Learning Models for Multilingual Hate Speech Detection [5.977278650516324]
本稿では、16の異なるソースから9言語で多言語ヘイトスピーチを大規模に分析する。
低リソース設定では、ロジスティック回帰を用いたLASER埋め込みのような単純なモデルが最善である。
ゼロショット分類の場合、イタリア語やポルトガル語のような言語は良い結果をもたらす。
論文 参考訳(メタデータ) (2020-04-14T13:14:27Z) - On the Importance of Word Order Information in Cross-lingual Sequence
Labeling [80.65425412067464]
ソース言語の単語順に適合する言語間モデルでは、ターゲット言語を処理できない可能性がある。
本研究では,ソース言語の単語順序に敏感なモデルを作成することで,対象言語の適応性能が向上するかどうかを検討する。
論文 参考訳(メタデータ) (2020-01-30T03:35:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。