論文の概要: Fine-Tuning Large Language Models with QLoRA for Offensive Language Detection in Roman Urdu-English Code-Mixed Text
- arxiv url: http://arxiv.org/abs/2510.03683v1
- Date: Sat, 04 Oct 2025 05:38:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.192171
- Title: Fine-Tuning Large Language Models with QLoRA for Offensive Language Detection in Roman Urdu-English Code-Mixed Text
- Title(参考訳): ローマ語ウルドゥー語混在テキストにおける攻撃言語検出のためのQLoRAを用いた微調整大言語モデル
- Authors: Nisar Hussain, Amna Qasim, Gull Mehak, Muhammad Zain, Momina Hafeez, Grigori Sidorov,
- Abstract要約: ローマ・ウルドゥー語文における攻撃的言語検出を改善するためのQLoRAに基づく微調整フレームワークを提案する。
ローマ・ウルドゥー語と英語の混成データセットをGoogle Translateを使って英語に翻訳し、英語のLLMを活用する。
私たちはMeta LLaMA 3 8B、Mistral 7B v0.1、LLaMA 2 7B、ModernBERT、RoBERTaなど、いくつかのトランスフォーマーと大規模言語モデルを微調整した。
- 参考スコア(独自算出の注目度): 5.908448629364552
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The use of derogatory terms in languages that employ code mixing, such as Roman Urdu, presents challenges for Natural Language Processing systems due to unstated grammar, inconsistent spelling, and a scarcity of labeled data. In this work, we propose a QLoRA based fine tuning framework to improve offensive language detection in Roman Urdu-English text. We translated the Roman Urdu-English code mixed dataset into English using Google Translate to leverage English LLMs, while acknowledging that this translation reduces direct engagement with code mixing features. Our focus is on classification performance using English translated low resource inputs. We fine tuned several transformers and large language models, including Meta LLaMA 3 8B, Mistral 7B v0.1, LLaMA 2 7B, ModernBERT, and RoBERTa, with QLoRA for memory efficient adaptation. Models were trained and evaluated on a manually annotated Roman Urdu dataset for offensive vs non offensive content. Of all tested models, the highest F1 score of 91.45 was attained by Meta LLaMA 3 8B, followed by Mistral 7B at 89.66, surpassing traditional transformer baselines. These results demonstrate the efficacy of QLoRA in fine tuning high performing models for low resource environments such as code mixed offensive language detection, and confirm the potential of LLMs for this task. This work advances a scalable approach to Roman Urdu moderation and paves the way for future multilingual offensive detection systems based on LLMs.
- Abstract(参考訳): ローマ・ウルドゥー(英語版)のようなコードミキシングを用いる言語における軽蔑語の使用は、未定の文法、一貫性のない綴り、ラベル付きデータの不足による自然言語処理システムの課題を提示している。
本研究では,ローマ・ウルドゥー語文における攻撃的言語検出を改善するためのQLoRAに基づく微調整フレームワークを提案する。
我々は、英語のLLMを活用するために、Google Translateを使って、ローマ・ウルドゥー語と英語の混合データセットを英語に翻訳した。
我々の焦点は、英語で翻訳された低リソース入力を用いた分類性能である。
メモリ効率向上のためのQLoRAを用いて,Meta LLaMA 3 8B,Mistral 7B v0.1,LLaMA 2 7B,ModernBERT,RoBERTaなどのトランスフォーマーと大規模言語モデルを微調整した。
モデルは、攻撃的対非攻撃的コンテンツのために、手動で注釈付けされたローマのウルドゥーデータセットで訓練され、評価された。
テストされた全てのモデルの中で、91.45の最高スコアはMeta LLaMA 3 8Bで達成され、続いてMistral 7Bは89.66で従来のトランスフォーマーベースラインを上回った。
これらの結果から,コード混合攻撃言語検出などの低資源環境における高性能モデルの微調整におけるQLoRAの有効性を示し,この課題に対するLLMの可能性を確認した。
この研究は、ローマン・ウルドゥー・モデレーションへのスケーラブルなアプローチを推進し、将来のLLMに基づく多言語攻撃検知システムへの道を開く。
関連論文リスト
- Utilizing Multilingual Encoders to Improve Large Language Models for Low-Resource Languages [4.702593857707973]
LLM(Large Language Models)は英語では優れているが、その性能は低リソース言語(LRL)では英語中心の訓練によって著しく低下する。
本稿では,全ての中間層を融合させ,LLMに渡される言語情報を豊かにする新しいアーキテクチャを提案する。
我々はLRLの性能向上を強く観察し、シンハラ分類の精度を71.66%から75.86%に改善し、タミル語、ベンガル語、マラヤラム語などのインド語言語で明らかに改善した。
論文 参考訳(メタデータ) (2025-08-12T17:17:13Z) - Extrapolating Large Language Models to Non-English by Aligning Languages [109.09051737966178]
既存の大きな言語モデルは、異なる言語間で異なる能力を示す。
本稿では,言語間のセマンティックアライメントを構築することで,英語以外の言語に事前学習したLLMを強化する。
論文 参考訳(メタデータ) (2023-08-09T13:32:06Z) - Chain-of-Dictionary Prompting Elicits Translation in Large Language Models [100.47154959254937]
大規模言語モデル(LLM)は多言語ニューラルマシン翻訳(MNMT)において驚くほど優れた性能を示した
入力単語のサブセットに対する多言語辞書の連鎖による事前知識でLLMを拡張して翻訳能力を引き出す新しい方法であるCoDを提案する。
論文 参考訳(メタデータ) (2023-05-11T05:19:47Z) - Does Transliteration Help Multilingual Language Modeling? [0.0]
多言語言語モデルに対する音訳の効果を実証的に測定する。
私たちは、世界で最もスクリプトの多様性が高いIndic言語にフォーカスしています。
比較的高いソースコード言語に悪影響を及ぼすことなく、低リソース言語にトランスリテラゼーションが有効であることに気付きました。
論文 参考訳(メタデータ) (2022-01-29T05:48:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。