論文の概要: Subasa -- Adapting Language Models for Low-resourced Offensive Language Detection in Sinhala
- arxiv url: http://arxiv.org/abs/2504.02178v1
- Date: Wed, 02 Apr 2025 23:46:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-04 12:57:08.294277
- Title: Subasa -- Adapting Language Models for Low-resourced Offensive Language Detection in Sinhala
- Title(参考訳): Subasa -- Sinhalaにおける低リソース攻撃言語検出のための適応型言語モデル
- Authors: Shanilka Haturusinghe, Tharindu Cyril Weerasooriya, Marcos Zampieri, Christopher M. Homan, S. R. Liyanage,
- Abstract要約: そこで我々は,Masked Rationale Prediction を用いた中間的事前ネットワークのステップを組み込んだ「Subasa-XLM-R」の4つのモデルを紹介した。
我々は,Sinhala攻撃言語検出のためのSOLDベンチマークデータセットを用いて,我々のモデルを評価する。
- 参考スコア(独自算出の注目度): 9.298909305675595
- License:
- Abstract: Accurate detection of offensive language is essential for a number of applications related to social media safety. There is a sharp contrast in performance in this task between low and high-resource languages. In this paper, we adapt fine-tuning strategies that have not been previously explored for Sinhala in the downstream task of offensive language detection. Using this approach, we introduce four models: "Subasa-XLM-R", which incorporates an intermediate Pre-Finetuning step using Masked Rationale Prediction. Two variants of "Subasa-Llama" and "Subasa-Mistral", are fine-tuned versions of Llama (3.2) and Mistral (v0.3), respectively, with a task-specific strategy. We evaluate our models on the SOLD benchmark dataset for Sinhala offensive language detection. All our models outperform existing baselines. Subasa-XLM-R achieves the highest Macro F1 score (0.84) surpassing state-of-the-art large language models like GPT-4o when evaluated on the same SOLD benchmark dataset under zero-shot settings. The models and code are publicly available.
- Abstract(参考訳): ソーシャルメディアの安全性に関わる多くのアプリケーションにおいて、攻撃的言語の正確な検出が不可欠である。
このタスクでは、低レベルの言語と高レベルの言語では、パフォーマンスが著しくコントラストがあります。
本稿では,攻撃的言語検出の下流タスクにおいて,これまでSinhalaに対して検討されていなかった微調整戦略を適用した。
提案手法では,Masked Rationale Prediction を用いた中間的事前ネットワークのステップを組み込んだ「Subasa-XLM-R」の4つのモデルを提案する。
Subasa-Llama" と "Subasa-Mistral" の2つの変種は、それぞれ、タスク固有の戦略を備えたLlama (3.2) と Mistral (v0.3) の微調整版である。
我々は,Sinhala攻撃言語検出のためのSOLDベンチマークデータセットを用いて,我々のモデルを評価する。
私たちのモデルは、すべて既存のベースラインを上回っています。
Subasa-XLM-Rは、ゼロショット設定で同じSOLDベンチマークデータセットで評価した場合、GPT-4oのような最先端の大規模言語モデルよりも高いマクロF1スコア(0.84)を達成する。
モデルとコードは公開されています。
関連論文リスト
- Pre-training a Transformer-Based Generative Model Using a Small Sepedi Dataset [0.5530212768657544]
南アフリカのいくつかのリソースから得られたSepedi monolingual(SepMono)データセットと、ラジオニュースドメインからのSepedi Radio News(SepNews)データセットを使用します。
以上の結果から,非閉塞モデルの方が,検証損失とパープレキシティの測定において,オクルージョンベースモデルよりも優れた性能を示した。
論文 参考訳(メタデータ) (2025-01-25T17:25:06Z) - Challenges in Adapting Multilingual LLMs to Low-Resource Languages using LoRA PEFT Tuning [0.4194295877935868]
本研究では,ローランド適応 (LoRA) -高効率ファインチューニング (PEFT) がマラウイの多言語Gemmaモデルに及ぼす影響について検討した。
52,000対の命令応答対を持つ翻訳データセットを用いて、評価結果が微調整後に低下する一方で、手動による評価では、微調整されたモデルが元のモデルよりも優れていることがしばしば示唆されている。
論文 参考訳(メタデータ) (2024-11-27T18:14:38Z) - How to Learn a New Language? An Efficient Solution for Self-Supervised Learning Models Unseen Languages Adaption in Low-Resource Scenario [72.02391485962127]
音声認識(ASR)における音声自己監視学習(SSL)モデルの性能向上
低リソース言語 ASR では、事前訓練された言語と低リソース言語のドメインミスマッチ問題に遭遇する。
これらの問題に対処するためのアダプタに基づく従来型の効率的な微調整手法を拡張した。
論文 参考訳(メタデータ) (2024-11-27T10:51:00Z) - Less is More: Making Smaller Language Models Competent Subgraph Retrievers for Multi-hop KGQA [51.3033125256716]
本研究では,小言語モデルで処理される条件生成タスクとして,サブグラフ検索タスクをモデル化する。
2億2千万のパラメータからなる基本生成部分グラフ検索モデルでは,最先端モデルと比較して競合検索性能が向上した。
LLMリーダを接続した最大の3Bモデルは、WebQSPとCWQベンチマークの両方で、SOTAのエンドツーエンドパフォーマンスを新たに設定します。
論文 参考訳(メタデータ) (2024-10-08T15:22:36Z) - ML-SUPERB 2.0: Benchmarking Multilingual Speech Models Across Modeling Constraints, Languages, and Datasets [106.7760874400261]
本稿では、事前訓練されたSSLと教師付き音声モデルを評価するための新しいベンチマークであるML-SUPERB2.0を提案する。
ML-SUPERBのセットアップよりも性能が向上するが、性能は下流モデル設計に依存している。
また、言語とデータセットのパフォーマンスに大きな違いがあることから、よりターゲットを絞ったアプローチの必要性も示唆されている。
論文 参考訳(メタデータ) (2024-06-12T21:01:26Z) - Data-Augmentation-Based Dialectal Adaptation for LLMs [26.72394783468532]
本稿では, GMUNLPによるVarDial 2024におけるDialect-Copa共有タスクへの参加について述べる。
この課題は、南スラヴ語のマイクロディレクト上での大規模言語モデル(LLM)の常識推論能力を評価することに焦点を当てている。
本稿では,異なるタイプの言語モデルの強みを組み合わせ,データ拡張技術を活用してタスク性能を向上させる手法を提案する。
論文 参考訳(メタデータ) (2024-04-11T19:15:32Z) - Machine Translation for Ge'ez Language [0.0]
Ge'ezのような低リソース言語の機械翻訳は、語彙外単語、ドメインミスマッチ、ラベル付きトレーニングデータの欠如といった課題に直面している。
言語関連性に基づく多言語ニューラルマシン翻訳(MNMT)モデルを開発した。
また,最新のLCMであるGPT-3.5を用いて,ファジィマッチングを用いた数ショット翻訳実験を行った。
論文 参考訳(メタデータ) (2023-11-24T14:55:23Z) - An Open Dataset and Model for Language Identification [84.15194457400253]
マクロ平均F1スコア0.93、偽陽性率0.033を201言語で達成するLIDモデルを提案する。
モデルとデータセットの両方を研究コミュニティに公開しています。
論文 参考訳(メタデータ) (2023-05-23T08:43:42Z) - mFACE: Multilingual Summarization with Factual Consistency Evaluation [79.60172087719356]
抽象的な要約は、事前訓練された言語モデルと大規模データセットの可用性のおかげで、近年で新たな関心を集めている。
有望な結果にもかかわらず、現在のモデルはいまだに現実的に矛盾した要約を生み出すことに苦しむ。
事実整合性評価モデルを利用して、多言語要約を改善する。
論文 参考訳(メタデータ) (2022-12-20T19:52:41Z) - A Generative Language Model for Few-shot Aspect-Based Sentiment Analysis [90.24921443175514]
我々は、アスペクト項、カテゴリを抽出し、対応する極性を予測するアスペクトベースの感情分析に焦点を当てる。
本稿では,一方向の注意を伴う生成言語モデルを用いて,抽出タスクと予測タスクをシーケンス生成タスクに再構成することを提案する。
提案手法は,従来の最先端(BERTをベースとした)の性能を,数ショットとフルショットの設定において,大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-04-11T18:31:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。