論文の概要: Sadeed: Advancing Arabic Diacritization Through Small Language Model
- arxiv url: http://arxiv.org/abs/2504.21635v1
- Date: Wed, 30 Apr 2025 13:37:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 18:39:22.203011
- Title: Sadeed: Advancing Arabic Diacritization Through Small Language Model
- Title(参考訳): Sadeed:小さな言語モデルによるアラビア語の発音の改善
- Authors: Zeina Aldallal, Sara Chrouf, Khalil Hennara, Mohamed Motaism Hamed, Muhammad Hreden, Safwan AlModhayan,
- Abstract要約: Sadeedはアラビア語の発音のための新しいデコーダのみの言語モデルである。
Sadeedは、厳格なデータクリーニングと正規化パイプラインを通じて構築された、慎重にキュレートされた高品質なダイアグラム化されたデータセットに微調整されている。
SadeedDiac-25は、さまざまなテキストジャンルや複雑性レベルに対して、より公平で包括的な評価を可能にするために設計された、新しいベンチマークである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Arabic text diacritization remains a persistent challenge in natural language processing due to the language's morphological richness. In this paper, we introduce Sadeed, a novel approach based on a fine-tuned decoder-only language model adapted from Kuwain 1.5B Hennara et al. [2025], a compact model originally trained on diverse Arabic corpora. Sadeed is fine-tuned on carefully curated, high-quality diacritized datasets, constructed through a rigorous data-cleaning and normalization pipeline. Despite utilizing modest computational resources, Sadeed achieves competitive results compared to proprietary large language models and outperforms traditional models trained on similar domains. Additionally, we highlight key limitations in current benchmarking practices for Arabic diacritization. To address these issues, we introduce SadeedDiac-25, a new benchmark designed to enable fairer and more comprehensive evaluation across diverse text genres and complexity levels. Together, Sadeed and SadeedDiac-25 provide a robust foundation for advancing Arabic NLP applications, including machine translation, text-to-speech, and language learning tools.
- Abstract(参考訳): アラビア語のテキストの辞書化は、言語の形態的豊かさのために、自然言語処理において永続的な課題である。
本稿では,Kwain 1.5B Hennara et al[2025]をベースとした細調整デコーダのみの言語モデルであるSadeedを紹介する。
Sadeedは、厳格なデータクリーニングと正規化パイプラインを通じて構築された、慎重にキュレートされた高品質なダイアグラム化されたデータセットに微調整されている。
控えめな計算資源を活用するにもかかわらず、Sadeedはプロプライエタリな大規模言語モデルに比べて競争力があり、類似のドメインで訓練された伝統的なモデルより優れている。
さらに、アラビア語のダイアログ化のための現在のベンチマークプラクティスにおける重要な制限を強調します。
これらの問題に対処するために、SadeedDiac-25を導入する。SadeedDiac-25は、さまざまなテキストジャンルや複雑性レベルに対して、より公平で包括的な評価を可能にするために設計された、新しいベンチマークである。
SadeedとSadeedDiac-25は共に、機械翻訳、テキスト音声、言語学習ツールなど、アラビア語のNLPアプリケーションを前進させるための堅牢な基盤を提供する。
関連論文リスト
- Command R7B Arabic: A Small, Enterprise Focused, Multilingual, and Culturally Aware Arabic LLM [32.99591671206201]
エンタプライズアラビアアプリケーションのための高品質な大規模言語モデル(LLM)の構築は、デジタルアラビアデータの利用が限られているため、依然として困難である。
本稿では, この問題を解決するために, 合成データ生成とヒューマン・イン・ザ・ループアノテーションを活用したデータ合成・改良戦略を提案する。
この取り組みの成果は、小規模で7Bのオープンウェイトモデルのリリースであり、同様に、頭と頭の比較やアラビアのベンチマークにおいて、同等の大きさのピアを上回っている。
論文 参考訳(メタデータ) (2025-03-18T18:03:49Z) - Resource-Aware Arabic LLM Creation: Model Adaptation, Integration, and Multi-Domain Testing [0.0]
本稿では,4GB VRAMしか持たないシステム上で,量子化低ランク適応(QLoRA)を用いたアラビア語処理のためのQwen2-1.5Bモデルを微調整する新しい手法を提案する。
Bactrian、OpenAssistant、Wikipedia Arabic corporaなどの多様なデータセットを使用して、この大きな言語モデルをアラビア語領域に適応する過程を詳述する。
1万以上のトレーニングステップの実験結果は、最終的な損失が0.1083に収束するなど、大幅なパフォーマンス向上を示している。
論文 参考訳(メタデータ) (2024-12-23T13:08:48Z) - Strategies for Arabic Readability Modeling [9.976720880041688]
自動可読性評価は、教育、コンテンツ分析、アクセシビリティのためのNLPアプリケーションの構築に関係している。
本稿では,アラビア可読性評価に関する実験結果について,多種多様なアプローチを用いて述べる。
論文 参考訳(メタデータ) (2024-07-03T11:54:11Z) - Retrieval is Accurate Generation [99.24267226311157]
本稿では,支援文書の集合からコンテキスト認識句を選択する新しい手法を提案する。
本モデルでは,検索対象のベースラインの中で,最高の性能と低レイテンシを実現する。
論文 参考訳(メタデータ) (2024-02-27T14:16:19Z) - ArabicMMLU: Assessing Massive Multitask Language Understanding in Arabic [51.922112625469836]
アラビア語における最初のマルチタスク言語理解ベンチマークである、データセット名を提案する。
我々のデータは、現代標準アラビア語(MSA)における40のタスクと14,575のマルチチョイス質問で構成されており、地域の母語話者と協調して慎重に構築されている。
35モデルについて評価した結果,特にオープンソースモデルにおいて,改善の余地がかなり高いことが判明した。
論文 参考訳(メタデータ) (2024-02-20T09:07:41Z) - AceGPT, Localizing Large Language Models in Arabic [73.39989503874634]
本稿では,アラビア語のテキストによる事前学習,ネイティブなアラビア語命令を利用したSFT(Supervised Fine-Tuning),アラビア語のGPT-4応答を含む総合的なソリューションを提案する。
目標は、文化的に認知され、価値に整合したアラビア語のLLMを、多様で応用特有のアラビア語コミュニティのニーズに適応させることである。
論文 参考訳(メタデータ) (2023-09-21T13:20:13Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Fine-Tashkeel: Finetuning Byte-Level Models for Accurate Arabic Text
Diacritization [10.342180619706724]
トークンのない事前訓練された多言語モデルを微調整し、アラビア文字に欠落したダイアクリティカルを予測し挿入することを学ぶ。
我々は,最小限の訓練量と機能工学を伴わずに,診断タスクの最先端を達成できることを実証した。
論文 参考訳(メタデータ) (2023-03-25T23:41:33Z) - Graphemic Normalization of the Perso-Arabic Script [47.429213930688086]
本稿では,ペルソ・アラビア語が最良文書言語を超えて提示する課題について述べる。
自然言語処理(NLP)の状況に注目する。
ペルソ・アラビア文字ディアスポラの多言語語族8言語に対する正規化が機械翻訳および統計言語モデリングタスクに及ぼす影響を評価する。
論文 参考訳(メタデータ) (2022-10-21T21:59:44Z) - A Transfer Learning Based Model for Text Readability Assessment in
German [4.550811027560416]
移動学習に基づくドイツ語テキストのテキスト複雑性評価のための新しいモデルを提案する。
最高のモデルはBERTの事前訓練言語モデルに基づいており、Root Mean Square Error (RMSE) は 0.483 である。
論文 参考訳(メタデータ) (2022-07-13T15:15:44Z) - No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。
何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。
本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文 参考訳(メタデータ) (2022-07-11T07:33:36Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。