論文の概要: Saudi-Dialect-ALLaM: LoRA Fine-Tuning for Dialectal Arabic Generation
- arxiv url: http://arxiv.org/abs/2508.13525v1
- Date: Tue, 19 Aug 2025 05:33:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-20 15:36:31.804737
- Title: Saudi-Dialect-ALLaM: LoRA Fine-Tuning for Dialectal Arabic Generation
- Title(参考訳): サウジ・ディアレクター・アラーM:ロラファインチューニングによるアラビア語の方言生成
- Authors: Hassan Barmandah,
- Abstract要約: アラビア語の大きな言語モデル(LLM)は現代標準アラビア語(MSA)に支配されている。
この表現不足は、真正な方言の変化を捉える能力を妨げている。
サウジアラビア方言教育データセットを用いて,サウジアラビア方言生成の基礎モデルを構築した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) for Arabic are still dominated by Modern Standard Arabic (MSA), with limited support for Saudi dialects such as Najdi and Hijazi. This underrepresentation hinders their ability to capture authentic dialectal variation. Using a privately curated Saudi Dialect Instruction dataset (Hijazi and Najdi; 5,466 synthetic instruction-response pairs; 50/50 split), we LoRA-tune ALLaM-7B-Instruct-preview, the first foundation model developed in Saudi Arabia, for Saudi dialect generation. We investigate two variants: (i) Dialect-Token training, which prepends an explicit dialect tag to the instruction, and (ii) No-Token training, which omits the tag at formatting time. Evaluation on a held-out test set combines an external dialect classifier with text fidelity metrics (chrF++ and BERTScore) and diversity measures. The Dialect-Token model achieves the best control, raising the Saudi rate from 47.97% to 84.21% and reducing MSA leakage from 32.63% to 6.21%; fidelity also improves (chrF++ +3.53, BERTScore +0.059). Both LoRA variants outperform strong generic instruction models (Falcon-7B-Instruct, Llama-3.1-8B-Instruct, Qwen-2.5-7B-Instruct, AceGPT-v2-8B-Chat, JAIS-13B-Chat) in dialect control and fidelity, while avoiding metadata-tag echoing that these baselines frequently exhibit. We do not release the dataset or any model weights/adapters; instead, we release training/evaluation/inference code and a detailed datasheet (schema and aggregate statistics) to support independent verification.
- Abstract(参考訳): アラビア語の大きな言語モデル(LLM)は現代標準アラビア語(MSA)に支配されており、ナジュディ語やヒジャジ語のようなサウジアラビアの方言を限定的にサポートしている。
この表現不足は、真正な方言の変化を捉える能力を妨げている。
サウジアラビアで最初に開発された基礎モデルであるLoRA-tune ALLaM-7B-Instruct-previewを用いてサウジアラビアの方言を生成させた。
2つの変種について検討する。
一 指示に明示的な方言タグを付与する方言訓練、及び
(ii)フォーマット時にタグを省略するノートークントレーニング。
ホールドアウトテストセットの評価は、外部方言分類器とテキスト忠実度指標(chrF++とBERTScore)と多様性尺度を組み合わせたものである。
Dialect-Tokenモデルでは、サウジアラビアのレートを47.97%から84.21%に引き上げ、MSAリークを32.63%から6.21%に下げ、フィデリティも改善されている(chrF++ +3.53, BERTScore +0.059)。
両方のLoRA変種は、方言制御と忠実度において強い汎用的命令モデル(Falcon-7B-インストラクト、Llama-3.1-8B-インストラクト、Qwen-2.5-7B-インストラクト、AceGPT-v2-8B-Chat、JAIS-13B-Chat)より優れており、これらのベースラインが頻繁に現れるメタデータタグのエコーを回避している。
データセットやモデルウェイト/アダプタはリリースせず、独立した検証をサポートするためにトレーニング/評価/推論コードと詳細なデータシート(スキーマと集計統計)をリリースします。
関連論文リスト
- Doing More with Less: Data Augmentation for Sudanese Dialect Automatic Speech Recognition [0.0]
本稿では,OpenAI Whisperモデルを微調整するためのデータ拡張手法について述べる。
スーダン方言の最初のベンチマークを確立している。
論文 参考訳(メタデータ) (2026-01-11T08:28:31Z) - DialectalArabicMMLU: Benchmarking Dialectal Capabilities in Arabic and Multilingual Language Models [54.10223256792762]
アラビア方言における大規模言語モデル(LLM)の性能評価のための新しいベンチマークであるDialectalArabicMMLUを提案する。
MMLU-Redux フレームワークを手動で翻訳し、3K 個の質問応答対を5つの主要な方言に適応することで拡張する。
論文 参考訳(メタデータ) (2025-10-31T15:17:06Z) - DialectGen: Benchmarking and Improving Dialect Robustness in Multimodal Generation [111.94720088481614]
多モーダル生成モデルは方言テキスト入力を効果的に生成できるのか?
6つの共通英語方言にまたがる大規模ベンチマークを構築した。
マルチモーダル生成モデルのための一般的なエンコーダに基づく緩和戦略を設計する。
論文 参考訳(メタデータ) (2025-10-16T17:56:55Z) - Hala Technical Report: Building Arabic-Centric Instruction & Translation Models at Scale [51.41777906371754]
私たちはHalaを紹介します。これはアラビア語中心の命令と翻訳モデルのファミリーで、私たちのトランスレーショナル・トゥン・パイプラインで構築されています。
軽量言語モデル LFM2-1.2B は、このデータに基づいて微調整され、高品質の英語の命令セットをアラビア語に翻訳するために使用される。
我々は、Halaモデルを350M、700M、1.2B、9Bパラメータでトレーニングし、アラビア語の特殊化とベースモデルの強度のバランスをとるためにスラープマージを適用します。
論文 参考訳(メタデータ) (2025-09-17T14:19:28Z) - UI-Level Evaluation of ALLaM 34B: Measuring an Arabic-Centric LLM via HUMAIN Chat [1.2788586581322734]
サウジのデータとAI機関は、アラビアに焦点を当てたモデルのファミリーである$allaM$を導入した。
最も有能な$ALLaM-34B$は、HUMAIN Chatを開発したHUMAINによって採用された。
本稿では,拡張されたUIレベルの$ALLaM-34B$について述べる。
論文 参考訳(メタデータ) (2025-08-24T14:32:15Z) - Arabic Dialect Classification using RNNs, Transformers, and Large Language Models: A Comparative Analysis [0.0]
アラビア語は世界でも最も人気のある言語の一つであり、22か国で話される方言が多種多様である。
本研究では、アラビア語のツイートのQADIデータセットの18のアラビア方言を分類する問題に対処する。
このうち、MARBERTv2は65%の精度、64%のF1スコアで最高の成績を収めた。
論文 参考訳(メタデータ) (2025-06-24T16:06:58Z) - Second Language (Arabic) Acquisition of LLMs via Progressive Vocabulary Expansion [70.23624194206171]
本稿では,アラブ世界における大規模言語モデル(LLM)の民主化の必要性に対処する。
アラビア語のLLMの実用的な目的の1つは、復号を高速化するトークン化器にアラビア語固有の語彙を使用することである。
第二言語(アラビア語)による人への獲得の間に語彙学習に触発されたAraLLaMAは、進歩的な語彙拡張を採用している。
論文 参考訳(メタデータ) (2024-12-16T19:29:06Z) - AlcLaM: Arabic Dialectal Language Model [2.8477895544986955]
ソーシャルメディアプラットフォームから収集した340万文からなるアラビア語方言コーパスを構築した。
我々はこのコーパスを用いて語彙を拡大し、BERTベースのモデルをスクラッチから再訓練する。
AlcLaMという名前の私たちのモデルは、既存のモデルで使われているデータのごく一部を表す、わずか13GBのテキストで訓練された。
論文 参考訳(メタデータ) (2024-07-18T02:13:50Z) - ArabicMMLU: Assessing Massive Multitask Language Understanding in Arabic [51.922112625469836]
アラビア語における最初のマルチタスク言語理解ベンチマークである、データセット名を提案する。
我々のデータは、現代標準アラビア語(MSA)における40のタスクと14,575のマルチチョイス質問で構成されており、地域の母語話者と協調して慎重に構築されている。
35モデルについて評価した結果,特にオープンソースモデルにおいて,改善の余地がかなり高いことが判明した。
論文 参考訳(メタデータ) (2024-02-20T09:07:41Z) - ALDi: Quantifying the Arabic Level of Dialectness of Text [17.37857915257019]
我々は、アラビア語話者が方言のスペクトルを知覚し、文レベルでアラビア方言レベル(ALDi)として機能すると主張している。
AOC-ALDiの詳細な分析を行い、訓練したモデルが他のコーパスの方言のレベルを効果的に識別できることを示す。
論文 参考訳(メタデータ) (2023-10-20T18:07:39Z) - AceGPT, Localizing Large Language Models in Arabic [73.39989503874634]
本稿では,アラビア語のテキストによる事前学習,ネイティブなアラビア語命令を利用したSFT(Supervised Fine-Tuning),アラビア語のGPT-4応答を含む総合的なソリューションを提案する。
目標は、文化的に認知され、価値に整合したアラビア語のLLMを、多様で応用特有のアラビア語コミュニティのニーズに適応させることである。
論文 参考訳(メタデータ) (2023-09-21T13:20:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。