論文の概要: chDzDT: Word-level morphology-aware language model for Algerian social media text
- arxiv url: http://arxiv.org/abs/2509.01772v1
- Date: Mon, 01 Sep 2025 21:09:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.838736
- Title: chDzDT: Word-level morphology-aware language model for Algerian social media text
- Title(参考訳): chDzDT:アルジェリア語ソーシャルメディアテキストのための単語レベル形態認識言語モデル
- Authors: Abdelkrime Aries,
- Abstract要約: chDzDT(chDzDT)は、アルジェリア語の形態に合わせた文字レベルの事前訓練言語モデルである。
トークン境界や標準化された正書法に依存することなく、孤立した単語で訓練される。
複数のスクリプトと言語的バリエーションをカバーしており、結果としてかなりの事前学習の作業負荷が生じる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Pre-trained language models (PLMs) have substantially advanced natural language processing by providing context-sensitive text representations. However, the Algerian dialect remains under-represented, with few dedicated models available. Processing this dialect is challenging due to its complex morphology, frequent code-switching, multiple scripts, and strong lexical influences from other languages. These characteristics complicate tokenization and reduce the effectiveness of conventional word- or subword-level approaches. To address this gap, we introduce chDzDT, a character-level pre-trained language model tailored for Algerian morphology. Unlike conventional PLMs that rely on token sequences, chDzDT is trained on isolated words. This design allows the model to encode morphological patterns robustly, without depending on token boundaries or standardized orthography. The training corpus draws from diverse sources, including YouTube comments, French, English, and Berber Wikipedia, as well as the Tatoeba project. It covers multiple scripts and linguistic varieties, resulting in a substantial pre-training workload. Our contributions are threefold: (i) a detailed morphological analysis of Algerian dialect using YouTube comments; (ii) the construction of a multilingual Algerian lexicon dataset; and (iii) the development and extensive evaluation of a character-level PLM as a morphology-focused encoder for downstream tasks. The proposed approach demonstrates the potential of character-level modeling for morphologically rich, low-resource dialects and lays a foundation for more inclusive and adaptable NLP systems.
- Abstract(参考訳): 事前学習された言語モデル(PLM)は、文脈に敏感なテキスト表現を提供することにより、かなり高度な自然言語処理を持つ。
しかし、アルジェリア方言はいまだに表現されていないが、限定的なモデルはほとんど存在しない。
複雑な形態、頻繁なコードスイッチ、複数のスクリプト、他の言語からの強い語彙の影響により、この方言の処理は困難である。
これらの特徴はトークン化を複雑化し、従来の単語やサブワードレベルのアプローチの有効性を低下させる。
このギャップに対処するために、アルジェ語形態に合わせた文字レベルの事前学習言語モデルであるchDzDTを導入する。
トークンシーケンスに依存する従来のPLMとは異なり、chDzDTは孤立した単語で訓練される。
この設計により、トークン境界や標準化された正書法に依存することなく、形態素パターンを堅牢に符号化することができる。
トレーニングコーパスは、YouTubeコメント、フランス語、英語、バーバーウィキペディア、およびTatoebaプロジェクトなど、さまざまなソースから作成されている。
複数のスクリプトと言語的バリエーションをカバーしており、結果としてかなりの事前学習の作業負荷が生じる。
私たちの貢献は3倍です。
i) YouTubeコメントを用いたアルジェ方言の詳細な形態解析
(二)多言語アルジェリア辞書データセットの構築、及び
三 下流タスクのための形態に着目したエンコーダとしての文字レベルPLMの開発と広範囲な評価。
提案手法は, 形態的にリッチで低リソースな方言に対する文字レベルモデリングの可能性を示し, より包括的で適応可能なNLPシステムの基礎を築いた。
関連論文リスト
- Resource-Aware Arabic LLM Creation: Model Adaptation, Integration, and Multi-Domain Testing [0.0]
本稿では,4GB VRAMしか持たないシステム上で,量子化低ランク適応(QLoRA)を用いたアラビア語処理のためのQwen2-1.5Bモデルを微調整する新しい手法を提案する。
Bactrian、OpenAssistant、Wikipedia Arabic corporaなどの多様なデータセットを使用して、この大きな言語モデルをアラビア語領域に適応する過程を詳述する。
1万以上のトレーニングステップの実験結果は、最終的な損失が0.1083に収束するなど、大幅なパフォーマンス向上を示している。
論文 参考訳(メタデータ) (2024-12-23T13:08:48Z) - Tokenization and Morphology in Multilingual Language Models: A Comparative Analysis of mT5 and ByT5 [4.779196219827507]
トークン化の影響を、mT5とByT5という2つの多言語言語モデルと対比して捉えた。
4つのタスクと17の言語でこれらのモデルに符号化された形態学的知識を解析した結果、モデルが他の言語よりも優れた形態学系を学習していることが判明した。
論文 参考訳(メタデータ) (2024-10-15T14:14:19Z) - Explicit Morphological Knowledge Improves Pre-training of Language
Models for Hebrew [19.4968960182412]
事前学習フェーズに明示的な形態的知識を組み込むことで、形態学的に豊かな言語に対するPLMの性能を向上させることができるという仮説を考察する。
本研究では, モデルが生テキスト以外の形態的手がかりを活用できるように, 様々な形態的トークン化手法を提案する。
実験により, 形態素によるトークン化は, 標準言語に依存しないトークン化と比較して, 改良された結果を示すことが示された。
論文 参考訳(メタデータ) (2023-11-01T17:02:49Z) - Post-hoc analysis of Arabic transformer models [20.741730718486032]
我々は、アラビア語の異なる方言で訓練されたトランスフォーマーモデルにおいて、言語情報がどのようにコード化されているかを探る。
アラビア語の異なる方言に対する形態的タグ付けタスクと方言識別タスクを用いて、モデル上で層とニューロン分析を行う。
論文 参考訳(メタデータ) (2022-10-18T16:53:51Z) - Revisiting Language Encoding in Learning Multilingual Representations [70.01772581545103]
言語埋め込みを置き換えるクロスリンガル言語投影(Cross-lingual Language Projection, XLP)と呼ばれる新しいアプローチを提案する。
XLPは単語埋め込みを言語固有の意味空間に投影し、投影された埋め込みはTransformerモデルに供給される。
実験により、xlpは広範囲の多言語ベンチマークデータセットのモデル性能を自由かつ著しく向上できることが示された。
論文 参考訳(メタデータ) (2021-02-16T18:47:10Z) - What does it mean to be language-agnostic? Probing multilingual sentence
encoders for typological properties [17.404220737977738]
最先端の多言語エンコーダから文表現を探索する手法を提案する。
本研究は,異なる事前学習戦略に関連する言語変化の符号化における興味深い違いを示す。
論文 参考訳(メタデータ) (2020-09-27T15:00:52Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z) - A Simple Joint Model for Improved Contextual Neural Lemmatization [60.802451210656805]
本稿では,20言語で最先端の成果を得られる,単純結合型ニューラルモデルを提案する。
本論文では,トレーニングと復号化に加えて,本モデルについて述べる。
論文 参考訳(メタデータ) (2019-04-04T02:03:19Z) - Cross-lingual, Character-Level Neural Morphological Tagging [57.0020906265213]
文字レベルのリカレントなニューラルタグをトレーニングし、高リソース言語と低リソース言語を併用して形態的タグ付けを予測する。
複数の関連言語間の共同文字表現の学習は、高リソース言語から低リソース言語への知識伝達を成功させ、モノリンガルモデルの精度を最大30%向上させる。
論文 参考訳(メタデータ) (2017-08-30T08:14:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。