論文の概要: Syllabic Agglutinative Tokenizations for Indonesian LLM: A Study from Gasing Literacy Learning System
- arxiv url: http://arxiv.org/abs/2601.11643v1
- Date: Wed, 14 Jan 2026 17:47:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.244719
- Title: Syllabic Agglutinative Tokenizations for Indonesian LLM: A Study from Gasing Literacy Learning System
- Title(参考訳): インドネシア LLM における音節的凝集性トークン化:ガスリテラシー学習システムによる検討
- Authors: H. Situngkir, A. B. Lumbantobing, Y. Surya,
- Abstract要約: 本稿では,インドネシアの大規模言語モデルに対する新しい音節ベースのトークン化手法を提案する。
我々は,バイトペア符号化を適用する前に,インドネシア語のテキストを音節境界で分割するトークン化フレームワークを開発した。
まずルールベースセグメンテーションを用いて高周波音節を同定し,3500個のトークンからなるコンパクトな語彙を構築する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a novel syllable-based tokenization approach for Indonesian large language models, inspired by the Gasing Literacy Learning System's pedagogical methodology. Drawing on information-theoretic principles, we develop a tokenization framework that segments Indonesian text at syllable boundaries before applying byte-pair encoding, creating a vocabulary that aligns with the language's morphophonological structure. Our approach first identifies high-frequency syllables through rule-based segmentation, then constructs a compact vocabulary of 3,500 tokens that preserves meaningful linguistic units while maintaining coverage through character-level fallback. Empirical evaluation on Indonesian Wikipedia and folklore corpora from Indonesian Culture Digital Library (PDBI) demonstrates substantial improvements over conventional tokenization methods: the syllable-based approach achieves Rényi efficiency of 0.74 compared to 0.50-0.64 for pretrained multilingual tokenizers, while maintaining higher average token lengths (3.67 characters versus 2.72 for GPT-2) despite using a vocabulary an order of magnitude smaller. These gains emerge from the method's ability to internalize character-level dependencies within syllable units, reducing the computational burden on language models while respecting Indonesian's agglutinative morphology. We call the LLM built upon this principle, TOBA LLM (Tokenisasi Optimum Berbasis Aglutinasi), the convergence of human literacy pedagogy with computational optimization principles offers a promising paradigm for developing linguistically-informed tokenization strategies, particularly for morphologically rich and underrepresented languages in natural language processing.
- Abstract(参考訳): 本稿では,ガジンリテラシー学習システムの教育的手法にインスパイアされた,インドネシアの大規模言語モデルのための新しい音節ベースのトークン化手法を提案する。
情報理論の原則に基づいて,インドネシア語のテキストを音節境界に分割し,バイトペアエンコーディングを適用し,言語の形態的構造に整合した語彙を生成するトークン化フレームワークを開発した。
提案手法はまずルールベースセグメンテーションにより高周波音節を識別し,文字レベルのフォールバックによるカバレッジを維持しつつ意味のある言語単位を保存する3500のトークンからなるコンパクトな語彙を構築する。
インドネシアのウィキペディアとインドネシアの文化デジタル図書館(PDBI)の民俗コーパスに関する実証的な評価は、従来のトークン化手法よりも大幅に改善されている。
これらの利点は、音節単位内で文字レベルの依存関係を内部化する手法の能力から生まれ、インドネシアの凝集形態を尊重しながら言語モデルに対する計算負担を減少させる。
この原理に基づいて構築された LLM を TOBA LLM (Tokenisasi Optimum Berbasis Aglutinasi) と呼び、人間のリテラシー教育と計算最適化の原則の融合は、言語学的にインフォームドされたトークン化戦略、特に自然言語処理における形態学的にリッチで表現不足な言語を開発する上で有望なパラダイムを提供する。
関連論文リスト
- Tokens with Meaning: A Hybrid Tokenization Approach for NLP [0.2826977330147589]
自然言語処理(NLP)におけるトークン化の役割
規則に基づく形態素解析と統計的サブワードセグメンテーションを組み合わせたハイブリッドトークン化フレームワークを提案する。
本手法は, 音韻正規化, ルートアフィックス, および形態素保存と語彙効率のバランスをとる新しいアルゴリズムを用いる。
論文 参考訳(メタデータ) (2025-08-19T22:17:42Z) - Doğal Dil İşlemede Tokenizasyon Standartları ve Ölçümü: Türkçe Üzerinden Büyük Dil Modellerinin Karşılaştırmalı Analizi [0.29687381456163997]
本研究では,トルコ語などの形態学的に豊かな低リソース言語に特有なトークン化問題に対処する新たな評価フレームワークを提案する。
我々は,語彙サイズ,トークン数,処理時間,言語固有のトークンパーセンテージ(%TR),トークン純度(%Pure)に基づいてトークン化器の評価を行った。
分析の結果,言語固有のトークンパーセンテージは,トークン純度よりも下流のパフォーマンス(MMLUスコアなど)との相関が強いことが明らかとなった。
論文 参考訳(メタデータ) (2025-08-18T16:26:42Z) - Enhancing Multilingual ASR for Unseen Languages via Language Embedding Modeling [50.62091603179394]
最も先進的なASRモデルの1つであるWhisperは99の言語を効果的に扱う。
しかし、ウィスパーは未確認の言語と戦っているが、それらは事前訓練には含まれていない。
本研究では,これらの関係を利用して未知言語上でのASR性能を向上させる手法を提案する。
論文 参考訳(メタデータ) (2024-12-21T04:05:43Z) - A Novel Cartography-Based Curriculum Learning Method Applied on RoNLI: The First Romanian Natural Language Inference Corpus [71.77214818319054]
自然言語推論は自然言語理解のプロキシである。
ルーマニア語のNLIコーパスは公開されていない。
58Kの訓練文対からなるルーマニア初のNLIコーパス(RoNLI)を紹介する。
論文 参考訳(メタデータ) (2024-05-20T08:41:15Z) - How Important Is Tokenization in French Medical Masked Language Models? [7.866517623371908]
自然言語処理(NLP)分野において,サブワードトークン化が主流となっている。
本稿では,フランス生物医学領域におけるサブワードトークン化の複雑さを,多種多様なNLPタスクにまたがって探究する。
従来のトークン化手法に形態素に富んだ単語セグメンテーションを統合するオリジナルトークン化戦略を導入する。
論文 参考訳(メタデータ) (2024-02-22T23:11:08Z) - Multi-level Contrastive Learning for Cross-lingual Spoken Language
Understanding [90.87454350016121]
コントラスト学習のための難解なサンプルを, あらゆるレベルで生成するコードスイッチング手法を開発した。
言語間知識伝達にラベルセマンティクスを利用するラベル認識ジョイントモデルを開発した。
論文 参考訳(メタデータ) (2022-05-07T13:44:28Z) - SLM: Learning a Discourse Language Representation with Sentence
Unshuffling [53.42814722621715]
談話言語表現を学習するための新しい事前学習目的である文レベル言語モデリングを導入する。
本モデルでは,この特徴により,従来のBERTの性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2020-10-30T13:33:41Z) - A Hybrid Approach to Dependency Parsing: Combining Rules and Morphology
with Deep Learning [0.0]
本稿では,特に訓練データ量に制限のある言語に対して,依存関係解析の2つのアプローチを提案する。
第1のアプローチは、最先端のディープラーニングとルールベースのアプローチを組み合わせ、第2のアプローチは、形態情報をネットワークに組み込む。
提案手法はトルコ語向けに開発されたが、他の言語にも適用可能である。
論文 参考訳(メタデータ) (2020-02-24T08:34:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。