論文の概要: Tokenizations for Austronesian Language Models: study on languages in Indonesia Archipelago
- arxiv url: http://arxiv.org/abs/2602.06998v1
- Date: Wed, 28 Jan 2026 14:02:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-22 11:54:44.167548
- Title: Tokenizations for Austronesian Language Models: study on languages in Indonesia Archipelago
- Title(参考訳): オーストロネシア語モデルのためのトークン化:インドネシア諸島の言語に関する研究
- Authors: Andhika Bernard Lumbantobing, Hokky Situngkir,
- Abstract要約: 本研究の目的は,インドネシアの地域言語に対する伝統的なインドネシア文字(aksara)の原則を取り入れた音節ベースのトークン化フレームワークを開発することである。
インドネシア語と英語の10言語にまたがる1,000の並列翻訳サンプルからなるNusaXデータセットを用いて評価を行った。
その結果、音節ベースのトークン化はすべての地域言語で一貫したTPC値を示し、GPT-2は英語で最低のTPCを持つ逆パターンを示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tokenization constitutes a fundamental stage in Large Language Model (LLM) processing; however, subword-based tokenization methods optimized on English-dominant corpora may produce token fragmentation misaligned with the linguistic structures of Austronesian languages. This study aimed to develop a syllable-based tokenization framework adopting principles from traditional Indonesian scripts (aksara) for regional languages of Indonesia. A syllabic segmentation procedure was constructed based on the logic of abugida writing systems and implemented with a vocabulary of 2,843 tokens extracted from the Indonesian dictionary (KBBI). Evaluation was conducted on the NusaX dataset comprising 1,000 parallel translation samples across 10 regional languages, Indonesian, and English. Analysis employed Token per Character (TPC) ratio and sequence alignment using the Smith-Waterman algorithm. Results demonstrated that syllable-based tokenization yielded consistent TPC values across all regional languages, whereas GPT-2 exhibited an inverse pattern with the lowest TPC for English. Syllable-based tokenization consistently produced higher token sequence similarity scores, with an average increase of approximately 21% compared to GPT-2. These findings confirm that the syllable-based approach more effectively preserves phonological and morphological patterns across related Austronesian languages, offering a linguistically principled foundation for multilingual LLM development.
- Abstract(参考訳): トークン化は、Large Language Model (LLM) 処理の基本的な段階を構成するが、英語に支配されるコーパスに最適化されたサブワードベースのトークン化手法は、オーストロネシア語の言語構造と誤ってトークンの断片化を生じさせる可能性がある。
本研究の目的は,インドネシアの地域言語に対する伝統的なインドネシア文字(aksara)の原則を取り入れた音節ベースのトークン化フレームワークを開発することである。
インドネシア語辞書(KBBI)から抽出された2,843個のトークンを語彙として実装した。
インドネシア語と英語の10言語にまたがる1,000の並列翻訳サンプルからなるNusaXデータセットを用いて評価を行った。
Smith-Watermanアルゴリズムを用いて,TPC比とシーケンスアライメントを用いた解析を行った。
その結果、音節ベースのトークン化はすべての地域言語で一貫したTPC値を示し、GPT-2は英語で最低のTPCを持つ逆パターンを示した。
シーラブルベースのトークン化は、GPT-2と比較して平均21%増加し、高いトークンシーケンス類似度スコアを一貫して生成した。
これらの結果から, 音節に基づくアプローチは, 関連するオーストロネシア諸語間の音韻的・形態的パターンをより効果的に保存し, 多言語LLM開発のための言語学的基礎を提供することが明らかとなった。
関連論文リスト
- Syllabic Agglutinative Tokenizations for Indonesian LLM: A Study from Gasing Literacy Learning System [0.0]
本稿では,インドネシアの大規模言語モデルに対する新しい音節ベースのトークン化手法を提案する。
我々は,バイトペア符号化を適用する前に,インドネシア語のテキストを音節境界で分割するトークン化フレームワークを開発した。
まずルールベースセグメンテーションを用いて高周波音節を同定し,3500個のトークンからなるコンパクトな語彙を構築する。
論文 参考訳(メタデータ) (2026-01-14T17:47:24Z) - Tokenization Disparities as Infrastructure Bias: How Subword Systems Create Inequities in LLM Access and Efficiency [6.943451388015595]
トークン化の格差は、人工知能への公平なアクセスを達成する上で重要な障壁となる。
本研究では,200以上の言語におけるトークン化効率の大規模クロス言語的評価を行う。
論文 参考訳(メタデータ) (2025-10-14T11:14:38Z) - Tokens with Meaning: A Hybrid Tokenization Approach for NLP [0.2826977330147589]
自然言語処理(NLP)におけるトークン化の役割
規則に基づく形態素解析と統計的サブワードセグメンテーションを組み合わせたハイブリッドトークン化フレームワークを提案する。
本手法は, 音韻正規化, ルートアフィックス, および形態素保存と語彙効率のバランスをとる新しいアルゴリズムを用いる。
論文 参考訳(メタデータ) (2025-08-19T22:17:42Z) - Doğal Dil İşlemede Tokenizasyon Standartları ve Ölçümü: Türkçe Üzerinden Büyük Dil Modellerinin Karşılaştırmalı Analizi [0.29687381456163997]
本研究では,トルコ語などの形態学的に豊かな低リソース言語に特有なトークン化問題に対処する新たな評価フレームワークを提案する。
我々は,語彙サイズ,トークン数,処理時間,言語固有のトークンパーセンテージ(%TR),トークン純度(%Pure)に基づいてトークン化器の評価を行った。
分析の結果,言語固有のトークンパーセンテージは,トークン純度よりも下流のパフォーマンス(MMLUスコアなど)との相関が強いことが明らかとなった。
論文 参考訳(メタデータ) (2025-08-18T16:26:42Z) - Tokenization Standards for Linguistic Integrity: Turkish as a Benchmark [0.29687381456163997]
トークン化はNLPの基本的な前処理ステップであり、大きな言語モデルが構文、形態素合成、意味構造をキャプチャする能力に直接影響を及ぼす。
本稿では,形態的にリッチで低リソースな言語における課題に対処する,トークン化戦略を評価するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-10T21:47:49Z) - Enhancing Multilingual ASR for Unseen Languages via Language Embedding Modeling [50.62091603179394]
最も先進的なASRモデルの1つであるWhisperは99の言語を効果的に扱う。
しかし、ウィスパーは未確認の言語と戦っているが、それらは事前訓練には含まれていない。
本研究では,これらの関係を利用して未知言語上でのASR性能を向上させる手法を提案する。
論文 参考訳(メタデータ) (2024-12-21T04:05:43Z) - Cross-domain Chinese Sentence Pattern Parsing [67.1381983012038]
文パターン構造解析(SPS)は、主に言語教育に使用される構文解析法である。
既存のSPSは教科書のコーパスに大きく依存しており、クロスドメイン機能に欠ける。
本稿では,大規模言語モデル(LLM)を自己学習フレームワーク内で活用する革新的な手法を提案する。
論文 参考訳(メタデータ) (2024-02-26T05:30:48Z) - VECO 2.0: Cross-lingual Language Model Pre-training with
Multi-granularity Contrastive Learning [56.47303426167584]
複数粒度アライメントを持つコントラスト学習に基づく言語間事前学習モデルVECO2.0を提案する。
具体的には、シーケンス・ツー・シーケンスアライメントが誘導され、並列対の類似性を最大化し、非並列対を最小化する。
トークン・ツー・トークンのアライメントは、シソーラス辞書を介して発掘された同義トークンと、バイリンガルな例の他の未使用トークンとのギャップを埋めるために統合される。
論文 参考訳(メタデータ) (2023-04-17T12:23:41Z) - CROP: Zero-shot Cross-lingual Named Entity Recognition with Multilingual
Labeled Sequence Translation [113.99145386490639]
言語間NERは、整列した言語間表現や機械翻訳結果を通じて、言語間で知識を伝達することができる。
ゼロショット言語間NERを実現するために,クロスランガル・エンティティ・プロジェクション・フレームワーク(CROP)を提案する。
多言語ラベル付きシーケンス翻訳モデルを用いて、タグ付けされたシーケンスをターゲット言語に投影し、ターゲットの原文にラベル付けする。
論文 参考訳(メタデータ) (2022-10-13T13:32:36Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。