論文の概要: A Comprehensive Benchmark of Language Models on Unicode and Romanized Sinhala
- arxiv url: http://arxiv.org/abs/2601.14958v1
- Date: Wed, 21 Jan 2026 12:58:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 21:27:50.367073
- Title: A Comprehensive Benchmark of Language Models on Unicode and Romanized Sinhala
- Title(参考訳): UnicodeとSinhalaの言語モデルに関する総合ベンチマーク
- Authors: Minuri Rajapakse, Ruvan Weerasinghe,
- Abstract要約: 本稿では,Unicode と Romanized Sinhala の多種多様なコーパス上での現代言語モデル (LM) のベンチマークを示す。
我々は,テキストの予測精度の指標であるパープレキシティ(perplexity)を用いて,オープンソースモデルを評価し,クローズドソースモデルを導出する。
- 参考スコア(独自算出の注目度): 0.2864713389096699
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The performance of Language Models (LMs) on lower-resource, morphologically rich languages like Sinhala remains under-explored, particularly for Romanized Sinhala, which is prevalent in digital communication. This paper presents a comprehensive benchmark of modern LMs on a diverse corpus of Unicode and Romanized Sinhala. We evaluate open-source models using perplexity, a measure of how well a model predicts a text, and leading closed-source models via a qualitative analysis of sentence completion. Our findings reveal that the Mistral-Nemo-Base-2407 model achieves the strongest predictive performance on Unicode text and the Mistral-7B-v0.3 model for Romanized text. The results also highlight the strong all-around performance of the Llama-3.1-8B model for both scripts. Furthermore, a significant performance disparity exists among closed-source models: Gemini-1.5-pro and DeepSeek excel at Unicode generation, whereas Claude-3.5-Sonnet is superior at handling Romanized text. These results provide an essential guide for practitioners selecting models for Sinhala-specific applications and highlight the critical role of training data in handling script variations.
- Abstract(参考訳): Sinhalaのような低リソースで形態的にリッチな言語上での言語モデル(LM)のパフォーマンスは、特にデジタル通信で普及しているRomanized Sinhalaにおいて、未調査のままである。
本稿では,Unicode と Romanized Sinhala の多種多様なコーパス上での最新の LM の総合的なベンチマークを示す。
我々は,テキストの予測精度の指標であるパープレキシティを用いてオープンソースモデルを評価し,文完成の質的分析を通じてクローズドソースモデルを導出する。
以上の結果から, UnicodeテキストにおけるMistral-Nemo-Base-2407モデルと, ローマ字テキストに対するMistral-7B-v0.3モデルが最も高い予測性能が得られた。
その結果、両方のスクリプトに対するLlama-3.1-8Bモデルの強力なオールアラウンド性能も強調された。
Gemini-1.5-proとDeepSeekはUnicode生成に優れており、Claude-3.5-Sonnetはローマ化テキストを扱うのに優れている。
これらの結果は、Sinhala固有のアプリケーションのモデルを選択する実践者にとって不可欠なガイドであり、スクリプトのバリエーションを扱う際のトレーニングデータの重要性を強調している。
関連論文リスト
- Towards Open Foundation Language Model and Corpus for Macedonian: A Low-Resource Language [4.276396344868335]
LLM(Large Language Models)の採用を促進するリソースを作成します。
これまでにマケドニア最大のコーパスを収集し、40GBのテキストデータと3.5Bの単語を収集した。
我々は、キュレートされたデータセットに基づいて、最先端の8B-パラメータモデルであるinter domestic-yakをトレーニングし、8つのベースラインモデルに対して評価する。
論文 参考訳(メタデータ) (2025-06-11T09:46:58Z) - Subasa -- Adapting Language Models for Low-resourced Offensive Language Detection in Sinhala [9.298909305675595]
そこで我々は,Masked Rationale Prediction を用いた中間的事前ネットワークのステップを組み込んだ「Subasa-XLM-R」の4つのモデルを紹介した。
我々は,Sinhala攻撃言語検出のためのSOLDベンチマークデータセットを用いて,我々のモデルを評価する。
論文 参考訳(メタデータ) (2025-04-02T23:46:49Z) - TEncDM: Understanding the Properties of the Diffusion Model in the Space of Language Model Encodings [35.18238858796925]
TEncDMは、事前訓練された言語モデルエンコーディングの空間で動作する拡散モデリングの新しいアプローチである。
このアプローチでは,トークン予測プロセスにコンテキストを組み込むように設計されたトランスフォーマーベースのデコーダも採用しています。
論文 参考訳(メタデータ) (2024-02-29T12:25:45Z) - Gl\'orIA - A Generative and Open Large Language Model for Portuguese [4.782288068552145]
ポルトガルの堅牢なデコーダLLMであるGl'orIAを紹介する。
Gl'orIAを事前訓練するために,様々なソースから35億個のトークンからなる包括的PT-PTテキストコーパスを組み立てた。
Gl'orIAは、言語モデリングにおいて、既存のオープンPTデコーダモデルよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2024-02-20T12:36:40Z) - Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。
このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文 参考訳(メタデータ) (2024-02-16T13:53:26Z) - Dolma: an Open Corpus of Three Trillion Tokens for Language Model Pretraining Research [139.69207791947738]
ドルマ (Dolma) は、ウェブコンテンツ、科学論文、コード、パブリックドメインの書籍、ソーシャルメディア、百科事典の素材を多用した3トリルの英語コーパスである。
我々はDolmaの設計原則、その構築の詳細、内容の要約を含む、Dolmaを文書化します。
我々は、重要なデータキュレーションの実践について学んだことを共有するために、Dolmaの中間状態の分析と実験結果を示す。
論文 参考訳(メタデータ) (2024-01-31T20:29:50Z) - An Open Dataset and Model for Language Identification [84.15194457400253]
マクロ平均F1スコア0.93、偽陽性率0.033を201言語で達成するLIDモデルを提案する。
モデルとデータセットの両方を研究コミュニティに公開しています。
論文 参考訳(メタデータ) (2023-05-23T08:43:42Z) - mFACE: Multilingual Summarization with Factual Consistency Evaluation [79.60172087719356]
抽象的な要約は、事前訓練された言語モデルと大規模データセットの可用性のおかげで、近年で新たな関心を集めている。
有望な結果にもかかわらず、現在のモデルはいまだに現実的に矛盾した要約を生み出すことに苦しむ。
事実整合性評価モデルを利用して、多言語要約を改善する。
論文 参考訳(メタデータ) (2022-12-20T19:52:41Z) - Learning Contextual Representations for Semantic Parsing with
Generation-Augmented Pre-Training [86.91380874390778]
本稿では,生成モデルを活用して事前学習データを生成することで,自然言語発話と表スキーマの表現を共同で学習するGAPを提案する。
実験結果に基づいて、GAP MODELを利用するニューラルセマンティクスは、SPIDERとCRITERIA-to-generationベンチマークの両方で最新の結果を得る。
論文 参考訳(メタデータ) (2020-12-18T15:53:50Z) - The birth of Romanian BERT [1.377045689881944]
本稿では,ルーマニア語トランスフォーマーをベースとした最初の言語モデルであるルーマニア語BERTについて紹介する。
本稿では,コーパスの構成とクリーニング,モデルトレーニングプロセス,およびルーマニアの様々なデータセット上でのモデルの広範囲な評価について論じる。
論文 参考訳(メタデータ) (2020-09-18T09:30:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。