論文の概要: BURMESE-SAN: Burmese NLP Benchmark for Evaluating Large Language Models
- arxiv url: http://arxiv.org/abs/2602.18788v1
- Date: Sat, 21 Feb 2026 10:43:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.313775
- Title: BURMESE-SAN: Burmese NLP Benchmark for Evaluating Large Language Models
- Title(参考訳): BURMESE-SAN: 大規模言語モデル評価のためのビルマNLPベンチマーク
- Authors: Thura Aung, Jann Railey Montalan, Jian Gang Ngui, Peerat Limkonchotiwat,
- Abstract要約: BURMESE-SANはビルマの大規模言語モデル(LLM)を体系的に評価する最初の総合的なベンチマークである。
理解(NLU)、推論(NLR)、生成(NLG)の3つのコアNLP能力にまたがる7つのサブタスクを統合する。
このベンチマークは厳格なネイティブスピーカー駆動のプロセスによって構築され、言語的自然性、流布性、文化的な信頼性を保証する。
- 参考スコア(独自算出の注目度): 7.521623151128041
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We introduce BURMESE-SAN, the first holistic benchmark that systematically evaluates large language models (LLMs) for Burmese across three core NLP competencies: understanding (NLU), reasoning (NLR), and generation (NLG). BURMESE-SAN consolidates seven subtasks spanning these competencies, including Question Answering, Sentiment Analysis, Toxicity Detection, Causal Reasoning, Natural Language Inference, Abstractive Summarization, and Machine Translation, several of which were previously unavailable for Burmese. The benchmark is constructed through a rigorous native-speaker-driven process to ensure linguistic naturalness, fluency, and cultural authenticity while minimizing translation-induced artifacts. We conduct a large-scale evaluation of both open-weight and commercial LLMs to examine challenges in Burmese modeling arising from limited pretraining coverage, rich morphology, and syntactic variation. Our results show that Burmese performance depends more on architectural design, language representation, and instruction tuning than on model scale alone. In particular, Southeast Asia regional fine-tuning and newer model generations yield substantial gains. Finally, we release BURMESE-SAN as a public leaderboard to support systematic evaluation and sustained progress in Burmese and other low-resource languages. https://leaderboard.sea-lion.ai/detailed/MY
- Abstract(参考訳): BURMESE-SANはビルマの大規模言語モデル(LLM)を3つの中核的NLP能力、すなわち理解(NLU)、推論(NLR)、生成(NLG)で体系的に評価する最初の総合的なベンチマークである。
BURMESE-SANは、これらの能力にまたがる7つのサブタスクを統合する。質問回答、感性分析、毒性検出、因果推論、自然言語推論、抽象的な要約、機械翻訳など、以前はビルマでは利用できなかったものもいくつかある。
このベンチマークは、翻訳によって引き起こされるアーティファクトを最小限に抑えつつ、言語的自然性、流布性、文化的な信頼性を確保するために、厳密なネイティブスピーカー駆動のプロセスで構築されている。
オープンウェイトLLMと商用LLMの両方を大規模に評価し、限られた事前訓練範囲、豊富な形態、構文変化から生じるビルマのモデリングにおける課題について検討する。
以上の結果から,ビルマのアーキテクチャ設計や言語表現,インストラクションチューニングは,モデルスケールのみに依存していることがわかった。
特に東南アジア地域の細調整と新しいモデル世代は、かなりの利益をもたらしている。
最後にBURMESE-SANを公開のリーダーボードとしてリリースし、ビルマやその他の低リソース言語における体系的な評価と継続的な進歩をサポートする。
https://leaderboard.sea-lion.ai/detailed/MY
関連論文リスト
- Challenging the Abilities of Large Language Models in Italian: a Community Initiative [63.94242079171895]
The Abilities of LAnguage Models in ITAlian (CALAMITA)は、イタリアにおける大規模共同ベンチマークイニシアチブである。
学術、産業、公共部門から80人以上のコントリビュータを集め、多様なタスクの設計、文書化、評価を行っている。
我々は,4つのオープンウェイトLDMの結果を報告し,能力の体系的強度と弱点を強調した。
論文 参考訳(メタデータ) (2025-12-04T12:50:29Z) - FormosanBench: Benchmarking Low-Resource Austronesian Languages in the Era of Large Language Models [1.2403152094314245]
我々は,低リソースオーストロネシア言語上での大規模言語モデル(LLM)を評価するための最初のベンチマークであるFORMOSANBENCHを紹介する。
FORMOSANBENCHを用いて,ゼロショット,10ショット,微調整設定におけるモデル性能を評価する。
この結果から,高リソース言語とFormosan言語の間には,大幅な性能差が認められた。
論文 参考訳(メタデータ) (2025-06-12T07:02:28Z) - Myanmar XNLI: Building a Dataset and Exploring Low-resource Approaches to Natural Language Inference with Myanmar [2.8023035616913785]
我々は、より広範な低リソース言語のためのプロキシチャレンジとして、さらに1つの低リソース言語であるミャンマーに対するXNLIタスクを拡張します。
まず,コミュニティのクラウドソース手法を用いて,Myanmar XNLIというデータセットを構築した。
第2に、myXNLIベンチマークにおいて、最近の多言語言語モデルの評価を行い、モデル性能を改善するためのデータ拡張手法について検討する。
論文 参考訳(メタデータ) (2025-04-13T16:36:59Z) - Can Large Language Models Predict the Outcome of Judicial Decisions? [0.0]
大規模言語モデル(LLM)は自然言語処理(NLP)において例外的な機能を示す。
LLaMA-3.2-3B や LLaMA-3.1-8B を含む最先端のオープンソース LLM を様々な構成でベンチマークする。
本結果は,タスク固有のコンテキストにおいて,細調整された小型モデルが大規模モデルに匹敵する性能を実現することを示す。
論文 参考訳(メタデータ) (2025-01-15T11:32:35Z) - SeaLLMs 3: Open Foundation and Chat Multilingual Large Language Models for Southeast Asian Languages [77.75535024869224]
東南アジアの言語に合わせたSeaLLMsモデルファミリーの最新版SeaLLMs 3を紹介します。
SeaLLMs 3は、英語、中国語、インドネシア語、ベトナム語、タイ語、タガログ語、マレー語、ビルマ語、クメール語、ラオス語、タミル語、ジャワ語など、この地域で話される言語全般をカバーすることで、このギャップを埋めることを目指している。
我々のモデルは、世界的知識、数学的推論、翻訳、命令の追従といったタスクに優れており、同様の大きさのモデルで最先端の性能を達成する。
論文 参考訳(メタデータ) (2024-07-29T03:26:22Z) - The Power of Question Translation Training in Multilingual Reasoning: Broadened Scope and Deepened Insights [108.40766216456413]
大規模言語モデルの英語と非英語のパフォーマンスのギャップを埋めるための質問アライメントフレームワークを提案する。
実験結果から、さまざまな推論シナリオ、モデルファミリー、サイズにわたって、多言語のパフォーマンスを向上できることが示された。
我々は、表現空間、生成された応答とデータスケールを分析し、質問翻訳訓練がLLM内の言語アライメントをどのように強化するかを明らかにする。
論文 参考訳(メタデータ) (2024-05-02T14:49:50Z) - Compass: Large Multilingual Language Model for South-east Asia [0.0]
CompassLLMは東南アジアの言語に特化した多言語モデルである。
我々のモデルはインドネシア語のような東南アジアの言語で優れた性能を示す。
論文 参考訳(メタデータ) (2024-04-14T11:48:33Z) - YAYI 2: Multilingual Open-Source Large Language Models [53.92832054643197]
我々は,300億のパラメータを持つベースモデルとチャットモデルを含むYAYI 2を提案する。
YAYI 2は、トレーニング済みのデータ処理パイプラインによってフィルタされた2.65兆のトークンを含む多言語コーパス上で、スクラッチから事前トレーニングされる。
ベースモデルは、数百万の指示による教師付き微調整と、人間のフィードバックからの強化学習によって、人間の価値と整合する。
論文 参考訳(メタデータ) (2023-12-22T17:34:47Z) - SeaLLMs -- Large Language Models for Southeast Asia [76.50157503379086]
東南アジア(SEA)言語に焦点を当てた,革新的な言語モデルであるSeaLLMを紹介した。
SeaLLMはLlama-2モデルに基づいて構築され、さらに拡張語彙、特殊命令、アライメントチューニングによる事前訓練が継続されている。
包括的評価により,SeaLLM-13bモデルは言語タスクやアシスタントスタイルの指示追従能力に優れた性能を示した。
論文 参考訳(メタデータ) (2023-12-01T17:17:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。