論文の概要: LaoBench: A Large-Scale Multidimensional Lao Benchmark for Large Language Models
- arxiv url: http://arxiv.org/abs/2511.11334v1
- Date: Fri, 14 Nov 2025 14:13:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.648311
- Title: LaoBench: A Large-Scale Multidimensional Lao Benchmark for Large Language Models
- Title(参考訳): LaoBench: 大規模言語モデルのための大規模多次元Laoベンチマーク
- Authors: Jian Gao, Richeng Xuan, Zhaolu Kang, Dingshi Liao, Wenxin Huang, Zongmou Huang, Yangdi Xu, Bowen Qin, Zheqi He, Xi Yang, Changjin Li,
- Abstract要約: 大規模な言語モデル(LLM)を評価するための,最初の大規模,高品質,多次元ベンチマークデータセットであるLaoBenchを紹介する。
LaoBenchは、知識応用、K12基礎教育、ラオス語、中国語、英語のバイリンガル翻訳という3つの中核領域にまたがる17,000以上の精査されたサンプルで構成されている。
我々のデータ構築パイプラインは、専門家によるキュレーションと自動エージェント支援検証を統合し、言語的正確性、文化的妥当性、教育的価値を保証します。
- 参考スコア(独自算出の注目度): 13.28738007425811
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid advancement of large language models (LLMs) has not been matched by their evaluation in low-resource languages, especially Southeast Asian languages like Lao. To fill this gap, we introduce LaoBench, the first large-scale, high-quality, and multidimensional benchmark dataset dedicated to assessing LLMs' comprehensive language understanding and reasoning abilities in Lao. LaoBench comprises over 17,000 carefully curated samples spanning three core dimensions: knowledge application, K12 foundational education, and bilingual translation among Lao, Chinese, and English. The dataset is divided into open-source and closed-source subsets, with the closed-source portion enabling black-box evaluation on an official platform to ensure fairness and data security. Our data construction pipeline integrates expert human curation with automated agent-assisted verification, ensuring linguistic accuracy, cultural relevance, and educational value. Benchmarking multiple state-of-the-art LLMs on LaoBench reveals that current models still face significant challenges in mastering Lao across diverse tasks. We hope LaoBench will catalyze further research and development of AI technologies for underrepresented Southeast Asian languages.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な進歩は、低リソース言語、特にラオスのような東南アジア言語での評価と一致していない。
このギャップを埋めるために、LaoBenchを紹介します。LaoにおけるLLMの包括的な言語理解と推論能力を評価するための、最初の大規模、高品質、多次元のベンチマークデータセットです。
LaoBenchは、知識応用、K12基礎教育、ラオス語、中国語、英語のバイリンガル翻訳という3つの中核領域にまたがる17,000以上の精査されたサンプルで構成されている。
データセットはオープンソースとクローズドソースのサブセットに分割されており、クローズドソースの部分は、公正性とデータセキュリティを保証するために、公式プラットフォーム上でブラックボックス評価を可能にする。
我々のデータ構築パイプラインは、専門家によるキュレーションと自動エージェント支援検証を統合し、言語的正確性、文化的妥当性、教育的価値を保証します。
LaoBench上で複数の最先端のLLMをベンチマークすると、現在のモデルは、さまざまなタスクでLaoをマスターする上で、依然として重大な課題に直面していることがわかる。
LaoBenchは、あまり表現されていない東南アジアの言語のためのAI技術のさらなる研究と開発を触媒することを期待している。
関連論文リスト
- Leveraging the Cross-Domain & Cross-Linguistic Corpus for Low Resource NMT: A Case Study On Bhili-Hindi-English Parallel Corpus [3.435561406656216]
インドにおける言語的な多様性は、特にビリ語のような少数民族言語に対して、機械翻訳に重大な課題をもたらす。
本稿では,Bhili-Hindi-English Parallel Corpus (BH EPC)について述べる。
BH EPCは教育、管理、ニュースといった重要な領域にまたがっており、低リソース機械翻訳の研究のための貴重なベンチマークを確立している。
論文 参考訳(メタデータ) (2025-11-01T10:39:56Z) - The AI Language Proficiency Monitor -- Tracking the Progress of LLMs on Multilingual Benchmarks [0.0]
我々は、最大200言語にわたる大規模言語モデル(LLM)のパフォーマンスを評価する包括的なベンチマークであるAI Language Monitorを紹介した。
FLORES+, MMLU, GSM8K, TruthfulQA, ARCなどのデータセットを用いて, 翻訳, 質問応答, 数学, 推論などのタスクを集約した。
私たちは、研究者、開発者、政策立案者をサポートし、モデルパフォーマンスの強さとギャップを識別する、オープンソースの自動更新型リーダボードとダッシュボードを提供しています。
論文 参考訳(メタデータ) (2025-07-11T12:38:02Z) - Evaluating Large Language Model with Knowledge Oriented Language Specific Simple Question Answering [73.73820209993515]
KoLasSimpleQAは,Large Language Models (LLMs) の多言語事実能力を評価する最初のベンチマークである。
既存の研究に触発されて、単一知識点カバレッジ、絶対的客観性、独特な答え、時間的安定性といった特徴を備えた質問セットを作成しました。
その結果,2つの領域間に大きな性能差が認められた。
論文 参考訳(メタデータ) (2025-05-22T12:27:02Z) - IrokoBench: A New Benchmark for African Languages in the Age of Large Language Models [18.083861654053585]
IrokoBenchは17の原型的に異なる低リソースのアフリカ言語のための人間翻訳ベンチマークデータセットである。
IrokoBenchを使って、10のオープンおよび6つのプロプライエタリ言語モデルでゼロショット、少数ショット、および翻訳テストの設定(テストセットを英語に翻訳する)を評価します。
オープンモデルとプロプライエタリモデルの間には大きなパフォーマンスギャップがあり、最高パフォーマンスのオープンモデルであるGemma 2 27Bは、最高のパフォーマンスのプロプライエタリモデルであるGPT-4oのパフォーマンスの63%に過ぎません。
論文 参考訳(メタデータ) (2024-06-05T15:23:08Z) - High-quality Data-to-Text Generation for Severely Under-Resourced
Languages with Out-of-the-box Large Language Models [5.632410663467911]
我々は、事前訓練された大規模言語モデル(LLM)が、アンダーリソース言語のパフォーマンスギャップを埋める可能性について検討する。
LLM は,低リソース言語における技術の現状を,かなりのマージンで容易に設定できることがわかった。
全ての言語について、人間の評価は最高のシステムで人間と同等のパフォーマンスを示すが、BLEUのスコアは英語に比べて崩壊する。
論文 参考訳(メタデータ) (2024-02-19T16:29:40Z) - DIALIGHT: Lightweight Multilingual Development and Evaluation of
Task-Oriented Dialogue Systems with Large Language Models [76.79929883963275]
DIALIGHTは多言語タスク指向対話(ToD)システムの開発と評価のためのツールキットである。
ローカル発話レベルとグローバル対話レベルの両方において、人間のきめ細かい評価のためのセキュアでユーザフレンドリーなWebインターフェースを備えている。
評価の結果, PLMの微調整により精度とコヒーレンスが向上する一方, LLMベースのシステムは多様で類似した応答を生成するのに優れていた。
論文 参考訳(メタデータ) (2024-01-04T11:27:48Z) - YAYI 2: Multilingual Open-Source Large Language Models [53.92832054643197]
我々は,300億のパラメータを持つベースモデルとチャットモデルを含むYAYI 2を提案する。
YAYI 2は、トレーニング済みのデータ処理パイプラインによってフィルタされた2.65兆のトークンを含む多言語コーパス上で、スクラッチから事前トレーニングされる。
ベースモデルは、数百万の指示による教師付き微調整と、人間のフィードバックからの強化学習によって、人間の価値と整合する。
論文 参考訳(メタデータ) (2023-12-22T17:34:47Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Cross-Lingual NER for Financial Transaction Data in Low-Resource
Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。
我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。
わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文 参考訳(メタデータ) (2023-07-16T00:45:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。