論文の概要: LoraxBench: A Multitask, Multilingual Benchmark Suite for 20 Indonesian Languages
- arxiv url: http://arxiv.org/abs/2508.12459v1
- Date: Sun, 17 Aug 2025 18:07:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:10.780859
- Title: LoraxBench: A Multitask, Multilingual Benchmark Suite for 20 Indonesian Languages
- Title(参考訳): LoraxBench: インドネシア語20言語のためのマルチタスクで多言語ベンチマークスイート
- Authors: Alham Fikri Aji, Trevor Cohn,
- Abstract要約: インドネシアの低リソース言語に焦点を当てたベンチマークであるLoraxBenchを紹介します。
我々のデータセットは、20言語をカバーし、3つの言語に2つの形式レジスタを追加しています。
本稿では,レジスタの変更がモデル性能に影響を及ぼすことを示す。
- 参考スコア(独自算出の注目度): 45.640417004733166
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: As one of the world's most populous countries, with 700 languages spoken, Indonesia is behind in terms of NLP progress. We introduce LoraxBench, a benchmark that focuses on low-resource languages of Indonesia and covers 6 diverse tasks: reading comprehension, open-domain QA, language inference, causal reasoning, translation, and cultural QA. Our dataset covers 20 languages, with the addition of two formality registers for three languages. We evaluate a diverse set of multilingual and region-focused LLMs and found that this benchmark is challenging. We note a visible discrepancy between performance in Indonesian and other languages, especially the low-resource ones. There is no clear lead when using a region-specific model as opposed to the general multilingual model. Lastly, we show that a change in register affects model performance, especially with registers not commonly found in social media, such as high-level politeness `Krama' Javanese.
- Abstract(参考訳): 世界でも最も人口の多い国の一つであり、700の言語が話されているインドネシアは、NLPの進歩で遅れを取っている。
インドネシアの低リソース言語に焦点を当てたベンチマークであるLoraxBenchを紹介し、理解、オープンドメインQA、言語推論、因果推論、翻訳、文化的QAの6つのタスクをカバーする。
我々のデータセットは、20言語をカバーし、3つの言語に2つの形式レジスタを追加しています。
我々は多言語と地域にフォーカスしたLLMの多種多様なセットを評価し、このベンチマークは困難であることがわかった。
インドネシア語と他の言語、特に低リソース言語のパフォーマンスの相違が目に見えることに留意する。
一般多言語モデルとは対照的に、地域固有のモデルを使用する場合、明確なリードは存在しない。
最後に,レジスタの変更がモデル性能に影響を及ぼすことを示す。特に,高レベルの礼儀正しい「クラマ」ジャワなど,ソーシャルメディアにあまり見つからないレジスタについて述べる。
関連論文リスト
- FormosanBench: Benchmarking Low-Resource Austronesian Languages in the Era of Large Language Models [1.2403152094314245]
我々は,低リソースオーストロネシア言語上での大規模言語モデル(LLM)を評価するための最初のベンチマークであるFORMOSANBENCHを紹介する。
FORMOSANBENCHを用いて,ゼロショット,10ショット,微調整設定におけるモデル性能を評価する。
この結果から,高リソース言語とFormosan言語の間には,大幅な性能差が認められた。
論文 参考訳(メタデータ) (2025-06-12T07:02:28Z) - Thank You, Stingray: Multilingual Large Language Models Can Not (Yet) Disambiguate Cross-Lingual Word Sense [30.62699081329474]
本稿では,言語間感覚曖昧化のための新しいベンチマーク,StingrayBenchを紹介する。
インドネシア語とマレー語、インドネシア語とタガログ語、中国語と日本語、英語とドイツ語の4つの言語ペアで偽の友人を集めます。
各種モデルの解析において,高リソース言語に偏りが生じる傾向が見られた。
論文 参考訳(メタデータ) (2024-10-28T22:09:43Z) - NusaBERT: Teaching IndoBERT to be Multilingual and Multicultural [0.0]
NusaBERTは、語彙拡張を取り入れ、地域言語や方言を含む多言語コーパスを活用することで、IndoBERT上に構築されている。
NusaBERTは、さまざまなベンチマークの厳格な評価を通じて、インドネシアの複数の言語に関わるタスクにおける最先端のパフォーマンスを実証している。
論文 参考訳(メタデータ) (2024-03-04T08:05:34Z) - Baichuan 2: Open Large-scale Language Models [51.34140526283222]
我々は、70億と13億のパラメータを含む大規模な多言語言語モデルであるBaichuan 2を、2.6兆のトークン上でスクラッチからトレーニングする。
Baichuan 2は、MMLU、CMMLU、GSM8K、HumanEvalなどの公開ベンチマークで、同様のサイズの他のオープンソースモデルにマッチするか、より優れています。
論文 参考訳(メタデータ) (2023-09-19T04:13:22Z) - NusaX: Multilingual Parallel Sentiment Dataset for 10 Indonesian Local
Languages [100.59889279607432]
インドネシアにおける言語の資源開発に重点を置いている。
インドネシアのほとんどの言語は絶滅危惧種に分類され、一部は絶滅している。
インドネシアで10の低リソース言語を対象とした,最初の並列リソースを開発した。
論文 参考訳(メタデータ) (2022-05-31T17:03:50Z) - Can Character-based Language Models Improve Downstream Task Performance in Low-Resource and Noisy Language Scenarios? [15.995677143912474]
我々は、ナラビジ(NArabizi)と呼ばれるラテン文字の拡張を用いて書かれた北アフリカ方言のアラビア語に焦点を当てている。
ナラビジの99k文のみを学習し,小さな木バンクで微調整したキャラクタベースモデルは,大規模多言語モデルとモノリンガルモデルで事前学習した同じアーキテクチャで得られたものに近い性能を示す。
論文 参考訳(メタデータ) (2021-10-26T14:59:16Z) - Multilingual and code-switching ASR challenges for low resource Indian
languages [59.2906853285309]
インドの7つの言語に関連する2つのサブタスクを通じて、多言語およびコードスイッチングASRシステムの構築に重点を置いている。
これらの言語では、列車とテストセットからなる600時間分の音声データを合計で提供します。
また,マルチリンガルサブタスクとコードスイッチサブタスクのテストセットでは,それぞれ30.73%と32.45%という,タスクのベースラインレシピも提供しています。
論文 参考訳(メタデータ) (2021-04-01T03:37:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。