論文の概要: GaelEval: Benchmarking LLM Performance for Scottish Gaelic
- arxiv url: http://arxiv.org/abs/2604.02135v1
- Date: Thu, 02 Apr 2026 15:09:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.872792
- Title: GaelEval: Benchmarking LLM Performance for Scottish Gaelic
- Title(参考訳): GaelEval: スコットランドゲールのためのLLMパフォーマンスベンチマーク
- Authors: Peter Devine, William Lamb, Beatrice Alex, Ignatius Ezeani, Dawn Knight, Mícheál J. Ó Meachair, Paul Rayson, Martin Wynne,
- Abstract要約: 我々はGaelicの最初の多次元ベンチマークであるGaelEvalを紹介する。
Gemini 3 Pro Previewは、言語タスクにおいて、人間のベースラインを超える精度で8,33%の精度を達成している。
文化的なタスクでは、リードモデルは90%以上の正確さを誇っているが、ほとんどのシステムはゲール的なプロンプトの下では悪化している。
- 参考スコア(独自算出の注目度): 6.165315297421253
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Multilingual large language models (LLMs) often exhibit emergent 'shadow' capabilities in languages without official support, yet their performance on these languages remains uneven and under-measured. This is particularly acute for morphosyntactically rich minority languages such as Scottish Gaelic, where translation benchmarks fail to capture structural competence. We introduce GaelEval, the first multi-dimensional benchmark for Gaelic, comprising: (i) an expert-authored morphosyntactic MCQA task; (ii) a culturally grounded translation benchmark and (iii) a large-scale cultural knowledge Q&A task. Evaluating 19 LLMs against a fluent-speaker human baseline ($n=30$), we find that Gemini 3 Pro Preview achieves $83.3\%$ accuracy on the linguistic task, surpassing the human baseline ($78.1\%$). Proprietary models consistently outperform open-weight systems, and in-language (Gaelic) prompting yields a small but stable advantage (+$2.4\%$). On the cultural task, leading models exceed $90\%$ accuracy, though most systems perform worse under Gaelic prompting and absolute scores are inflated relative to the manual benchmark. Overall, GaelEval reveals that frontier models achieve above-human performance on several dimensions of Gaelic grammar, demonstrates the effect of Gaelic prompting and shows a consistent performance gap favouring proprietary over open-weight models.
- Abstract(参考訳): 多言語大言語モデル (LLM) は、しばしば公式サポートのない言語で「シャドウ」機能を示すが、これらの言語の性能は不均一であり、未測定である。
特にスコットランド・ゲール語のような形態素的に豊かな少数言語では、翻訳ベンチマークが構造的能力の獲得に失敗する。
ゲール語の最初の多次元ベンチマークであるGaelEvalを紹介します。
i) MCQAタスクの専門的認可
(二)文化基盤翻訳ベンチマーク
(三)大規模文化知識Q&A課題
フロートスピーカーの人間ベースラインに対して19 LLM($n=30$)を評価すると、ジェミニ3プロプレビューは言語タスクにおいて8.3 %の精度を達成し、人間のベースライン($78.1 %)を上回っている。
プロプライエタリモデルは、オープンウェイト系を一貫して上回り、インランゲージ(ゲール語)の促進により、小さいが安定な優位性(+$2.4\%$)が得られる。
文化的なタスクでは、リードモデルは90\%の精度を超えるが、ほとんどのシステムはゲール的なプロンプトの下では悪化し、絶対スコアは手動ベンチマークと比較して膨らませられる。
全体としては、ゲール語文法のいくつかの次元においてフロンティアモデルが上記の人間のパフォーマンスを達成することを明らかにし、ゲール語のプロンプトの効果を示し、オープンウェイトモデルよりもプロプライエタリなパフォーマンスのギャップを示す。
関連論文リスト
- Evaluating Modern Large Language Models on Low-Resource and Morphologically Rich Languages:A Cross-Lingual Benchmark Across Cantonese, Japanese, and Turkish [12.286855282078305]
GPT-4o, GPT-4, Claude3.5Sonnet, LLaMA3.1, MistralLarge2, LLaMA-2Chat13B, Mistral7B Instructを評価した。
我々のベンチマークは、オープンドメイン質問応答、文書要約、英語からXへの翻訳、文化的根拠のある対話の4つのタスクにまたがっている。
論文 参考訳(メタデータ) (2025-11-05T22:09:53Z) - Towards Inclusive NLP: Assessing Compressed Multilingual Transformers across Diverse Language Benchmarks [33.2185998586144]
本研究は、アラビア語、英語、インド語にまたがる多言語および単言語大言語モデル(LLM)の性能をベンチマークする。
発見は言語的多様性と資源の可利用性によって引き起こされる顕著なパフォーマンスの違いを示している。
量子化(4ビットと8ビット)は、効率を向上しながらモデルの精度を維持するのに有効であるが、アグレッシブプルーニングは性能を著しく損なう。
論文 参考訳(メタデータ) (2025-07-25T22:35:10Z) - NMIXX: Domain-Adapted Neural Embeddings for Cross-Lingual eXploration of Finance [34.00870877634332]
汎用文埋め込みモデルは、しばしば専門的な財務意味論を捉えるのに苦労する。
NMIXXは18.8Kの高信頼三重項を微調整した言語間埋め込みモデルのスイートである。
KorFinSTSもリリースしています。これはニュース、開示、調査レポート、規制にまたがるベンチマークです。
論文 参考訳(メタデータ) (2025-07-13T12:14:57Z) - IrokoBench: A New Benchmark for African Languages in the Age of Large Language Models [18.083861654053585]
IrokoBenchは17の原型的に異なる低リソースのアフリカ言語のための人間翻訳ベンチマークデータセットである。
IrokoBenchを使って、10のオープンおよび6つのプロプライエタリ言語モデルでゼロショット、少数ショット、および翻訳テストの設定(テストセットを英語に翻訳する)を評価します。
オープンモデルとプロプライエタリモデルの間には大きなパフォーマンスギャップがあり、最高パフォーマンスのオープンモデルであるGemma 2 27Bは、最高のパフォーマンスのプロプライエタリモデルであるGPT-4oのパフォーマンスの63%に過ぎません。
論文 参考訳(メタデータ) (2024-06-05T15:23:08Z) - The Power of Question Translation Training in Multilingual Reasoning: Broadened Scope and Deepened Insights [108.40766216456413]
大規模言語モデルの英語と非英語のパフォーマンスのギャップを埋めるための質問アライメントフレームワークを提案する。
実験結果から、さまざまな推論シナリオ、モデルファミリー、サイズにわたって、多言語のパフォーマンスを向上できることが示された。
我々は、表現空間、生成された応答とデータスケールを分析し、質問翻訳訓練がLLM内の言語アライメントをどのように強化するかを明らかにする。
論文 参考訳(メタデータ) (2024-05-02T14:49:50Z) - Breaking Language Barriers in Multilingual Mathematical Reasoning: Insights and Observations [59.056367787688146]
本稿では, マルチリンガル数学推論 (xMR) LLM の探索と学習の先駆者である。
我々は10の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
翻訳を利用して、10個の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
論文 参考訳(メタデータ) (2023-10-31T08:09:20Z) - Harnessing Multilinguality in Unsupervised Machine Translation for Rare
Languages [48.28540903568198]
マルチリンガル性は低リソース環境において教師なしシステムの実現に不可欠であることを示す。
我々は,5つの低リソース言語(グジャラート語,カザフ語,ネパール語,シンハラ語,トルコ語)について,英語方向と英語方向の単一モデルを提案する。
我々は、これらの言語の現在最先端の教師なしベースラインを全て上回り、最大14.4BLEUのゲインを得る。
論文 参考訳(メタデータ) (2020-09-23T15:07:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。