論文の概要: Irish-BLiMP: A Linguistic Benchmark for Evaluating Human and Language Model Performance in a Low-Resource Setting
- arxiv url: http://arxiv.org/abs/2510.20957v1
- Date: Thu, 23 Oct 2025 19:36:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 09:00:15.305851
- Title: Irish-BLiMP: A Linguistic Benchmark for Evaluating Human and Language Model Performance in a Low-Resource Setting
- Title(参考訳): Irish-BLiMP:低リソース環境での人・言語モデルの性能評価のための言語ベンチマーク
- Authors: Josh McGiff, Khanh-Tung Tran, William Mulcahy, Dáibhidh Ó Luinín, Jake Dalzell, Róisín Ní Bhroin, Adam Burke, Barry O'Sullivan, Hoang D. Nguyen, Nikola S. Nikolov,
- Abstract要約: Irish-BLiMPは、アイルランド語の言語能力を評価するために設計された最初のデータセットとフレームワークである。
11の言語的特徴の分類で1020組の最小ペアを手作業で構築し、レビューしました。
- 参考スコア(独自算出の注目度): 3.526593766002861
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Irish-BLiMP (Irish Benchmark of Linguistic Minimal Pairs), the first dataset and framework designed for fine-grained evaluation of linguistic competence in the Irish language, an endangered language. Drawing on a variety of linguistic literature and grammar reference works, we manually constructed and reviewed 1020 minimal pairs across a taxonomy of 11 linguistic features, through a team of fluent Irish speakers. We evaluate both existing Large Language Models (LLMs) and fluent human participants on their syntactic knowledge of Irish. Our findings show that humans outperform all models across all linguistic features, achieving 16.6% higher accuracy on average. Moreover, a substantial performance gap of 18.1% persists between open- and closed-source LLMs, with even the strongest model (gpt-5) reaching only 73.5% accuracy compared to 90.1% by human. Interestingly, human participants and models struggle on different aspects of Irish grammar, thus highlighting a difference in representation learned by the models. Overall, Irish-BLiMP provides the first systematic framework for evaluating the grammatical competence of LLMs in Irish and offers a valuable benchmark for advancing research on linguistic understanding in low-resource languages.
- Abstract(参考訳): 我々はアイルランド語における言語能力の詳細な評価を目的とした最初のデータセットとフレームワークであるIrish-BLiMP(Irish Benchmark of Linguistic Minimal Pairs)を提示する。
様々な言語文学と文法の参考研究に基づいて、アイルランド語話者のチームを通して、11の言語特徴の分類群で1020組の最小ペアを手作業で構築し、レビューした。
既存のLarge Language Models (LLMs) と、アイルランド語の構文的知識に精通した人的参加者の両方を評価した。
以上の結果から,人間はすべての言語的特徴において,平均16.6%の精度ですべてのモデルより優れていた。
さらに、オープンソースのLLMとクローズドソースのLLMの間には18.1%の実質的なパフォーマンスギャップがあり、最強のモデル(gpt-5)でさえ、人間による90.1%に比べて73.5%の精度しか得られていない。
興味深いことに、人間の参加者とモデルはアイルランド文法の異なる側面に苦しむため、モデルによって学習された表現の違いが強調される。
全体として、Irish-BLiMPは、アイルランドにおけるLLMの文法能力を評価するための最初の体系的なフレームワークを提供し、低リソース言語における言語理解の研究を進めるための貴重なベンチマークを提供する。
関連論文リスト
- Qomhra: A Bilingual Irish-English Large Language Model [0.0]
Qomhr'aは、低リソース制約下で開発されたバイリンガル・アイリッシュ・イングリッシュ・イングリッシュ・大規模言語モデル(LLM)である。
Qomhr'aは、翻訳、性別の理解、トピックの識別、世界の知識をテストするベンチマークで評価されており、アイルランド語では29%、英語では44%まで上昇している。
論文 参考訳(メタデータ) (2025-10-20T15:27:53Z) - Leveraging Multilingual Training for Authorship Representation: Enhancing Generalization across Languages and Domains [41.44674318564781]
オーサシップ表現(AR)学習は,オーサシップ帰属タスクにおいて高いパフォーマンスを示している。
本稿では,2つの重要なイノベーションを取り入れた多言語AR学習手法を提案する。
私たちのモデルは36の言語と13のドメインにわたる450万以上の著者でトレーニングされています。
論文 参考訳(メタデータ) (2025-09-20T04:43:24Z) - The ML-SUPERB 2.0 Challenge: Towards Inclusive ASR Benchmarking for All Language Varieties [107.57160730151975]
我々は200以上の言語、アクセント、方言のデータからなる新しいテストスイートを構築し、SOTA多言語音声モデルを評価する。
その結果, LIDの精度は23%, CERは18%向上した。
アクセントと方言のデータでは、最も良い提出は30.2%低いCERと15.7%高いLIDの精度を得た。
論文 参考訳(メタデータ) (2025-09-08T18:42:36Z) - KoBALT: Korean Benchmark For Advanced Linguistic Tasks [0.6971903955510721]
KoBALT (Korean Benchmark for Advanced Linguistic Tasks) は700の質問からなる言語的に動機付けられたベンチマークである。
韓国語における大規模言語モデル(LLM)の評価を推し進めるために設計された。
韓国の標準コーパスとn-gramの重複が最小限に抑えられた専門家による言語的動機付けの質問スイートを導入している。
論文 参考訳(メタデータ) (2025-05-22T02:03:07Z) - IRLBench: A Multi-modal, Culturally Grounded, Parallel Irish-English Benchmark for Open-Ended LLM Reasoning Evaluation [3.9530780161144667]
本稿では、英語とアイルランド語を併用したIRLBenchについて紹介する。
私たちのベンチマークは、2024年のアイリッシュリービング認定試験から開発された12の代表的な被験者で構成されています。
モデルが有効なアイルランド語の応答を80%以下に抑え、正しい答えが55.8%であるのに対し、最高のパフォーマンスのモデルでは76.2%が英語である。
論文 参考訳(メタデータ) (2025-05-16T00:02:05Z) - MMLU-ProX: A Multilingual Benchmark for Advanced Large Language Model Evaluation [86.7047714187813]
MMLU-ProXは29の言語をカバーするベンチマークであり、英語のベンチマーク上に構築されている。
それぞれの言語バージョンは11,829の同一の質問で構成されており、直接言語間比較を可能にする。
効率的な評価ニーズを満たすため,言語毎の質問数は658件である。
論文 参考訳(メタデータ) (2025-03-13T15:59:20Z) - SLAM: Towards Efficient Multilingual Reasoning via Selective Language Alignment [78.4550589538805]
本稿では,多言語性を扱うレイヤを正確に識別し,微調整する,効率的な多言語推論アライメント手法を提案する。
実験の結果, SLAM法は7Bおよび13BLLMのパラメータの6.5-8%を含む6層のフィードフォワードサブ層のみをチューニングできることがわかった。
論文 参考訳(メタデータ) (2025-01-07T10:29:43Z) - UCCIX: Irish-eXcellence Large Language Model [3.9530780161144667]
この研究は、UCCIXというオープンソースのアイルランドのLLMの開発における先駆的な取り組みを提示している。
極低リソース言語に特化して適応したLLMの事前学習を継続する新しいフレームワークを提案する。
Llama 2-13Bをベースとした我々のモデルは、最大12%のパフォーマンス改善でアイルランド語のタスクにおいて、はるかに大きなモデルより優れています。
論文 参考訳(メタデータ) (2024-05-13T13:19:27Z) - CIF-Bench: A Chinese Instruction-Following Benchmark for Evaluating the Generalizability of Large Language Models [53.9835961434552]
本研究では,中国語に対する大規模言語モデル(LLM)の一般化性を評価するために,中国語命令追跡ベンチマーク(CIF-Bench)を導入する。
CIF-Benchは150のタスクと15,000の入力出力ペアで構成され、複雑な推論と中国の文化的ニュアンスをテストするためにネイティブスピーカーによって開発された。
データ汚染を軽減するため、データセットの半分しか公開せず、残りは非公開であり、スコア分散を最小限に抑えるために多種多様な命令を導入する。
論文 参考訳(メタデータ) (2024-02-20T16:02:12Z) - AmericasNLI: Evaluating Zero-shot Natural Language Understanding of
Pretrained Multilingual Models in Truly Low-resource Languages [75.08199398141744]
我々は、XNLI(Conneau et al)の拡張である AmericasNLI を提示する。
は、アメリカ大陸の10の原住民の言語である。
XLM-Rで実験を行い、複数のゼロショットおよび翻訳ベースのアプローチをテストします。
XLM-Rのゼロショット性能は全10言語で低調であり、平均性能は38.62%である。
論文 参考訳(メタデータ) (2021-04-18T05:32:28Z) - Learning to Learn Morphological Inflection for Resource-Poor Languages [105.11499402984482]
本稿では,メタラーニング問題として資源不足言語に対する形態的インフレクション(補題を表象形にマッピングする)の課題を提案する。
それぞれの言語を個別のタスクとして扱うことで、高速ソース言語からのデータを使ってモデルパラメータの集合を学習する。
3つのファミリーから29のターゲット言語を対象とする2つのモデルアーキテクチャの実験により、提案手法がすべてのベースラインを上回ります。
論文 参考訳(メタデータ) (2020-04-28T05:13:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。