論文の概要: GRILE: A Benchmark for Grammar Reasoning and Explanation in Romanian LLMs
- arxiv url: http://arxiv.org/abs/2508.14279v1
- Date: Tue, 19 Aug 2025 21:27:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-21 16:52:41.276948
- Title: GRILE: A Benchmark for Grammar Reasoning and Explanation in Romanian LLMs
- Title(参考訳): GRILE: ルーマニアのLLMにおける文法推論と説明のためのベンチマーク
- Authors: Adrian-Marius Dumitran, Alexandra-Mihaela Danila, Angela-Liliana Dumitran,
- Abstract要約: ルーマニアの受験試験から採取した1,151件の多重選択質問の最初のオープンベンチマークであるGRILEを提示する。
GRILEは、7つの最先端多言語とルーマニア固有のLLMの相補的な2つの能力を探索することを可能にする。
- 参考スコア(独自算出の注目度): 44.99833362998488
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: LLMs (Large language models) have revolutionized NLP (Natural Language Processing), yet their pedagogical value for low-resource languages remains unclear. We present GRILE (Grammar Romanian Inference and Language Explanations) , the first open benchmark of 1,151 multiple-choice questions harvested from Romanian high-stakes exams (National Evaluation, Baccalaureate, university admissions). GRILE enables us to probe two complementary abilities of seven state-of-the-art multilingual and Romanian-specific LLMs: (i) selecting the correct answer, and (ii) producing linguistically accurate explanations. While Gemini 2.5 Pro reaches 83% accuracy, most open-weight models stay below 65%, and 48% of their explanations contain factual or pedagogical flaws according to expert review. A detailed error analysis pinpoints systematic weaknesses in morphology and in applying the latest DOOM3 orthographic norms. All data, code and a public web demo are released to catalyze future research. Our findings expose open challenges for trustworthy educational NLP in low-resource settings and establish GRILE as a new test-bed for controllable explanation generation and evaluation.
- Abstract(参考訳): LLM(Large Language Model)はNLP(Natural Language Processing)に革命をもたらしたが、低リソース言語に対する教育的価値はいまだ不明である。
我々は,ルーマニアのハイテイク試験(国家評価,バッカロレーテ,大学入試)から取得した1,151件の多重選択質問の最初のオープンベンチマークであるGRILE(Grammar Romanian Inference and Language Explanations)を提示する。
GRILEは、7つの最先端多言語およびルーマニア固有のLLMの2つの補完能力を探索することを可能にする。
(i)正解を選択して
(二)言語学的に正確な説明を作成すること。
Gemini 2.5 Proの精度は83%に達するが、ほとんどのオープンウェイトモデルは65%以下であり、専門家のレビューによると、説明の48%は事実または教育上の欠陥を含んでいる。
詳細なエラー解析は、形態学および最新のDOOM3正則の適用において、系統的な弱点を指摘している。
すべてのデータ、コード、公開Webデモは、将来の研究を促進するためにリリースされている。
本研究は,低リソース環境において信頼性の高いNLPを実現するためのオープンな課題を明らかにし,制御可能な説明生成と評価のための新しいテストベッドとしてGRILEを確立した。
関連論文リスト
- Comparing LLM Text Annotation Skills: A Study on Human Rights Violations in Social Media Data [2.812898346527047]
本研究では,ロシア語とウクライナ語におけるソーシャルメディア投稿のゼロショットおよび少数ショットアノテーションに対する大規模言語モデル(LLM)の機能について検討した。
これらのモデルの有効性を評価するため、それらのアノテーションは、人間の二重注釈付きラベルのゴールドスタンダードセットと比較される。
この研究は、各モデルが示すエラーと不一致のユニークなパターンを探求し、その強み、制限、言語間適応性に関する洞察を提供する。
論文 参考訳(メタデータ) (2025-05-15T13:10:47Z) - PolyMath: Evaluating Mathematical Reasoning in Multilingual Contexts [79.84059473102778]
PolyMathは18の言語と4つの難易度をカバーする多言語数学的推論ベンチマークである。
我々のベンチマークは、包括性、言語多様性、高品質な翻訳の難しさを保証する。
論文 参考訳(メタデータ) (2025-04-25T15:39:04Z) - MMLU-ProX: A Multilingual Benchmark for Advanced Large Language Model Evaluation [86.7047714187813]
MMLU-ProXは29の言語をカバーするベンチマークであり、英語のベンチマーク上に構築されている。
それぞれの言語バージョンは11,829の同一の質問で構成されており、直接言語間比較を可能にする。
効率的な評価ニーズを満たすため,言語毎の質問数は658件である。
論文 参考訳(メタデータ) (2025-03-13T15:59:20Z) - Open or Closed LLM for Lesser-Resourced Languages? Lessons from Greek [2.3499129784547663]
我々は,7つのNLPタスクにおけるオープンソース(Llama-70b)とクローズドソース(GPT-4o mini)の大規模言語モデルの性能評価を行った。
第2に,事前学習における LLM による潜在的なデータ使用量を評価するツールとして,オーソリティ属性を再定義することにより,ギリシャ NLP の範囲を広げる。
第3に,STE(Summarize, Translate, Embed)法は,従来のTF-IDF法よりも長文のクラスタリングに優れる,法的NLPのケーススタディを示す。
論文 参考訳(メタデータ) (2025-01-22T12:06:16Z) - LINGOLY: A Benchmark of Olympiad-Level Linguistic Reasoning Puzzles in Low-Resource and Extinct Languages [8.754506364968394]
LingOlyベンチマークは、大規模言語モデルにおける高度な推論能力のための新しいベンチマークである。
非常に低リソースまたは絶滅した言語における言語パターンの文脈内同定と一般化の能力を評価する。
直接精度と非文脈ベースラインとの比較により,暗記を暗記する性能を評価する。
論文 参考訳(メタデータ) (2024-06-10T11:50:29Z) - YAYI 2: Multilingual Open-Source Large Language Models [53.92832054643197]
我々は,300億のパラメータを持つベースモデルとチャットモデルを含むYAYI 2を提案する。
YAYI 2は、トレーニング済みのデータ処理パイプラインによってフィルタされた2.65兆のトークンを含む多言語コーパス上で、スクラッチから事前トレーニングされる。
ベースモデルは、数百万の指示による教師付き微調整と、人間のフィードバックからの強化学習によって、人間の価値と整合する。
論文 参考訳(メタデータ) (2023-12-22T17:34:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。