論文の概要: IRLBench: A Multi-modal, Culturally Grounded, Parallel Irish-English Benchmark for Open-Ended LLM Reasoning Evaluation
- arxiv url: http://arxiv.org/abs/2505.13498v1
- Date: Fri, 16 May 2025 00:02:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:52.338533
- Title: IRLBench: A Multi-modal, Culturally Grounded, Parallel Irish-English Benchmark for Open-Ended LLM Reasoning Evaluation
- Title(参考訳): IRLBench: LLM推論評価のためのマルチモーダル、文化的基盤、並列アイルランド英語ベンチマーク
- Authors: Khanh-Tung Tran, Barry O'Sullivan, Hoang D. Nguyen,
- Abstract要約: 本稿では、英語とアイルランド語を併用したIRLBenchについて紹介する。
私たちのベンチマークは、2024年のアイリッシュリービング認定試験から開発された12の代表的な被験者で構成されています。
モデルが有効なアイルランド語の応答を80%以下に抑え、正しい答えが55.8%であるのに対し、最高のパフォーマンスのモデルでは76.2%が英語である。
- 参考スコア(独自算出の注目度): 3.9530780161144667
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent advances in Large Language Models (LLMs) have demonstrated promising knowledge and reasoning abilities, yet their performance in multilingual and low-resource settings remains underexplored. Existing benchmarks often exhibit cultural bias, restrict evaluation to text-only, rely on multiple-choice formats, and, more importantly, are limited for extremely low-resource languages. To address these gaps, we introduce IRLBench, presented in parallel English and Irish, which is considered definitely endangered by UNESCO. Our benchmark consists of 12 representative subjects developed from the 2024 Irish Leaving Certificate exams, enabling fine-grained analysis of model capabilities across domains. By framing the task as long-form generation and leveraging the official marking scheme, it does not only support a comprehensive evaluation of correctness but also language fidelity. Our extensive experiments of leading closed-source and open-source LLMs reveal a persistent performance gap between English and Irish, in which models produce valid Irish responses less than 80\% of the time, and answer correctly 55.8\% of the time compared to 76.2\% in English for the best-performing model. We release IRLBench (https://huggingface.co/datasets/ReliableAI/IRLBench) and an accompanying evaluation codebase (https://github.com/ReML-AI/IRLBench) to enable future research on robust, culturally aware multilingual AI development.
- Abstract(参考訳): 近年のLarge Language Models (LLM) の進歩は,有望な知識と推論能力を示しているが,多言語および低リソース環境での性能はいまだ検討されていない。
既存のベンチマークは、しばしば文化的バイアスを示し、テキストのみの評価を制限し、複数の選択形式に依存し、さらに重要なことは、極端に低リソースな言語に限られている。
これらのギャップに対処するために、ユネスコによって確実に危険にさらされていると考えられる、並行英語とアイルランド語で提示されるIRLBenchを紹介します。
我々のベンチマークは、2024年のIrish Leaving Certificate試験から開発された12の代表的な被験者で構成されており、ドメイン間のモデル能力のきめ細かい分析を可能にしている。
タスクを長文生成としてフレーミングし、公式なマーキング方式を活用することにより、完全性だけでなく言語忠実性も包括的に評価できる。
クローズドソースおよびオープンソース LLM をリードする大規模な実験では、英語とアイルランド語の間に持続的なパフォーマンスギャップが示され、モデルが有効なアイルランド語の応答を80%以下に生成し、正しい解答が55.8\%であるのに対して、最高の性能のモデルでは76.2\%である。
我々はIRLBench(https://huggingface.co/datasets/ReliableAI/IRLBench)とそれに伴う評価コードベース(https://github.com/ReML-AI/IRLBench)をリリースし、堅牢で文化的に認識された多言語AI開発に関する将来の研究を可能にする。
関連論文リスト
- MMLU-ProX: A Multilingual Benchmark for Advanced Large Language Model Evaluation [60.52580061637301]
MMLU-ProXは、言語毎に約11,829の質問を持つ、13の型的多様言語をカバーする包括的なベンチマークである。
5ショットチェーン(CoT)とゼロショットプロンプト戦略を用いて25の最先端の大規模言語モデル(LLM)を評価し,言語的・文化的境界を越えてその性能を解析した。
我々の実験は、ハイリソース言語から低リソース言語への一貫したパフォーマンス劣化を示し、最高のモデルは英語で70%以上の精度を達成しているが、Swahiliのような言語では40%程度にまで低下している。
論文 参考訳(メタデータ) (2025-03-13T15:59:20Z) - INJONGO: A Multicultural Intent Detection and Slot-filling Dataset for 16 African Languages [15.983678567785004]
スロットフィリングとインテント検出は、会話型AIにおいて確立されたタスクである。
Injongoは16のアフリカ言語のための、多文化でオープンソースのベンチマークデータセットです。
アフリカ文化の発話を西洋中心の発話に活用して言語間移動を改善する利点を示す。
論文 参考訳(メタデータ) (2025-02-13T23:17:10Z) - IrokoBench: A New Benchmark for African Languages in the Age of Large Language Models [18.083861654053585]
IrokoBenchは17の原型的に異なる低リソースのアフリカ言語のための人間翻訳ベンチマークデータセットである。
IrokoBenchを使って、10のオープンおよび6つのプロプライエタリ言語モデルでゼロショット、少数ショット、および翻訳テストの設定(テストセットを英語に翻訳する)を評価します。
オープンモデルとプロプライエタリモデルの間には大きなパフォーマンスギャップがあり、最高パフォーマンスのオープンモデルであるGemma 2 27Bは、最高のパフォーマンスのプロプライエタリモデルであるGPT-4oのパフォーマンスの63%に過ぎません。
論文 参考訳(メタデータ) (2024-06-05T15:23:08Z) - UCCIX: Irish-eXcellence Large Language Model [3.9530780161144667]
この研究は、UCCIXというオープンソースのアイルランドのLLMの開発における先駆的な取り組みを提示している。
極低リソース言語に特化して適応したLLMの事前学習を継続する新しいフレームワークを提案する。
Llama 2-13Bをベースとした我々のモデルは、最大12%のパフォーマンス改善でアイルランド語のタスクにおいて、はるかに大きなモデルより優れています。
論文 参考訳(メタデータ) (2024-05-13T13:19:27Z) - The Power of Question Translation Training in Multilingual Reasoning: Broadened Scope and Deepened Insights [108.40766216456413]
大規模言語モデルの英語と非英語のパフォーマンスのギャップを埋めるための質問アライメントフレームワークを提案する。
実験結果から、さまざまな推論シナリオ、モデルファミリー、サイズにわたって、多言語のパフォーマンスを向上できることが示された。
我々は、表現空間、生成された応答とデータスケールを分析し、質問翻訳訓練がLLM内の言語アライメントをどのように強化するかを明らかにする。
論文 参考訳(メタデータ) (2024-05-02T14:49:50Z) - CIF-Bench: A Chinese Instruction-Following Benchmark for Evaluating the Generalizability of Large Language Models [53.9835961434552]
本研究では,中国語に対する大規模言語モデル(LLM)の一般化性を評価するために,中国語命令追跡ベンチマーク(CIF-Bench)を導入する。
CIF-Benchは150のタスクと15,000の入力出力ペアで構成され、複雑な推論と中国の文化的ニュアンスをテストするためにネイティブスピーカーによって開発された。
データ汚染を軽減するため、データセットの半分しか公開せず、残りは非公開であり、スコア分散を最小限に抑えるために多種多様な命令を導入する。
論文 参考訳(メタデータ) (2024-02-20T16:02:12Z) - High-quality Data-to-Text Generation for Severely Under-Resourced
Languages with Out-of-the-box Large Language Models [5.632410663467911]
我々は、事前訓練された大規模言語モデル(LLM)が、アンダーリソース言語のパフォーマンスギャップを埋める可能性について検討する。
LLM は,低リソース言語における技術の現状を,かなりのマージンで容易に設定できることがわかった。
全ての言語について、人間の評価は最高のシステムで人間と同等のパフォーマンスを示すが、BLEUのスコアは英語に比べて崩壊する。
論文 参考訳(メタデータ) (2024-02-19T16:29:40Z) - Breaking Language Barriers in Multilingual Mathematical Reasoning: Insights and Observations [59.056367787688146]
本稿では, マルチリンガル数学推論 (xMR) LLM の探索と学習の先駆者である。
我々は10の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
翻訳を利用して、10個の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
論文 参考訳(メタデータ) (2023-10-31T08:09:20Z) - AmericasNLI: Evaluating Zero-shot Natural Language Understanding of
Pretrained Multilingual Models in Truly Low-resource Languages [75.08199398141744]
我々は、XNLI(Conneau et al)の拡張である AmericasNLI を提示する。
は、アメリカ大陸の10の原住民の言語である。
XLM-Rで実験を行い、複数のゼロショットおよび翻訳ベースのアプローチをテストします。
XLM-Rのゼロショット性能は全10言語で低調であり、平均性能は38.62%である。
論文 参考訳(メタデータ) (2021-04-18T05:32:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。