論文の概要: 3LM: Bridging Arabic, STEM, and Code through Benchmarking
- arxiv url: http://arxiv.org/abs/2507.15850v3
- Date: Fri, 25 Jul 2025 12:36:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-28 12:12:30.203609
- Title: 3LM: Bridging Arabic, STEM, and Code through Benchmarking
- Title(参考訳): 3LM: ベンチマークによるアラビア語、STEM、コードのブリッジ
- Authors: Basma El Amel Boussaha, Leen AlQadi, Mugariya Farooq, Shaikha Alsuwaidi, Giulia Campesan, Ahmed Alzubaidi, Mohammed Alyafeai, Hakim Hacid,
- Abstract要約: 3LMはアラビア語用に特別に設計された3つのベンチマークのスイートである。
1つ目は、アラビア語の教科書と教育用ワークシートから自然に派生した、STEM関連の質問応答ペアのセットである。
2つ目は、同じソースを用いて合成されたSTEM質問である。
第3のベンチマークは、2つの広く使用されているコードベンチマークを注意深く翻訳することで構築されたコード生成に焦点を当てている。
- 参考スコア(独自算出の注目度): 0.7227323884094952
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Arabic is one of the most widely spoken languages in the world, yet efforts to develop and evaluate Large Language Models (LLMs) for Arabic remain relatively limited. Most existing Arabic benchmarks focus on linguistic, cultural, or religious content, leaving a significant gap in domains like STEM and code which are increasingly relevant for real-world LLM applications. To help bridge this gap, we present 3LM, a suite of three benchmarks designed specifically for Arabic. The first is a set of STEM-related question-answer pairs, naturally sourced from Arabic textbooks and educational worksheets. The second consists of synthetically generated STEM questions, created using the same sources. The third benchmark focuses on code generation, built through a careful translation of two widely used code benchmarks, incorporating a human-in-the-loop process with several rounds of review to ensure high-quality and faithful translations. We release all three benchmarks publicly to support the growth of Arabic LLM research in these essential but underrepresented areas.
- Abstract(参考訳): アラビア語は世界で最も広く話されている言語の一つだが、アラビア語のための大規模言語モデル(LLM)の開発と評価は比較的限られている。
既存のアラビアのベンチマークのほとんどは言語、文化的、宗教的な内容に重点を置いており、STEMやコードのような現実世界のLLMアプリケーションにますます関係する領域で大きなギャップを残している。
このギャップを埋めるために、アラビア語用に特別に設計された3つのベンチマークスイートである3LMを紹介します。
1つ目は、アラビア語の教科書と教育用ワークシートから自然に派生した、STEM関連の質問応答ペアのセットである。
2つ目は、同じソースを用いて合成されたSTEM質問である。
第3のベンチマークでは,2つの広く使用されているコードベンチマークの注意深く翻訳を通じて構築されたコード生成に焦点が当てられている。
この3つのベンチマークを公開し、アラビアのLLM研究の成長を支援する。
関連論文リスト
- Evaluating Large Language Model with Knowledge Oriented Language Specific Simple Question Answering [73.73820209993515]
KoLasSimpleQAは,Large Language Models (LLMs) の多言語事実能力を評価する最初のベンチマークである。
既存の研究に触発されて、単一知識点カバレッジ、絶対的客観性、独特な答え、時間的安定性といった特徴を備えた質問セットを作成しました。
その結果,2つの領域間に大きな性能差が認められた。
論文 参考訳(メタデータ) (2025-05-22T12:27:02Z) - Large Language Models and Arabic Content: A Review [0.0]
本研究は,アラビア語に対する大規模言語モデル (LLM) の利用について概説する。
様々なNLPアプリケーションにまたがる、初期の訓練済みのアラビア語モデルを強調している。
また、ファインチューニングやプロンプトエンジニアリングのような技術がこれらのモデルの性能を高める方法の概要も提供する。
論文 参考訳(メタデータ) (2025-05-12T19:09:12Z) - AIN: The Arabic INclusive Large Multimodal Model [71.29419186696138]
AIN (英語: AIN) は、英語とアラビア語で卓越するように設計された英語とアラビア語のバイリンガルLMMである。
AINは最先端のアラビア語のパフォーマンスを実証する一方で、英語の視覚能力も優れている。
AINの優れた能力は、先進的なマルチモーダル生成AIツールでアラビア語話者を強化するための重要なステップである。
論文 参考訳(メタデータ) (2025-01-31T18:58:20Z) - AraSTEM: A Native Arabic Multiple Choice Question Benchmark for Evaluating LLMs Knowledge In STEM Subjects [0.6564819194719582]
我々は、STEM科目におけるLarge Language Models (LLMs) の知識を評価することを目的とした、アラビア語多目的質問データセットであるAraSTEMを紹介する。
このデータセットはさまざまなレベルのトピックにまたがっており、高い精度を達成するためには、科学的アラビアの深い理解をモデルに示さなければならない。
以上の結果から, 様々なサイズの公開モデルがこのデータセットに苦慮し, より局所的な言語モデルの必要性を浮き彫りにしていることがわかった。
論文 参考訳(メタデータ) (2024-12-31T17:45:12Z) - Second Language (Arabic) Acquisition of LLMs via Progressive Vocabulary Expansion [55.27025066199226]
本稿では,アラブ世界における大規模言語モデル(LLM)の民主化の必要性に対処する。
アラビア語のLLMの実用的な目的の1つは、復号を高速化するトークン化器にアラビア語固有の語彙を使用することである。
第二言語(アラビア語)による人への獲得の間に語彙学習に触発されたAraLLaMAは、進歩的な語彙拡張を採用している。
論文 参考訳(メタデータ) (2024-12-16T19:29:06Z) - ArabLegalEval: A Multitask Benchmark for Assessing Arabic Legal Knowledge in Large Language Models [0.0]
ArabLegalEvalは、大規模言語モデル(LLM)のアラビア語法的知識を評価するためのベンチマークデータセットである。
MMLUとLegalBenchのデータセットにインスパイアされたArabLegalEvalは、サウジアラビアの法的文書から得られた複数のタスクと、質問を合成する。
本研究の目的は、アラビア語の法的な問題を解くために必要な能力を分析し、最先端のLLMの性能をベンチマークすることである。
論文 参考訳(メタデータ) (2024-08-15T07:09:51Z) - ArabicaQA: A Comprehensive Dataset for Arabic Question Answering [13.65056111661002]
アラビカQAは、アラビア語で機械読解とオープンドメイン質問応答のための最初の大規模データセットである。
また、アラビア語ウィキペディアコーパスで訓練された最初の高密度経路探索モデルであるAraDPRを提示する。
論文 参考訳(メタデータ) (2024-03-26T16:37:54Z) - ArabicMMLU: Assessing Massive Multitask Language Understanding in Arabic [51.922112625469836]
アラビア語における最初のマルチタスク言語理解ベンチマークである、データセット名を提案する。
我々のデータは、現代標準アラビア語(MSA)における40のタスクと14,575のマルチチョイス質問で構成されており、地域の母語話者と協調して慎重に構築されている。
35モデルについて評価した結果,特にオープンソースモデルにおいて,改善の余地がかなり高いことが判明した。
論文 参考訳(メタデータ) (2024-02-20T09:07:41Z) - AceGPT, Localizing Large Language Models in Arabic [73.39989503874634]
本稿では,アラビア語のテキストによる事前学習,ネイティブなアラビア語命令を利用したSFT(Supervised Fine-Tuning),アラビア語のGPT-4応答を含む総合的なソリューションを提案する。
目標は、文化的に認知され、価値に整合したアラビア語のLLMを、多様で応用特有のアラビア語コミュニティのニーズに適応させることである。
論文 参考訳(メタデータ) (2023-09-21T13:20:13Z) - MCoNaLa: A Benchmark for Code Generation from Multiple Natural Languages [76.93265104421559]
英語以外の自然言語コマンドからコード生成をベンチマークします。
スペイン語,日本語,ロシア語の3言語で896個のNLコードペアを注釈した。
難易度はこれらの3つの言語によって異なるが、全てのシステムは英語にかなり遅れている。
論文 参考訳(メタデータ) (2022-03-16T04:21:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。