論文の概要: ArabicNumBench: Evaluating Arabic Number Reading in Large Language Models
- arxiv url: http://arxiv.org/abs/2602.18776v1
- Date: Sat, 21 Feb 2026 10:00:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.309462
- Title: ArabicNumBench: Evaluating Arabic Number Reading in Large Language Models
- Title(参考訳): アラビア語NumBench:大規模言語モデルによるアラビア数字読解の評価
- Authors: Anas Alhumud, Abdulaziz Alhammadi, Muhammad Badruddin Khan,
- Abstract要約: 東アラビア・インド数字 (0-9) と西アラビア数字 (0-9) にまたがるアラビア数字読解タスクにおける大きな言語モデルを評価する。
6つのカテゴリにまたがる210個の数字読解タスクに対して,0ショット,0ショット,0ショット,数ショット,数ショットのCoT)の4つのプロンプト戦略を用いて,10プロバイダから71個のモデルを評価した。
本評価は,59,010件の個別試験事例と,構造化出力の生成量を測定するトラック抽出手法からなる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present ArabicNumBench, a comprehensive benchmark for evaluating large language models on Arabic number reading tasks across Eastern Arabic-Indic numerals (0-9 in Arabic script) and Western Arabic numerals (0-9). We evaluate 71 models from 10 providers using four prompting strategies (zero-shot, zero-shot CoT, few-shot, few-shot CoT) on 210 number reading tasks spanning six contextual categories: pure numerals, addresses, dates, quantities, and prices. Our evaluation comprises 59,010 individual test cases and tracks extraction methods to measure structured output generation. Evaluation reveals substantial performance variation, with accuracy ranging from 14.29\% to 99.05\% across models and strategies. Few-shot Chain-of-Thought prompting achieves 2.8x higher accuracy than zero-shot approaches (80.06\% vs 28.76\%). A striking finding emerges: models achieving elite accuracy (98-99\%) often produce predominantly unstructured output, with most responses lacking Arabic CoT markers. Only 6 models consistently generate structured output across all test cases, while the majority require fallback extraction methods despite high numerical accuracy. Comprehensive evaluation of 281 model-strategy combinations demonstrates that numerical accuracy and instruction-following represent distinct capabilities, establishing baselines for Arabic number comprehension and providing actionable guidance for model selection in production Arabic NLP systems.
- Abstract(参考訳): アラビア・インド数字(アラビア語の文字で0-9)と西アラビア数字(アラビア語の文字で0-9)にまたがるアラビア数字読解タスクの大規模言語モデルを評価するための総合ベンチマークであるアラビア・ナムベンチについて述べる。
我々は、純粋な数字、住所、日付、量、価格の6つのカテゴリにまたがる210個の数字読解タスクに対して、4つのプロンプト戦略(ゼロショット、ゼロショット、少数ショット、少数ショットのCoT)を用いて、10のプロバイダから71のモデルを評価した。
本評価は,59,010件の個別試験事例と,構造化出力の生成量を測定するトラック抽出手法からなる。
評価は、モデルと戦略間で14.29\%から99.05\%の精度でかなりの性能変化を示す。
ゼロショットのアプローチよりも2.8倍の精度(80.06\%対28.76\%)を達成する。
顕著な発見は、エリート精度(98-99\%)を達成するモデルは、主に非構造的な出力を生成し、ほとんどの応答はアラビアのCoTマーカーを欠いている。
テストケース全体の構造的出力を連続的に生成するモデルは6モデルしかないが、大多数は数値的精度が高いにもかかわらずフォールバック抽出法を必要とする。
281のモデル・ストラテジーの組み合わせの包括的評価は、数値的精度と命令追従が異なる能力を表すことを示し、アラビア数字理解のためのベースラインを確立し、生産アラビアNLPシステムにおけるモデル選択のための実行可能なガイダンスを提供する。
関連論文リスト
- Advancing Dialectal Arabic to Modern Standard Arabic Machine Translation [22.369277951685234]
本稿では,レバンタ語,エジプト語,湾岸方言のDA-MSA翻訳の進展に寄与する2つの中核的貢献について述べる。
ゼロショット,チェーン・オブ・シント,提案手法であるAra-TEaR法を改良した。
微調整 LLM では、量子化された Gemma2-9B モデルが 49.88 の chrF++ スコアを獲得し、ゼロショット GPT-4o (44.58) を上回った。
論文 参考訳(メタデータ) (2025-07-27T14:37:53Z) - Invizo: Arabic Handwritten Document Optical Character Recognition Solution [2.5819726282014654]
この研究は、アラビア語の手書き、印刷、およびアラビア数字を認識するためのエンドツーエンドのソリューションを提案する。
我々は81.66%の精度、78.82%のリコール、79.07%のF測定に到達した。
論文 参考訳(メタデータ) (2025-02-07T19:25:33Z) - Strategies for Arabic Readability Modeling [9.976720880041688]
自動可読性評価は、教育、コンテンツ分析、アクセシビリティのためのNLPアプリケーションの構築に関係している。
本稿では,アラビア可読性評価に関する実験結果について,多種多様なアプローチを用いて述べる。
論文 参考訳(メタデータ) (2024-07-03T11:54:11Z) - ArabianGPT: Native Arabic GPT-based Large Language Model [2.8623940003518156]
本稿ではアラビアンLLMスイート内の一連のトランスフォーマーモデルであるアラビアンGPTを提案する。
これらのモデルに不可欠なアラナイザー・トークンーザはアラビア文字のユニークな形態的側面に対処する。
感情分析では、微調整されたアラビアのGPT-0.1Bモデルは95%の顕著な精度を達成し、ベースモデルの56%から大幅に増加した。
論文 参考訳(メタデータ) (2024-02-23T13:32:47Z) - ArabicMMLU: Assessing Massive Multitask Language Understanding in Arabic [51.922112625469836]
アラビア語における最初のマルチタスク言語理解ベンチマークである、データセット名を提案する。
我々のデータは、現代標準アラビア語(MSA)における40のタスクと14,575のマルチチョイス質問で構成されており、地域の母語話者と協調して慎重に構築されている。
35モデルについて評価した結果,特にオープンソースモデルにおいて,改善の余地がかなり高いことが判明した。
論文 参考訳(メタデータ) (2024-02-20T09:07:41Z) - AceGPT, Localizing Large Language Models in Arabic [73.39989503874634]
本稿では,アラビア語のテキストによる事前学習,ネイティブなアラビア語命令を利用したSFT(Supervised Fine-Tuning),アラビア語のGPT-4応答を含む総合的なソリューションを提案する。
目標は、文化的に認知され、価値に整合したアラビア語のLLMを、多様で応用特有のアラビア語コミュニティのニーズに適応させることである。
論文 参考訳(メタデータ) (2023-09-21T13:20:13Z) - Self-Consistency Improves Chain of Thought Reasoning in Language Models [53.45015291520658]
我々は,大規模言語モデルの推論精度を大幅に向上させる,単純なアンサンブル戦略,自己整合性を探究する。
算術的および常識的推論ベンチマークでは、自己整合性は大幅な精度の向上をもたらす。
論文 参考訳(メタデータ) (2022-03-21T17:48:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。