Fugu-MT 論文翻訳(概要): ArabicNumBench: Evaluating Arabic Number Reading in Large Language Models

論文の概要: ArabicNumBench: Evaluating Arabic Number Reading in Large Language Models

arxiv url: http://arxiv.org/abs/2602.18776v1
Date: Sat, 21 Feb 2026 10:00:56 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-24 17:42:02.309462
Title: ArabicNumBench: Evaluating Arabic Number Reading in Large Language Models
Title（参考訳）: アラビア語NumBench:大規模言語モデルによるアラビア数字読解の評価
Authors: Anas Alhumud, Abdulaziz Alhammadi, Muhammad Badruddin Khan,
Abstract要約: 東アラビア・インド数字 (0-9) と西アラビア数字 (0-9) にまたがるアラビア数字読解タスクにおける大きな言語モデルを評価する。 6つのカテゴリにまたがる210個の数字読解タスクに対して,0ショット,0ショット,0ショット,数ショット,数ショットのCoT)の4つのプロンプト戦略を用いて,10プロバイダから71個のモデルを評価した。本評価は,59,010件の個別試験事例と,構造化出力の生成量を測定するトラック抽出手法からなる。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present ArabicNumBench, a comprehensive benchmark for evaluating large language models on Arabic number reading tasks across Eastern Arabic-Indic numerals (0-9 in Arabic script) and Western Arabic numerals (0-9). We evaluate 71 models from 10 providers using four prompting strategies (zero-shot, zero-shot CoT, few-shot, few-shot CoT) on 210 number reading tasks spanning six contextual categories: pure numerals, addresses, dates, quantities, and prices. Our evaluation comprises 59,010 individual test cases and tracks extraction methods to measure structured output generation. Evaluation reveals substantial performance variation, with accuracy ranging from 14.29\% to 99.05\% across models and strategies. Few-shot Chain-of-Thought prompting achieves 2.8x higher accuracy than zero-shot approaches (80.06\% vs 28.76\%). A striking finding emerges: models achieving elite accuracy (98-99\%) often produce predominantly unstructured output, with most responses lacking Arabic CoT markers. Only 6 models consistently generate structured output across all test cases, while the majority require fallback extraction methods despite high numerical accuracy. Comprehensive evaluation of 281 model-strategy combinations demonstrates that numerical accuracy and instruction-following represent distinct capabilities, establishing baselines for Arabic number comprehension and providing actionable guidance for model selection in production Arabic NLP systems.
Abstract（参考訳）: アラビア・インド数字(アラビア語の文字で0-9)と西アラビア数字(アラビア語の文字で0-9)にまたがるアラビア数字読解タスクの大規模言語モデルを評価するための総合ベンチマークであるアラビア・ナムベンチについて述べる。我々は、純粋な数字、住所、日付、量、価格の6つのカテゴリにまたがる210個の数字読解タスクに対して、4つのプロンプト戦略(ゼロショット、ゼロショット、少数ショット、少数ショットのCoT)を用いて、10のプロバイダから71のモデルを評価した。本評価は,59,010件の個別試験事例と,構造化出力の生成量を測定するトラック抽出手法からなる。評価は、モデルと戦略間で14.29\%から99.05\%の精度でかなりの性能変化を示す。ゼロショットのアプローチよりも2.8倍の精度(80.06\%対28.76\%)を達成する。顕著な発見は、エリート精度(98-99\%)を達成するモデルは、主に非構造的な出力を生成し、ほとんどの応答はアラビアのCoTマーカーを欠いている。テストケース全体の構造的出力を連続的に生成するモデルは6モデルしかないが、大多数は数値的精度が高いにもかかわらずフォールバック抽出法を必要とする。 281のモデル・ストラテジーの組み合わせの包括的評価は、数値的精度と命令追従が異なる能力を表すことを示し、アラビア数字理解のためのベースラインを確立し、生産アラビアNLPシステムにおけるモデル選択のための実行可能なガイダンスを提供する。

関連論文リスト

A Multi-Language Object-Oriented Programming Benchmark for Large Language Models [61.267115598083315]
35の既存ベンチマークの調査では、3つの大きな不均衡が明らかになった。 85.7%は単一のプログラミング言語に重点を置いている。 94.3%は関数レベルまたはステートメントレベルのタスクのみを対象としている。 80%以上は平均10件未満のテストケースを含む。
論文参考訳（メタデータ） (2025-09-30T11:30:08Z)
Advancing Dialectal Arabic to Modern Standard Arabic Machine Translation [22.369277951685234]
本稿では,レバンタ語,エジプト語,湾岸方言のDA-MSA翻訳の進展に寄与する2つの中核的貢献について述べる。ゼロショット,チェーン・オブ・シント,提案手法であるAra-TEaR法を改良した。微調整 LLM では、量子化された Gemma2-9B モデルが 49.88 の chrF++ スコアを獲得し、ゼロショット GPT-4o (44.58) を上回った。
論文参考訳（メタデータ） (2025-07-27T14:37:53Z)
Broken Tokens? Your Language Model can Secretly Handle Non-Canonical Tokenizations [83.93566096400723]
ランダムにサンプリングされたトークン化が与えられた場合、命令調整されたモデルは元の性能の最大93.4%を維持している。文字レベルのセグメンテーションは文字列操作とコード理解タスクを最大+14%改善する。右列桁のグルーピングは、大数の算術を+33%向上させる。
論文参考訳（メタデータ） (2025-06-23T18:02:26Z)
Invizo: Arabic Handwritten Document Optical Character Recognition Solution [2.5819726282014654]
この研究は、アラビア語の手書き、印刷、およびアラビア数字を認識するためのエンドツーエンドのソリューションを提案する。我々は81.66%の精度、78.82%のリコール、79.07%のF測定に到達した。
論文参考訳（メタデータ） (2025-02-07T19:25:33Z)
Strategies for Arabic Readability Modeling [9.976720880041688]
自動可読性評価は、教育、コンテンツ分析、アクセシビリティのためのNLPアプリケーションの構築に関係している。本稿では,アラビア可読性評価に関する実験結果について,多種多様なアプローチを用いて述べる。
論文参考訳（メタデータ） (2024-07-03T11:54:11Z)
Language Models for Text Classification: Is In-Context Learning Enough? [54.869097980761595]
最近の基礎言語モデルでは、ゼロショットや少数ショットの設定で多くのNLPタスクで最先端のパフォーマンスが示されている。より標準的なアプローチよりもこれらのモデルの利点は、自然言語(prompts)で書かれた命令を理解する能力である。これにより、アノテーション付きインスタンスが限られているドメインのテキスト分類問題に対処するのに適している。
論文参考訳（メタデータ） (2024-03-26T12:47:39Z)
ArabianGPT: Native Arabic GPT-based Large Language Model [2.8623940003518156]
本稿ではアラビアンLLMスイート内の一連のトランスフォーマーモデルであるアラビアンGPTを提案する。これらのモデルに不可欠なアラナイザー・トークンーザはアラビア文字のユニークな形態的側面に対処する。感情分析では、微調整されたアラビアのGPT-0.1Bモデルは95%の顕著な精度を達成し、ベースモデルの56%から大幅に増加した。
論文参考訳（メタデータ） (2024-02-23T13:32:47Z)
ArabicMMLU: Assessing Massive Multitask Language Understanding in Arabic [51.922112625469836]
アラビア語における最初のマルチタスク言語理解ベンチマークである、データセット名を提案する。我々のデータは、現代標準アラビア語(MSA)における40のタスクと14,575のマルチチョイス質問で構成されており、地域の母語話者と協調して慎重に構築されている。 35モデルについて評価した結果,特にオープンソースモデルにおいて,改善の余地がかなり高いことが判明した。
論文参考訳（メタデータ） (2024-02-20T09:07:41Z)
Breaking Language Barriers in Multilingual Mathematical Reasoning: Insights and Observations [59.056367787688146]
本稿では, マルチリンガル数学推論 (xMR) LLM の探索と学習の先駆者である。我々は10の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。翻訳を利用して、10個の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
論文参考訳（メタデータ） (2023-10-31T08:09:20Z)
AceGPT, Localizing Large Language Models in Arabic [73.39989503874634]
本稿では,アラビア語のテキストによる事前学習,ネイティブなアラビア語命令を利用したSFT(Supervised Fine-Tuning),アラビア語のGPT-4応答を含む総合的なソリューションを提案する。目標は、文化的に認知され、価値に整合したアラビア語のLLMを、多様で応用特有のアラビア語コミュニティのニーズに適応させることである。
論文参考訳（メタデータ） (2023-09-21T13:20:13Z)
A Sequence-to-Sequence Approach for Arabic Pronoun Resolution [0.0]
本稿では,アラビア代名詞解決のためのシーケンス・ツー・シーケンス学習手法を提案する。提案手法はAnATArデータセットを用いて評価する。
論文参考訳（メタデータ） (2023-05-19T08:53:41Z)
Self-Consistency Improves Chain of Thought Reasoning in Language Models [53.45015291520658]
我々は,大規模言語モデルの推論精度を大幅に向上させる,単純なアンサンブル戦略,自己整合性を探究する。算術的および常識的推論ベンチマークでは、自己整合性は大幅な精度の向上をもたらす。
論文参考訳（メタデータ） (2022-03-21T17:48:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。