論文の概要: Arabic Prompts with English Tools: A Benchmark
- arxiv url: http://arxiv.org/abs/2601.05101v1
- Date: Thu, 08 Jan 2026 16:47:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:53.284409
- Title: Arabic Prompts with English Tools: A Benchmark
- Title(参考訳): 英語ツールによるアラビア語のプロンプト:ベンチマーク
- Authors: Konstantin Kubrak, Ahmed El-Moselhy, Ammar Alsulami, Remaz Altuwaim, Hassan Ismail Fawaz, Faisal Alsaby,
- Abstract要約: 本稿では,アラビア語における大規模言語モデル(LLM)のツールコールとエージェント機能を評価するための最初のベンチマークを紹介する。
ツールコールの精度は、ツール記述自体がアラビア語であれ英語であれ、平均で5~10%低下する。
これらの重要な課題に光を当てることで、このベンチマークは、アラビア語話者のためのより信頼性が高く言語的に公平なAIエージェントの開発を促進することを目的としている。
- 参考スコア(独自算出の注目度): 0.20524609401792393
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) are now integral to numerous industries, increasingly serving as the core reasoning engine for autonomous agents that perform complex tasks through tool-use. While the development of Arabic-native LLMs is accelerating, the benchmarks for evaluating their capabilities lag behind, with most existing frameworks focusing on English. A critical and overlooked area is tool-calling, where the performance of models prompted in non-English languages like Arabic is poorly understood, especially since these models are often pretrained on predominantly English data. This paper addresses this critical gap by introducing the first dedicated benchmark for evaluating the tool-calling and agentic capabilities of LLMs in the Arabic language. Our work provides a standardized framework to measure the functional accuracy and robustness of models in Arabic agentic workflows. Our findings reveal a huge performance gap: when users interact in Arabic, tool-calling accuracy drops by an average of 5-10\%, regardless of whether the tool descriptions themselves are in Arabic or English. By shedding light on these critical challenges, this benchmark aims to foster the development of more reliable and linguistically equitable AI agents for Arabic-speaking users.
- Abstract(参考訳): 大規模言語モデル(LLM)は今や多くの産業に不可欠な存在であり、ツール使用による複雑なタスクを実行する自律エージェントのコア推論エンジンとしての役割を担っている。
アラビア語ネイティブのLLMの開発は加速しているが、その能力を評価するためのベンチマークは遅れており、既存のフレームワークのほとんどは英語に焦点を当てている。
批判的で見落とされがちな領域はツールコールであり、アラビア語のような非英語の言語で引き起こされるモデルのパフォーマンスは、特にこれらのモデルは、主に英語のデータに基づいて事前訓練されているため、よく理解されていない。
本稿では、アラビア語におけるLSMのツールコールとエージェント能力を評価するための、最初の専用ベンチマークを導入することで、この重要なギャップを解消する。
我々の研究は、アラビアのエージェントワークフローにおけるモデルの機能的正確性と堅牢性を測定するための標準化されたフレームワークを提供する。
ツールコールの精度は、ツール記述自体がアラビア語であれ英語であれ、平均で5~10\%低下する。
これらの重要な課題に光を当てることで、このベンチマークは、アラビア語話者のためのより信頼性が高く言語的に均等なAIエージェントの開発を促進することを目的としている。
関連論文リスト
- Tool Calling for Arabic LLMs: Data Strategies and Instruction Tuning [8.009383136558823]
2つのオープンソースのツールコールデータセットをアラビア語に翻訳し、適応することで、リソースギャップを埋める。
本研究は,アラビア語に対する堅牢なツール強化剤開発のための最適戦略に関する重要な知見を提供する。
論文 参考訳(メタデータ) (2025-09-25T09:45:12Z) - Enhanced Arabic Text Retrieval with Attentive Relevance Scoring [12.053940320312355]
アラビア語は自然言語処理と情報検索に特に挑戦している。
アラビア語の国際的重要性は高まっているが、NLPの研究やベンチマークの資源では未だに不足している。
本稿ではアラビア語に特化した拡張されたDense Passage Retrievalフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-31T10:18:28Z) - BALSAM: A Platform for Benchmarking Arabic Large Language Models [34.50348949235453]
BALSAMは、アラビア語のLLM開発と評価を進めることを目的とした総合的なコミュニティ主導のベンチマークである。
14の幅広いカテゴリから78のNLPタスクが含まれており、52Kのサンプルは37Kテストと15K開発に分割されている。
論文 参考訳(メタデータ) (2025-07-30T12:16:39Z) - Command R7B Arabic: A Small, Enterprise Focused, Multilingual, and Culturally Aware Arabic LLM [32.99591671206201]
エンタプライズアラビアアプリケーションのための高品質な大規模言語モデル(LLM)の構築は、デジタルアラビアデータの利用が限られているため、依然として困難である。
本稿では, この問題を解決するために, 合成データ生成とヒューマン・イン・ザ・ループアノテーションを活用したデータ合成・改良戦略を提案する。
この取り組みの成果は、小規模で7Bのオープンウェイトモデルのリリースであり、同様に、頭と頭の比較やアラビアのベンチマークにおいて、同等の大きさのピアを上回っている。
論文 参考訳(メタデータ) (2025-03-18T18:03:49Z) - Second Language (Arabic) Acquisition of LLMs via Progressive Vocabulary Expansion [70.23624194206171]
本稿では,アラブ世界における大規模言語モデル(LLM)の民主化の必要性に対処する。
アラビア語のLLMの実用的な目的の1つは、復号を高速化するトークン化器にアラビア語固有の語彙を使用することである。
第二言語(アラビア語)による人への獲得の間に語彙学習に触発されたAraLLaMAは、進歩的な語彙拡張を採用している。
論文 参考訳(メタデータ) (2024-12-16T19:29:06Z) - On the importance of Data Scale in Pretraining Arabic Language Models [46.431706010614334]
アラビア事前訓練言語モデル(PLM)におけるデータの役割に関する総合的研究を行う。
我々は、大規模で高品質なアラビアコーパスを用いて、最先端のアラビアPLMの性能を再評価する。
我々の分析は、データの事前学習がパフォーマンスの主要な要因であり、他の要因を超えていることを強く示唆している。
論文 参考訳(メタデータ) (2024-01-15T15:11:15Z) - AceGPT, Localizing Large Language Models in Arabic [73.39989503874634]
本稿では,アラビア語のテキストによる事前学習,ネイティブなアラビア語命令を利用したSFT(Supervised Fine-Tuning),アラビア語のGPT-4応答を含む総合的なソリューションを提案する。
目標は、文化的に認知され、価値に整合したアラビア語のLLMを、多様で応用特有のアラビア語コミュニティのニーズに適応させることである。
論文 参考訳(メタデータ) (2023-09-21T13:20:13Z) - Cross-Lingual NER for Financial Transaction Data in Low-Resource
Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。
我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。
わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文 参考訳(メタデータ) (2023-07-16T00:45:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。