論文の概要: AraReasoner: Evaluating Reasoning-Based LLMs for Arabic NLP
- arxiv url: http://arxiv.org/abs/2506.08768v1
- Date: Tue, 10 Jun 2025 13:10:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:42.478112
- Title: AraReasoner: Evaluating Reasoning-Based LLMs for Arabic NLP
- Title(参考訳): AraReasoner: アラビアNLPにおける推論に基づくLLMの評価
- Authors: Ahmed Hasanaath, Aisha Alansari, Ahmed Ashraf, Chafik Salmane, Hamzah Luqman, Saad Ezzini,
- Abstract要約: 大規模言語モデル(LLM)は推論能力の顕著な進歩を示している。
しかし、アラビアデータにおける彼らのパフォーマンスは、豊富な形態学、多様な方言、複雑な文字によって特徴づけられ、未発見のままである。
本稿では,複数の推論に焦点をあてたLLMの総合的なベンチマーク研究について述べる。
- 参考スコア(独自算出の注目度): 2.869780207429188
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have shown remarkable progress in reasoning abilities and general natural language processing (NLP) tasks, yet their performance on Arabic data, characterized by rich morphology, diverse dialects, and complex script, remains underexplored. This paper presents a comprehensive benchmarking study of multiple reasoning-focused LLMs, with a special emphasis on the newly introduced DeepSeek models, across a suite of fifteen Arabic NLP tasks. We experiment with various strategies, including zero-shot, few-shot, and fine-tuning. This allows us to systematically evaluate performance on datasets covering a range of applications to examine their capacity for linguistic reasoning under different levels of complexity. Our experiments reveal several key findings. First, carefully selecting just three in-context examples delivers an average uplift of over 13 F1 points on classification tasks-boosting sentiment analysis from 35.3% to 87.5% and paraphrase detection from 56.1% to 87.0%. Second, reasoning-focused DeepSeek architectures outperform a strong GPT o4-mini baseline by an average of 12 F1 points on complex inference tasks in the zero-shot setting. Third, LoRA-based fine-tuning yields up to an additional 8 points in F1 and BLEU compared to equivalent increases in model scale. The code is available at https://anonymous.4open.science/r/AraReasoner41299
- Abstract(参考訳): 大規模言語モデル(LLM)は、推論能力と一般的な自然言語処理(NLP)タスクにおいて顕著な進歩を示してきたが、リッチな形態学、多種多様な方言、複雑なスクリプトを特徴とするアラビアデータ上でのパフォーマンスは、いまだ過小評価されている。
本稿では,新たに導入されたDeepSeekモデルに特に重点を置いて,複数の推論に焦点をあてたLEMの総合的なベンチマーク研究を行う。
ゼロショット、少数ショット、微調整など、さまざまな戦略を実験する。
これにより、さまざまなアプリケーションをカバーするデータセットの性能を体系的に評価し、異なるレベルの複雑さの下で言語推論の能力を調べることができる。
我々の実験ではいくつかの重要な発見が明らかになった。
第一に、3つの文脈内例を慎重に選択すると、分類タスクに対する感情分析を35.3%から87.5%に、パラフレーズ検出を56.1%から87.0%に、平均13F1ポイント以上上昇する。
第二に、推論にフォーカスしたDeepSeekアーキテクチャは、ゼロショット設定における複雑な推論タスクの平均12F1ポイントで、強力なGPT o4-miniベースラインを上回っている。
第3に、LORAベースの微調整は、モデルスケールの等価な増加と比較して、F1 と BLEU の8ポイントまで上昇する。
コードはhttps://anonymous.4open.science/r/AraReasoner41299で公開されている。
関連論文リスト
- Evaluating Large Language Models on Spatial Tasks: A Multi-Task Benchmarking Study [4.80612909282198]
本研究では,空間的タスクにおけるいくつかの高度なモデルの性能を探索し,比較するために,新しいマルチタスク空間評価データセットを提案する。
データセットには、空間的理解や単純なルート計画など、12の異なるタスクタイプが含まれており、それぞれが検証され、正確な答えを持っている。
論文 参考訳(メタデータ) (2024-08-26T17:25:16Z) - Breaking Language Barriers in Multilingual Mathematical Reasoning: Insights and Observations [59.056367787688146]
本稿では, マルチリンガル数学推論 (xMR) LLM の探索と学習の先駆者である。
我々は10の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
翻訳を利用して、10個の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
論文 参考訳(メタデータ) (2023-10-31T08:09:20Z) - LAraBench: Benchmarking Arabic AI with Large Language Models [26.249084464525044]
LAraBenchはこのギャップをアラビア自然言語処理(NLP)と音声処理タスクに対処している。
我々は、GPT-3.5-turbo、GPT-4、BLOOMZ、Jais-13b-chat、Whisper、USMといったモデルを用いて、61のデータセットで33の異なるタスクに取り組む。
これには,296Kデータポイント,46時間スピーチ,テキスト音声(TTS)30文を含む98の実験的セットアップが含まれていた。
論文 参考訳(メタデータ) (2023-05-24T10:16:16Z) - Text Classification via Large Language Models [63.1874290788797]
テキスト分類に関わる複雑な言語現象に対処するために、Clue And Reasoning Prompting (CARP)を導入する。
注目すべきは、CARPが5つの広く使用されているテキスト分類ベンチマークのうち4つで新しいSOTAパフォーマンスを得ることだ。
さらに重要なのは、CARPが低リソースとドメイン適応のセットアップで素晴らしい能力を提供します。
論文 参考訳(メタデータ) (2023-05-15T06:24:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。