論文の概要: ALPS: A Diagnostic Challenge Set for Arabic Linguistic & Pragmatic Reasoning
- arxiv url: http://arxiv.org/abs/2602.17054v1
- Date: Thu, 19 Feb 2026 03:51:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:28.62376
- Title: ALPS: A Diagnostic Challenge Set for Arabic Linguistic & Pragmatic Reasoning
- Title(参考訳): ALPS:アラビア語の言語学的・プラグマティックな推論のための診断セット
- Authors: Hussein S. Al-Olimat, Ahmad Alshareef,
- Abstract要約: ALPS(アラビア語: Linguistic & Pragmatic Suite)は、Deep Semantics and Pragmatics(ディープ・セマンティックス・アンド・プラグマティクス)を探索する専門的な診断課題である。
ALPSは15のタスクと47のサブタスクにわたる厳密な質問を531問を通じて言語理解の深さを目標としている。
我々は、アラビア語の言語学の深い専門知識と文化の真正性を保証し、翻訳品を排除したデータセットを開発した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While recent Arabic NLP benchmarks focus on scale, they often rely on synthetic or translated data which may benefit from deeper linguistic verification. We introduce ALPS (Arabic Linguistic & Pragmatic Suite), a native, expert-curated diagnostic challenge set probing Deep Semantics and Pragmatics, capabilities that complement specialized large-scale benchmarks. While broad-coverage benchmarks prioritize scale and multi-task coverage, ALPS targets the depth of linguistic understanding through 531 rigorously crafted questions across 15 tasks and 47 subtasks. We developed the dataset with deep expertise in Arabic linguistics, guaranteeing cultural authenticity and eliminating translation artifacts. Evaluating 23 diverse models (commercial, open-source, and Arabic-native) against a single-pass human performance (avg. 84.6% accuracy) and an expert-adjudicated oracle (99.2%), we reveal a critical dissociation: models achieve high fluency but fail on fundamental morpho-syntactic dependencies, with elevated error rates on morpho-syntactic dependencies (36.5% across diacritics-reliant tasks) compared to compositional semantics. While top commercial models (Gemini-3-flash at 94.2%) surpass the average single human, a substantial gap persists between commercial giants and Arabic-native models, with the best Arabic-specific model (Jais-2-70B at 83.6%) approaching but not matching human performance.
- Abstract(参考訳): 最近のアラビア語のNLPベンチマークはスケールに重点を置いているが、より深い言語学的検証の恩恵を受ける可能性のある合成データや翻訳データに依存していることが多い。
ALPS (Arabic Linguistic & Pragmatic Suite) は、専門的な大規模ベンチマークを補完する、Deep Semantics and Pragmatics(ディープセマンティックスとプラグマティクス)を探索する、ネイティブで専門家による診断セットである。
広範なカバレッジベンチマークはスケールとマルチタスクのカバレッジを優先するが、ALPSは15のタスクと47のサブタスクにわたる厳密な質問531で言語理解の深さを目標としている。
我々は、アラビア語の言語学の深い専門知識と文化の信頼性の保証、翻訳品の除去によるデータセットを開発した。
23種類の多様なモデル(商用、オープンソース、アラビア原産)を、単一パスの人的パフォーマンス(約84.6%の精度)と専門家による偏見(99.2%)に対して評価し、決定的な解離を明らかにした。
最上位の商業モデル(Gemini-3-flash at 94.2%)は平均的な一人の人間を上回るが、商業巨人とアラビア原産モデルの間には大きなギャップがあり、最もアラビア固有のモデル(Jais-2-70B at 83.6%)はヒトのパフォーマンスに合わない。
関連論文リスト
- DialectalArabicMMLU: Benchmarking Dialectal Capabilities in Arabic and Multilingual Language Models [54.10223256792762]
アラビア方言における大規模言語モデル(LLM)の性能評価のための新しいベンチマークであるDialectalArabicMMLUを提案する。
MMLU-Redux フレームワークを手動で翻訳し、3K 個の質問応答対を5つの主要な方言に適応することで拡張する。
論文 参考訳(メタデータ) (2025-10-31T15:17:06Z) - Advancing Dialectal Arabic to Modern Standard Arabic Machine Translation [22.369277951685234]
本稿では,レバンタ語,エジプト語,湾岸方言のDA-MSA翻訳の進展に寄与する2つの中核的貢献について述べる。
ゼロショット,チェーン・オブ・シント,提案手法であるAra-TEaR法を改良した。
微調整 LLM では、量子化された Gemma2-9B モデルが 49.88 の chrF++ スコアを獲得し、ゼロショット GPT-4o (44.58) を上回った。
論文 参考訳(メタデータ) (2025-07-27T14:37:53Z) - KoBALT: Korean Benchmark For Advanced Linguistic Tasks [0.6971903955510721]
KoBALT (Korean Benchmark for Advanced Linguistic Tasks) は700の質問からなる言語的に動機付けられたベンチマークである。
韓国語における大規模言語モデル(LLM)の評価を推し進めるために設計された。
韓国の標準コーパスとn-gramの重複が最小限に抑えられた専門家による言語的動機付けの質問スイートを導入している。
論文 参考訳(メタデータ) (2025-05-22T02:03:07Z) - MMLU-ProX: A Multilingual Benchmark for Advanced Large Language Model Evaluation [86.7047714187813]
MMLU-ProXは29の言語をカバーするベンチマークであり、英語のベンチマーク上に構築されている。
それぞれの言語バージョンは11,829の同一の質問で構成されており、直接言語間比較を可能にする。
効率的な評価ニーズを満たすため,言語毎の質問数は658件である。
論文 参考訳(メタデータ) (2025-03-13T15:59:20Z) - LINGOLY: A Benchmark of Olympiad-Level Linguistic Reasoning Puzzles in Low-Resource and Extinct Languages [8.754506364968394]
LingOlyベンチマークは、大規模言語モデルにおける高度な推論能力のための新しいベンチマークである。
非常に低リソースまたは絶滅した言語における言語パターンの文脈内同定と一般化の能力を評価する。
直接精度と非文脈ベースラインとの比較により,暗記を暗記する性能を評価する。
論文 参考訳(メタデータ) (2024-06-10T11:50:29Z) - ArabicMMLU: Assessing Massive Multitask Language Understanding in Arabic [51.922112625469836]
アラビア語における最初のマルチタスク言語理解ベンチマークである、データセット名を提案する。
我々のデータは、現代標準アラビア語(MSA)における40のタスクと14,575のマルチチョイス質問で構成されており、地域の母語話者と協調して慎重に構築されている。
35モデルについて評価した結果,特にオープンソースモデルにおいて,改善の余地がかなり高いことが判明した。
論文 参考訳(メタデータ) (2024-02-20T09:07:41Z) - No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。
何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。
本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文 参考訳(メタデータ) (2022-07-11T07:33:36Z) - Learning to Learn Morphological Inflection for Resource-Poor Languages [105.11499402984482]
本稿では,メタラーニング問題として資源不足言語に対する形態的インフレクション(補題を表象形にマッピングする)の課題を提案する。
それぞれの言語を個別のタスクとして扱うことで、高速ソース言語からのデータを使ってモデルパラメータの集合を学習する。
3つのファミリーから29のターゲット言語を対象とする2つのモデルアーキテクチャの実験により、提案手法がすべてのベースラインを上回ります。
論文 参考訳(メタデータ) (2020-04-28T05:13:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。