論文の概要: Are Arabic Benchmarks Reliable? QIMMA's Quality-First Approach to LLM Evaluation
- arxiv url: http://arxiv.org/abs/2604.03395v1
- Date: Fri, 03 Apr 2026 18:54:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:18.552684
- Title: Are Arabic Benchmarks Reliable? QIMMA's Quality-First Approach to LLM Evaluation
- Title(参考訳): アラビア語ベンチマークは信頼性が高いか? : QIMMAの品質ファーストアプローチによるLCM評価
- Authors: Leen AlQadi, Ahmed Alzubaidi, Mohammed Alyafeai, Hamza Alobeidli, Maitha Alhammadi, Shaikha Alsuwaidi, Omar Alkaabi, Basma El Amel Boussaha, Hakim Hacid,
- Abstract要約: 品質保証のアラビアLLMリーダーボードであるQIMMAを,その中核にシステマティックなベンチマーク検証を配置する。
QIMMAは、既存のリソースをそのまま集約するのではなく、自動LLM判定と人間のレビューを組み合わせたマルチモデルアセスメントパイプラインを適用して、体系的な品質問題を表面化し解決する。
結果は、52k以上のサンプルからなる、キュレートされたマルチドメイン、マルチタスク評価スイートで、主にアラビアのネイティブコンテンツに基礎を置いている。
- 参考スコア(独自算出の注目度): 3.5557766950672556
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present QIMMA, a quality-assured Arabic LLM leaderboard that places systematic benchmark validation at its core. Rather than aggregating existing resources as-is, QIMMA applies a multi-model assessment pipeline combining automated LLM judgment with human review to surface and resolve systematic quality issues in well-established Arabic benchmarks before evaluation. The result is a curated, multi-domain, multi-task evaluation suite of over 52k samples, grounded predominantly in native Arabic content; code evaluation tasks are the sole exception, as they are inherently language-agnostic. Transparent implementation via LightEval, EvalPlus and public release of per-sample inference outputs make QIMMA a reproducible and community-extensible foundation for Arabic NLP evaluation.
- Abstract(参考訳): 品質保証のアラビアLLMリーダーボードであるQIMMAを,その中核にシステマティックなベンチマーク検証を配置する。
QIMMAは、既存のリソースをそのまま集約するのではなく、自動LLM判定と人間のレビューを組み合わせたマルチモデルアセスメントパイプラインを適用して、評価前に確立されたアラビアベンチマークにおいて、体系的な品質問題を表面化し、解決する。
その結果は、52k以上のサンプルからなる、キュレートされたマルチドメインのマルチタスク評価スイートで、主にネイティブアラビアコンテンツに基礎を置いている。
LightEval、EvalPlusによる透過的な実装とサンプルごとの推論出力の公開により、QIMMAはアラビアNLP評価のための再現可能でコミュニティ拡張可能な基盤となる。
関連論文リスト
- Beyond Scalar Scores: Reinforcement Learning for Error-Aware Quality Estimation of Machine Translation [10.050982803590903]
品質評価は、参照翻訳に頼ることなく、機械翻訳(MT)出力の品質を評価することを目的としている。
重度リソース不足の言語ペアであるMalayalamに、英語のための最初のセグメントレベルQEデータセットを導入する。
ALOPE-RLは、効率的なアダプタを訓練するポリシーベースの強化学習フレームワークである。
論文 参考訳(メタデータ) (2026-02-09T12:42:41Z) - JobResQA: A Benchmark for LLM Machine Reading Comprehension on Multilingual Résumés and JDs [3.83467384247581]
JobResQAは、HR固有のタスクで機械読み取り(MRC)機能を評価するためのベンチマークである。
データセットは、5つの言語で105のresumé-job記述ペアに対して511のQAペアで構成されている。
論文 参考訳(メタデータ) (2026-01-30T17:06:59Z) - Benchmarking Chinese Commonsense Reasoning with a Multi-hop Reasoning Perspective [53.594353527056775]
我々は,大言語モデル(LLM)を評価するために,中国語コモンセンスマルチホップ推論(CCMOR)を提案する。
CCMORは、中国固有の事実知識と多段階論理的推論を統合するLLMの能力を評価するように設計されている。
提案手法では,提案手法を用いて,提案手法の検証と検証を行う。
論文 参考訳(メタデータ) (2025-10-09T20:29:00Z) - IberBench: LLM Evaluation on Iberian Languages [2.3034630097498883]
大規模言語モデル(LLM)は、特に英語以外の言語に対しては、包括的な評価が難しい。
IberBench は基本的な NLP タスクと産業関連 NLP タスクの両方において LLM 性能を評価するために設計されたベンチマークである。
1億から1400億のパラメータから23のLSMを評価し、その強度と限界に関する実証的な洞察を提供する。
論文 参考訳(メタデータ) (2025-04-23T17:48:25Z) - AlignBench: Benchmarking Chinese Alignment of Large Language Models [99.24597941555277]
中国語大言語モデルのアライメントを評価するための総合ベンチマークであるAlignBenchを紹介する。
我々は,8つの主要なカテゴリ,683の実シナリオ根付きクエリ,およびそれに対応する人間の検証基準を含む,ループ内データキュレーションパイプラインを設計する。
自動評価には,Chain-of-Thoughtを用いた多次元LCM-as-Judgecitezheng2023アジュジング手法を用いて説明と最終評価を生成する。
論文 参考訳(メタデータ) (2023-11-30T17:41:30Z) - MLLM-Bench: Evaluating Multimodal LLMs with Per-sample Criteria [49.500322937449326]
MLLM(Multimodal large language model)は、AIアプリケーションの範囲を広げている。
既存のMLLMの自動評価手法は主にユーザエクスペリエンスを考慮せずにクエリを評価する場合に限られている。
本稿では,MLLM を判断基準として評価する MLLM の新しい評価パラダイムを提案する。
論文 参考訳(メタデータ) (2023-11-23T12:04:25Z) - Evaluating the Performance of Large Language Models on GAOKAO Benchmark [53.663757126289795]
本稿では,中国のガオカオ検定の質問をサンプルとして用いた直感的なベンチマークであるガオカオベンチについて紹介する。
人間の評価により, GPT-4, ChatGPT, ERNIE-Botを含むLLMの変換総得点を得た。
また、LLMを用いて主観的質問を格付けし、モデルスコアが人間のスコアと適度な一貫性を達成することを確認する。
論文 参考訳(メタデータ) (2023-05-21T14:39:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。