論文の概要: ARB: A Comprehensive Arabic Multimodal Reasoning Benchmark
- arxiv url: http://arxiv.org/abs/2505.17021v1
- Date: Thu, 22 May 2025 17:59:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.566223
- Title: ARB: A Comprehensive Arabic Multimodal Reasoning Benchmark
- Title(参考訳): ARB: 包括的なアラビアのマルチモーダル推論ベンチマーク
- Authors: Sara Ghaboura, Ketan More, Wafa Alghallabi, Omkar Thawakar, Jorma Laaksonen, Hisham Cholakkal, Salman Khan, Rao Muhammad Anwer,
- Abstract要約: Comprehensive Arabic Multimodal Reasoning Benchmark (ARB) は、アラビア語のステップバイステップ推論を評価するために設計された最初のベンチマークである。
ARBは、視覚的推論、文書理解、OCR、科学分析、文化解釈を含む11の異なる領域にまたがっている。
1,356個のマルチモーダルサンプルを5,119個の人為的な推論ステップと対応するアクションと組み合わせて構成する。
- 参考スコア(独自算出の注目度): 34.690693303536904
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As Large Multimodal Models (LMMs) become more capable, there is growing interest in evaluating their reasoning processes alongside their final outputs. However, most benchmarks remain focused on English, overlooking languages with rich linguistic and cultural contexts, such as Arabic. To address this gap, we introduce the Comprehensive Arabic Multimodal Reasoning Benchmark (ARB), the first benchmark designed to evaluate step-by-step reasoning in Arabic across both textual and visual modalities. ARB spans 11 diverse domains, including visual reasoning, document understanding, OCR, scientific analysis, and cultural interpretation. It comprises 1,356 multimodal samples paired with 5,119 human-curated reasoning steps and corresponding actions. We evaluated 12 state-of-the-art open- and closed-source LMMs and found persistent challenges in coherence, faithfulness, and cultural grounding. ARB offers a structured framework for diagnosing multimodal reasoning in underrepresented languages and marks a critical step toward inclusive, transparent, and culturally aware AI systems. We release the benchmark, rubric, and evaluation suit to support future research and reproducibility. Code available at: https://github.com/mbzuai-oryx/ARB
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)の能力が向上するにつれて、最終的な出力とともに、推論プロセスを評価することへの関心が高まっている。
しかし、ほとんどのベンチマークは英語に重点を置いており、アラビア語のような豊かな言語的・文化的文脈を持つ言語を見下ろしている。
このギャップに対処するために、テキストと視覚の両方でアラビア語のステップバイステップ推論を評価するために設計された最初のベンチマークである、包括的アラビアマルチモーダル推論ベンチマーク(ARB)を導入する。
ARBは、視覚的推論、文書理解、OCR、科学分析、文化解釈を含む11の異なる領域にまたがっている。
1,356個のマルチモーダルサンプルを5,119個の人為的な推論ステップと対応するアクションと組み合わせて構成する。
オープン・クローズド・ソースのLMMを12件評価し,コヒーレンス,忠実性,文化的根拠の持続的課題を見出した。
ARBは、表現不足の言語でマルチモーダル推論を診断するための構造化されたフレームワークを提供し、包括的で透明で文化的に認識されたAIシステムへの重要なステップである。
我々は、将来の研究と再現性をサポートするために、ベンチマーク、ルーリック、評価スーツをリリースする。
https://github.com/mbzuai-oryx/ARB
関連論文リスト
- MDK12-Bench: A Multi-Discipline Benchmark for Evaluating Reasoning in Multimodal Large Language Models [50.43793764203352]
実世界のK-12試験を通してMLLMの推論能力を評価する多分野ベンチマークであるMDK12-Benchを紹介する。
本ベンチマークは,小学校から12年生までの様々な難易度にまたがる140Kの推論事例からなる。
6,827のインスタンスレベルの知識ポイントアノテーションが,十分に整理された知識構造,詳細な回答説明,難易度ラベル,年次分割に基づいている。
論文 参考訳(メタデータ) (2025-04-08T08:06:53Z) - MMLU-ProX: A Multilingual Benchmark for Advanced Large Language Model Evaluation [60.52580061637301]
MMLU-ProXは、言語毎に約11,829の質問を持つ、13の型的多様言語をカバーする包括的なベンチマークである。
5ショットチェーン(CoT)とゼロショットプロンプト戦略を用いて25の最先端の大規模言語モデル(LLM)を評価し,言語的・文化的境界を越えてその性能を解析した。
我々の実験は、ハイリソース言語から低リソース言語への一貫したパフォーマンス劣化を示し、最高のモデルは英語で70%以上の精度を達成しているが、Swahiliのような言語では40%程度にまで低下している。
論文 参考訳(メタデータ) (2025-03-13T15:59:20Z) - MultiPragEval: Multilingual Pragmatic Evaluation of Large Language Models [0.5822010906632046]
本研究では,Large Language Models (LLMs)の最初の実用的評価であるMultiPragEvalを紹介する。
Griceの協力原理に従って分類された1200の質問ユニットを補完するMultiPragEvalは、LLMの文脈認識とインプリケートされた意味を推測する能力の詳細な評価を可能にする。
以上の結果から,Claude3-Opusはすべてのテスト言語で他のモデルよりも優れており,この分野における最先端の確立が期待できる。
論文 参考訳(メタデータ) (2024-06-11T21:46:03Z) - Dolphin: A Challenging and Diverse Benchmark for Arabic NLG [21.06280737470819]
Dolphinは、自然言語生成(NLG)評価フレームワークの必要性に対処する新しいベンチマークである。
Dolphinは、50のテストスプリットにまたがる40の多様性と代表的なパブリックデータセットからなる、実質的なコーパスで構成されている。
アラビア語および多言語モデルの性能と一般化能力を評価するための新しい標準を設定している。
論文 参考訳(メタデータ) (2023-05-24T10:24:10Z) - OCRBench: On the Hidden Mystery of OCR in Large Multimodal Models [122.27878464009181]
テキスト関連視覚タスクにおいて, GPT4V や Gemini などの大規模マルチモーダルモデルの包括的評価を行った。
OCRBenchには29のデータセットがあり、最も包括的なOCR評価ベンチマークが利用できる。
論文 参考訳(メタデータ) (2023-05-13T11:28:37Z) - Towards One Model to Rule All: Multilingual Strategy for Dialectal
Code-Switching Arabic ASR [11.363966269198064]
自己アテンションに基づくコンストラクタアーキテクチャを用いて,多言語対応の大規模ASRを設計する。
我々はアラビア語(Ar)、英語(En)、フランス語(Fr)を用いてシステムを訓練した。
以上の結果から,最先端のモノリンガル方言アラビア語およびコードスイッチングアラビアASRよりも優れた結果が得られた。
論文 参考訳(メタデータ) (2021-05-31T08:20:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。