論文の概要: ARB: A Comprehensive Arabic Multimodal Reasoning Benchmark
- arxiv url: http://arxiv.org/abs/2505.17021v1
- Date: Thu, 22 May 2025 17:59:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.566223
- Title: ARB: A Comprehensive Arabic Multimodal Reasoning Benchmark
- Title(参考訳): ARB: 包括的なアラビアのマルチモーダル推論ベンチマーク
- Authors: Sara Ghaboura, Ketan More, Wafa Alghallabi, Omkar Thawakar, Jorma Laaksonen, Hisham Cholakkal, Salman Khan, Rao Muhammad Anwer,
- Abstract要約: Comprehensive Arabic Multimodal Reasoning Benchmark (ARB) は、アラビア語のステップバイステップ推論を評価するために設計された最初のベンチマークである。
ARBは、視覚的推論、文書理解、OCR、科学分析、文化解釈を含む11の異なる領域にまたがっている。
1,356個のマルチモーダルサンプルを5,119個の人為的な推論ステップと対応するアクションと組み合わせて構成する。
- 参考スコア(独自算出の注目度): 34.690693303536904
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As Large Multimodal Models (LMMs) become more capable, there is growing interest in evaluating their reasoning processes alongside their final outputs. However, most benchmarks remain focused on English, overlooking languages with rich linguistic and cultural contexts, such as Arabic. To address this gap, we introduce the Comprehensive Arabic Multimodal Reasoning Benchmark (ARB), the first benchmark designed to evaluate step-by-step reasoning in Arabic across both textual and visual modalities. ARB spans 11 diverse domains, including visual reasoning, document understanding, OCR, scientific analysis, and cultural interpretation. It comprises 1,356 multimodal samples paired with 5,119 human-curated reasoning steps and corresponding actions. We evaluated 12 state-of-the-art open- and closed-source LMMs and found persistent challenges in coherence, faithfulness, and cultural grounding. ARB offers a structured framework for diagnosing multimodal reasoning in underrepresented languages and marks a critical step toward inclusive, transparent, and culturally aware AI systems. We release the benchmark, rubric, and evaluation suit to support future research and reproducibility. Code available at: https://github.com/mbzuai-oryx/ARB
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)の能力が向上するにつれて、最終的な出力とともに、推論プロセスを評価することへの関心が高まっている。
しかし、ほとんどのベンチマークは英語に重点を置いており、アラビア語のような豊かな言語的・文化的文脈を持つ言語を見下ろしている。
このギャップに対処するために、テキストと視覚の両方でアラビア語のステップバイステップ推論を評価するために設計された最初のベンチマークである、包括的アラビアマルチモーダル推論ベンチマーク(ARB)を導入する。
ARBは、視覚的推論、文書理解、OCR、科学分析、文化解釈を含む11の異なる領域にまたがっている。
1,356個のマルチモーダルサンプルを5,119個の人為的な推論ステップと対応するアクションと組み合わせて構成する。
オープン・クローズド・ソースのLMMを12件評価し,コヒーレンス,忠実性,文化的根拠の持続的課題を見出した。
ARBは、表現不足の言語でマルチモーダル推論を診断するための構造化されたフレームワークを提供し、包括的で透明で文化的に認識されたAIシステムへの重要なステップである。
我々は、将来の研究と再現性をサポートするために、ベンチマーク、ルーリック、評価スーツをリリースする。
https://github.com/mbzuai-oryx/ARB
関連論文リスト
- MCIF: Multimodal Crosslingual Instruction-Following Benchmark from Scientific Talks [25.75895667904485]
MCIF (Multimodal Crosslingual Instruction following) は、科学的な議論に基づく最初の多言語人手によるベンチマークである。
MCFは、音声、視覚、テキストの3つの中核モダリティと4つの多言語(英語、ドイツ語、イタリア語、中国語)にまたがる。
MLLMの言語間の命令を解釈し、それをマルチモーダルな文脈情報と組み合わせることで、包括的なMLLMの能力の評価を可能にする。
論文 参考訳(メタデータ) (2025-07-25T19:00:51Z) - 3LM: Bridging Arabic, STEM, and Code through Benchmarking [0.7227323884094952]
3LMはアラビア語用に特別に設計された3つのベンチマークのスイートである。
1つ目は、アラビア語の教科書と教育用ワークシートから自然に派生した、STEM関連の質問応答ペアのセットである。
2つ目は、同じソースを用いて合成されたSTEM質問である。
第3のベンチマークは、2つの広く使用されているコードベンチマークを注意深く翻訳することで構築されたコード生成に焦点を当てている。
論文 参考訳(メタデータ) (2025-07-21T17:58:27Z) - MMATH: A Multilingual Benchmark for Mathematical Reasoning [94.05289799605957]
MMATHは10言語にまたがる374の高品質な数学問題にまたがる多言語複雑推論のためのベンチマークである。
我々は、DeepSeek R1のような先進モデルでさえ、言語間での大幅な性能格差を示し、意図しない言語において重要な目標外問題発生応答に悩まされていることを観察する。
本研究は,大規模言語モデルの多言語推論能力向上のための新たな洞察と実践的戦略を提供する。
論文 参考訳(メタデータ) (2025-05-25T12:47:39Z) - BnMMLU: Measuring Massive Multitask Language Understanding in Bengali [0.0]
本稿では,ベンガル語モデルにおける言語理解能力を評価するベンチマークであるBnMMLUを紹介する。
データセットは科学、人文科学、数学、一般知識を含む23の領域にまたがる。
我々は、BnMMLUテストセット上で、プロプライエタリでオープンソースの大規模言語モデル(LLM)をベンチマークする。
論文 参考訳(メタデータ) (2025-05-25T02:54:31Z) - MDK12-Bench: A Multi-Discipline Benchmark for Evaluating Reasoning in Multimodal Large Language Models [50.43793764203352]
実世界のK-12試験を通してMLLMの推論能力を評価する多分野ベンチマークであるMDK12-Benchを紹介する。
本ベンチマークは,小学校から12年生までの様々な難易度にまたがる140Kの推論事例からなる。
6,827のインスタンスレベルの知識ポイントアノテーションが,十分に整理された知識構造,詳細な回答説明,難易度ラベル,年次分割に基づいている。
論文 参考訳(メタデータ) (2025-04-08T08:06:53Z) - MMLU-ProX: A Multilingual Benchmark for Advanced Large Language Model Evaluation [60.52580061637301]
MMLU-ProXは、言語毎に約11,829の質問を持つ、13の型的多様言語をカバーする包括的なベンチマークである。
5ショットチェーン(CoT)とゼロショットプロンプト戦略を用いて25の最先端の大規模言語モデル(LLM)を評価し,言語的・文化的境界を越えてその性能を解析した。
我々の実験は、ハイリソース言語から低リソース言語への一貫したパフォーマンス劣化を示し、最高のモデルは英語で70%以上の精度を達成しているが、Swahiliのような言語では40%程度にまで低下している。
論文 参考訳(メタデータ) (2025-03-13T15:59:20Z) - All Languages Matter: Evaluating LMMs on Culturally Diverse 100 Languages [73.93600813999306]
ALM-benchは、100言語にわたるLMMを評価するための、これまでで最大かつ最も包括的な取り組みである。
様々な言語でテキストと組み合わせた文化的に多様なイメージを理解し、推論する能力をテストすることで、既存のモデルに挑戦する。
このベンチマークは、真/偽、複数選択、オープンな質問など、さまざまな質問フォーマットを備えた、堅牢でニュアンスの高い評価フレームワークを提供する。
論文 参考訳(メタデータ) (2024-11-25T15:44:42Z) - MultiPragEval: Multilingual Pragmatic Evaluation of Large Language Models [0.5822010906632046]
本研究では,Large Language Models (LLMs)の最初の実用的評価であるMultiPragEvalを紹介する。
Griceの協力原理に従って分類された1200の質問ユニットを補完するMultiPragEvalは、LLMの文脈認識とインプリケートされた意味を推測する能力の詳細な評価を可能にする。
以上の結果から,Claude3-Opusはすべてのテスト言語で他のモデルよりも優れており,この分野における最先端の確立が期待できる。
論文 参考訳(メタデータ) (2024-06-11T21:46:03Z) - Dolphin: A Challenging and Diverse Benchmark for Arabic NLG [21.06280737470819]
Dolphinは、自然言語生成(NLG)評価フレームワークの必要性に対処する新しいベンチマークである。
Dolphinは、50のテストスプリットにまたがる40の多様性と代表的なパブリックデータセットからなる、実質的なコーパスで構成されている。
アラビア語および多言語モデルの性能と一般化能力を評価するための新しい標準を設定している。
論文 参考訳(メタデータ) (2023-05-24T10:24:10Z) - OCRBench: On the Hidden Mystery of OCR in Large Multimodal Models [122.27878464009181]
テキスト関連視覚タスクにおいて, GPT4V や Gemini などの大規模マルチモーダルモデルの包括的評価を行った。
OCRBenchには29のデータセットがあり、最も包括的なOCR評価ベンチマークが利用できる。
論文 参考訳(メタデータ) (2023-05-13T11:28:37Z) - Towards One Model to Rule All: Multilingual Strategy for Dialectal
Code-Switching Arabic ASR [11.363966269198064]
自己アテンションに基づくコンストラクタアーキテクチャを用いて,多言語対応の大規模ASRを設計する。
我々はアラビア語(Ar)、英語(En)、フランス語(Fr)を用いてシステムを訓練した。
以上の結果から,最先端のモノリンガル方言アラビア語およびコードスイッチングアラビアASRよりも優れた結果が得られた。
論文 参考訳(メタデータ) (2021-05-31T08:20:38Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。