論文の概要: Beyond MCQ: An Open-Ended Arabic Cultural QA Benchmark with Dialect Variants
- arxiv url: http://arxiv.org/abs/2510.24328v1
- Date: Tue, 28 Oct 2025 11:52:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:37.100454
- Title: Beyond MCQ: An Open-Ended Arabic Cultural QA Benchmark with Dialect Variants
- Title(参考訳): MCQを超えて - アラビアのオープンエンディング文化のQAベンチマーク
- Authors: Hunzalah Hassan Bhatti, Firoj Alam,
- Abstract要約: 大きな言語モデル(LLM)は、日々の質問に答えるためにますます使われています。
文化的な基盤と方言のコンテンツに関する彼らのパフォーマンスは、言語間で不均一なままである。
本稿では,現代標準アラビア語(MSA)多重選択質問(MCQ)を英語およびいくつかのアラビア方言に翻訳する包括的手法を提案する。
- 参考スコア(独自算出の注目度): 7.228273711234901
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language Models (LLMs) are increasingly used to answer everyday questions, yet their performance on culturally grounded and dialectal content remains uneven across languages. We propose a comprehensive method that (i) translates Modern Standard Arabic (MSA) multiple-choice questions (MCQs) into English and several Arabic dialects, (ii) converts them into open-ended questions (OEQs), (iii) benchmarks a range of zero-shot and fine-tuned LLMs under both MCQ and OEQ settings, and (iv) generates chain-of-thought (CoT) rationales to fine-tune models for step-by-step reasoning. Using this method, we extend an existing dataset in which QAs are parallelly aligned across multiple language varieties, making it, to our knowledge, the first of its kind. We conduct extensive experiments with both open and closed models. Our findings show that (i) models underperform on Arabic dialects, revealing persistent gaps in culturally grounded and dialect-specific knowledge; (ii) Arabic-centric models perform well on MCQs but struggle with OEQs; and (iii) CoT improves judged correctness while yielding mixed n-gram-based metrics. The developed dataset will be publicly released to support further research on culturally and linguistically inclusive evaluation.
- Abstract(参考訳): 大きな言語モデル(LLM)は日常的な疑問に答えるのにますます使われていますが、文化的な根拠と方言のコンテンツに対する彼らのパフォーマンスは、言語全体で不均一なままです。
包括的手法を提案する。
(i)現代標準アラビア語(MSA)多重選択質問(MCQ)を英語といくつかのアラビア方言に翻訳する。
(二)オープンエンド質問(OEQ)に変換する。
(iii)MCQおよびOEQ設定下において、ゼロショットおよび微調整LDMの範囲をベンチマークする。
(iv) は、ステップバイステップ推論のための微調整モデルに対するチェーン・オブ・シント(CoT)論理を生成する。
この手法を用いることで、QAが複数の言語品種に並列に配列された既存のデータセットを拡張し、私たちの知る限り、QAはその種類の最初のものとなる。
オープンモデルとクローズドモデルの両方で広範な実験を行う。
以上の結果から
(i) アラビア方言のモデルが、文化的根拠及び方言固有の知識の持続的なギャップを露呈する。
(二)アラビア語中心モデルはMCQでよく機能するが、OEQと競合する。
三 CoT は、混合 n-gram ベースのメトリクスを出力しながら、判定精度を向上させる。
開発データセットは、文化的および言語学的包括的評価に関するさらなる研究を支援するために、公開される。
関連論文リスト
- A method for improving multilingual quality and diversity of instruction fine-tuning datasets [29.07537849245622]
マルチリンガルデータ品質・多様性(M-DaQ)を導入し,IFT(Multilingual Instruction Fine-Tuning)の改善を図る。
M-DaQは、高品質で意味的に多様な多言語IFTサンプルを選択することで、LLMの多言語性を改善する新しい方法である。
18言語にわたる実証的な結果から、M-DaQで微調整されたモデルでは、バニラベースラインの60%の勝利率よりも大きなパフォーマンス向上が達成されている。
論文 参考訳(メタデータ) (2025-09-19T03:07:59Z) - AraDiCE: Benchmarks for Dialectal and Cultural Capabilities in LLMs [22.121471902726892]
本稿ではアラビア方言と文化評価のベンチマークであるAraDiCEを紹介する。
湾岸地域、エジプト地域、レバント地域の文化意識を評価するために設計された最初のきめ細かいベンチマーク。
論文 参考訳(メタデータ) (2024-09-17T17:59:25Z) - CaLMQA: Exploring culturally specific long-form question answering across 23 languages [58.18984409715615]
CaLMQAは、文化的に異なる23言語にわたる51.7Kの質問のデータセットである。
我々は,LLM生成長文回答の事実性,関連性,表面品質を評価する。
論文 参考訳(メタデータ) (2024-06-25T17:45:26Z) - CVQA: Culturally-diverse Multilingual Visual Question Answering Benchmark [68.21939124278065]
言語と文化の豊富なセットをカバーするために設計された、文化的に多言語なビジュアル質問回答ベンチマーク。
CVQAには文化的に駆動されたイメージと、4大陸30カ国の質問が含まれ、31の言語と13のスクリプトをカバーし、合計10万の質問を提供する。
CVQA上で複数のマルチモーダル大言語モデル (MLLM) をベンチマークし、現在の最先端モデルではデータセットが困難であることを示す。
論文 参考訳(メタデータ) (2024-06-10T01:59:00Z) - From Multiple-Choice to Extractive QA: A Case Study for English and Arabic [51.13706104333848]
既存の多言語データセットを新しいNLPタスクに再利用する可能性について検討する。
本稿では,英語および現代標準アラビア語に対するアノテーションガイドラインと並列EQAデータセットを提案する。
我々は、残りの120のBELEBELE言語変種に対して、他の人が我々のアプローチを適用するのを助けることを目指しており、その多くがリソース不足と見なされている。
論文 参考訳(メタデータ) (2024-04-26T11:46:05Z) - AceGPT, Localizing Large Language Models in Arabic [73.39989503874634]
本稿では,アラビア語のテキストによる事前学習,ネイティブなアラビア語命令を利用したSFT(Supervised Fine-Tuning),アラビア語のGPT-4応答を含む総合的なソリューションを提案する。
目標は、文化的に認知され、価値に整合したアラビア語のLLMを、多様で応用特有のアラビア語コミュニティのニーズに適応させることである。
論文 参考訳(メタデータ) (2023-09-21T13:20:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。