論文の概要: Macaron: Controlled, Human-Written Benchmark for Multilingual and Multicultural Reasoning via Template-Filling
- arxiv url: http://arxiv.org/abs/2602.10732v1
- Date: Wed, 11 Feb 2026 10:45:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.774904
- Title: Macaron: Controlled, Human-Written Benchmark for Multilingual and Multicultural Reasoning via Template-Filling
- Title(参考訳): Macaron:テンプレートフィリングによる多言語・多文化推論のための制御された人文ベンチマーク
- Authors: Alaa Elsetohy, Sama Hadhoud, Haryo Akbarianto Wibowo, Chenxi Whitehouse, Genta Indra Winata, Fajri Koto, Alham Fikri Aji,
- Abstract要約: 質問言語間の推論型と文化的側面を分解するテンプレートファーストベンチマークを提案する。
7つの推論タイプ、22の文化的側面を含む100の言語に依存しないテンプレートを使用して、ネイティブアノテータはシナリオ整合の英語とローカル言語による多重選択の質問を作成する。
- 参考スコア(独自算出の注目度): 34.84162687685434
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Multilingual benchmarks rarely test reasoning over culturally grounded premises: translated datasets keep English-centric scenarios, while culture-first datasets often lack control over the reasoning required. We propose Macaron, a template-first benchmark that factorizes reasoning type and cultural aspect across question languages. Using 100 language-agnostic templates that cover 7 reasoning types, 22 cultural aspects, native annotators create scenario-aligned English and local-language multiple-choice questions and systematically derived True/False questions. Macaron contains 11,862 instances spanning 20 countries/cultural contexts, 10 scripts, and 20 languages (including low-resource ones like Amharic, Yoruba, Zulu, Kyrgyz, and some Arabic dialects). In zero-shot evaluation of 21 multilingual LLMs, reasoning-mode models achieve the strongest performance and near-parity between English and local languages, while open-weight models degrade substantially in local languages and often approach chance on T/F tasks. Culture-grounded mathematical and counting templates are consistently the hardest. The data can be accessed here https://huggingface.co/datasets/AlaaAhmed2444/Macaron.
- Abstract(参考訳): 翻訳されたデータセットは英語中心のシナリオを保持し、文化第一のデータセットは要求される推論の制御を欠くことが多い。
質問言語間の推論型と文化的側面を分解するテンプレートファーストのベンチマークであるMacaronを提案する。
7つの推論タイプ、22の文化的側面を含む100の言語に依存しないテンプレートを使用して、ネイティブアノテータはシナリオ整合の英語とローカル言語による多重選択の質問を作成し、体系的にTrue/Falseの質問を導出する。
マカロンには、20の国/文化の文脈、10のスクリプト、20の言語(アムハラ語、ヨルバ語、ズール語、キルギス語、およびいくつかのアラビア方言を含む)にまたがる11,862の事例がある。
21の多言語LPMのゼロショット評価では、推論モードモデルは英語とローカル言語の間で最強のパフォーマンスとほぼ平準性を達成し、一方、オープンウェイトモデルはローカル言語では大幅に低下し、T/Fタスクにチャンスに近づいた。
文化的な数学的および数え上げテンプレートは、一貫して最も難しい。
データは、https://huggingface.co/datasets/AlaaAhmed2444/Macaronでアクセスすることができる。
関連論文リスト
- Do You Know About My Nation? Investigating Multilingual Language Models' Cultural Literacy Through Factual Knowledge [68.6805229085352]
ほとんどの多言語質問答えベンチマークは、取得した情報の地域的多様性を規定していない。
XNationQAには、9カ国の地理、文化、歴史に関する合計49,280の質問が7つの言語で提示されている。
我々はXNationQA上で8つの標準多言語LLMをベンチマークし、2つの新しい転送指標を用いて評価した。
論文 参考訳(メタデータ) (2025-11-01T18:41:34Z) - MultiLoKo: a multilingual local knowledge benchmark for LLMs spanning 31 languages [17.175361236651906]
我々は、31言語をカバーするLLMの多言語性を評価するための新しいベンチマークであるMultiLoKoを提案する。
我々はMultiLoKoのスコアを11のベースで計算し、マルチリンガルなチャットモデルを市場に出し、平均的なパフォーマンスについて研究する。
局所的データと英訳データを使用することで,最高の演奏モデルに対して20点以上の差が生じることが判明した。
論文 参考訳(メタデータ) (2025-04-14T16:05:59Z) - Multilingual != Multicultural: Evaluating Gaps Between Multilingual Capabilities and Cultural Alignment in LLMs [5.8210182389588105]
大規模言語モデル(LLM)は、グローバル言語全体でますます能力を高めつつある。
しかし、言語間のコミュニケーション能力が必ずしも適切な文化的表現に変換されるとは限らない。
GoogleのGemmaモデルとOpenAIのターボシリーズの2つのモデルを比較します。
言語能力と文化的アライメントの間には、一貫した関係は見つからない。
論文 参考訳(メタデータ) (2025-02-23T11:02:41Z) - WorldCuisines: A Massive-Scale Benchmark for Multilingual and Multicultural Visual Question Answering on Global Cuisines [74.25764182510295]
視覚言語モデル(VLM)は、特に英語以外の言語において、文化特有の知識に苦しむことが多い。
我々は多言語および多文化の視覚的理解のための大規模ベンチマークであるWorld Cuisinesを紹介した。
このベンチマークには、30の言語と方言にまたがるテキストイメージペアを備えた、視覚的質問応答(VQA)データセットが含まれている。
論文 参考訳(メタデータ) (2024-10-16T16:11:49Z) - CaLMQA: Exploring culturally specific long-form question answering across 23 languages [58.18984409715615]
CaLMQAは、文化的に異なる23言語にわたる51.7Kの質問のデータセットである。
我々は,LLM生成長文回答の事実性,関連性,表面品質を評価する。
論文 参考訳(メタデータ) (2024-06-25T17:45:26Z) - CVQA: Culturally-diverse Multilingual Visual Question Answering Benchmark [68.21939124278065]
言語と文化の豊富なセットをカバーするために設計された、文化的に多言語なビジュアル質問回答ベンチマーク。
CVQAには文化的に駆動されたイメージと、4大陸30カ国の質問が含まれ、31の言語と13のスクリプトをカバーし、合計10万の質問を提供する。
CVQA上で複数のマルチモーダル大言語モデル (MLLM) をベンチマークし、現在の最先端モデルではデータセットが困難であることを示す。
論文 参考訳(メタデータ) (2024-06-10T01:59:00Z) - SeaEval for Multilingual Foundation Models: From Cross-Lingual Alignment to Cultural Reasoning [44.53966523376327]
SeaEvalは多言語基盤モデルのベンチマークである。
これらのモデルがどのように理解し、自然言語で推論するかを特徴付ける。
また、文化の実践やニュアンス、価値観をいかに理解したかについても検討する。
論文 参考訳(メタデータ) (2023-09-09T11:42:22Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。