論文の概要: CARTE: A Benchmark for Mapping Language Model Knowledge Across France
- arxiv url: http://arxiv.org/abs/2606.01995v1
- Date: Mon, 01 Jun 2026 09:50:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:31.707273
- Title: CARTE: A Benchmark for Mapping Language Model Knowledge Across France
- Title(参考訳): CARTE: フランス全土における言語モデル知識のマッピングのためのベンチマーク
- Authors: Sarah Almeida Carneiro, Christos Xypolopoulos, Xiao Fei, Yang Zhang, Michalis Vazirgiannis,
- Abstract要約: CARTE 1(CARTE 1)は、大規模言語モデルが、地理的に根ざした、地域的に区別されたフランスにおける知識に対して、きめ細かい推論を行う能力を評価するためのベンチマークである。
CARTE-LVはフランス語領域にまたがる言語変化を対象とするサブセットであり、言語関連の違いを集中的に評価できる。
本実験は, 地域とモデル規模における性能格差を明らかにし, 事前訓練対象範囲の体系的ギャップと, 国内内変動に対する頑健さの制限を示唆した。
- 参考スコア(独自算出の注目度): 19.651011443594196
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce CARTE 1 (Culturally Anchored Regional-Territorial Evaluation), a multiplechoice benchmark for evaluating the ability of large language models (LLMs) to perform fine-grained reasoning over geographically grounded and regionally differentiated knowledge within France. While prior benchmarks focus on national-level cultural understanding, they largely overlook intra-country variation and the need to distinguish between closely related regional contexts. CARTE addresses this gap by introducing 2,431 questions spanning the 13 metropolitan regions of France and covering 14 thematic domains, including culture, language, demographics, economy, environment, and mobility. We further introduce CARTE-LV, a subset targeting Linguistic Variation across French regions, enabling focused evaluation of language-related differences. We evaluate 27 LLMs ranging from 1B to 12B parameters under few-shot settings. Our experiments reveal performance disparities across regions and model scales, suggesting systematic gaps in pretraining coverage and limited robustness to intra-national variation.
- Abstract(参考訳): CARTE 1 (Culturally Anchored Regional-Territorial Evaluation) は、大規模言語モデル(LLM)が、地理的に基底的かつ地域的に区別されたフランスにおける知識に対してきめ細かい推論を行う能力を評価するための多重選択ベンチマークである。
以前のベンチマークでは、国家レベルの文化的理解に焦点が当てられていたが、それらは主に国内の変動と、密接に関連する地域的文脈を区別する必要性を見落としていた。
CARTEは、フランスの13大都市圏にまたがる2,431の質問を導入し、文化、言語、人口統計、経済、環境、モビリティを含む14のテーマドメインをカバーしている。
さらに,フランス語領域にまたがる言語変化を対象とするサブセットであるCARTE-LVを導入する。
数ショット設定で1Bから12Bパラメータの27LLMを評価した。
本実験は, 地域とモデル規模における性能格差を明らかにし, 事前訓練対象範囲の体系的ギャップと, 国内内変動に対する頑健さの制限を示唆した。
関連論文リスト
- The GaoYao Benchmark: A Comprehensive Framework for Evaluating Multilingual and Multicultural Abilities of Large Language Models [51.61416200800499]
GaoYaoは182.3kサンプル、26言語、51か国/地域からなる総合ベンチマークである。
まず、GaoYao氏は評価タスクを3つの文化階層に分類する統一的なフレームワークを提案する。
第二に、専門家を活用して、主観的なベンチマークを19言語に厳格にローカライズすることで、ネイティブ品質の拡大を実現しています。
第3に,20以上のフラッグシップおよびコンパクトLCMの詳細な診断を行う。
論文 参考訳(メタデータ) (2026-04-22T06:19:46Z) - AmharicStoryQA: A Multicultural Story Question Answering Benchmark in Amharic [25.361090310093072]
評価は一つの言語に存在する有意義な文化的変化を見落としていると論じる。
アンハラ語話者の文化的多彩な物語に基づくベンチマークであるtextbftextitAmharicStoryQAを紹介する。
論文 参考訳(メタデータ) (2026-02-02T20:28:19Z) - MMA-ASIA: A Multilingual and Multimodal Alignment Framework for Culturally-Grounded Evaluation [91.22008265721952]
MMA-ASIAは、アジア8か国と10か国を対象とする人為的、多言語的、マルチモーダルなベンチマークに重点を置いている。
これは、テキスト、画像(視覚的質問応答)、音声の3つのモードにまたがる入力レベルで整列された最初のデータセットである。
i) 国間の文化的認識格差、(ii) 言語間の整合性、(iii) 言語間の整合性、(iv) 文化知識の一般化、(v) 基礎的妥当性を評価する5次元評価プロトコルを提案する。
論文 参考訳(メタデータ) (2025-10-07T14:12:12Z) - COLE: a Comprehensive Benchmark for French Language Understanding Evaluation [0.0]
COLEは、幅広いNLU機能をカバーする23の多様なタスクからなる新しいベンチマークである。
我々は94の大規模言語モデル (LLM) をベンチマークし、フランスのNLUの現状を広範囲に分析した。
論文 参考訳(メタデータ) (2025-10-06T17:26:41Z) - XLQA: A Benchmark for Locale-Aware Multilingual Open-Domain Question Answering [48.913480244527925]
大規模言語モデル (LLM) はオープンドメイン質問応答 (ODQA) において大きな進歩を見せている。
ほとんどの評価は英語に焦点をあて、言語間で局所不変の回答を仮定する。
XLQAは局所感性多言語ODQA用に明示的に設計された新しいベンチマークである。
論文 参考訳(メタデータ) (2025-08-22T07:00:13Z) - IndoCulture: Exploring Geographically-Influenced Cultural Commonsense Reasoning Across Eleven Indonesian Provinces [28.21857463550941]
本稿では,言語モデル推論能力に対する地理的要因の影響を理解することを目的としたIndoCultureを紹介する。
地元住民には、事前に定義されたトピックのセットを通じて、文化的コンテキストと妥当な選択肢を手作業で開発するように求めます。
オープンウェイトLlama-3はGPT-4と競合するが、他のオープンウェイトモデルは50%以下で苦戦している。
論文 参考訳(メタデータ) (2024-04-02T11:32:58Z) - Unveiling Linguistic Regions in Large Language Models [49.298360366468934]
大規模言語モデル (LLM) は言語間アライメントと一般化能力を示す。
本稿では,LLMの言語能力に関するいくつかの調査を行う。
論文 参考訳(メタデータ) (2024-02-22T16:56:13Z) - LLaMA Beyond English: An Empirical Study on Language Capability Transfer [49.298360366468934]
我々は、言語生成の能力と指示を英語以外の言語に効果的に伝達する方法に焦点をあてる。
本稿では,語彙拡張や事前学習,トランスファーに対する指導指導などの重要な要因が与える影響について分析する。
C-Eval、MMLU、AGI-Eval、GAokao-Benchの4つの広く使われている標準テストベンチマークを採用しています。
論文 参考訳(メタデータ) (2024-01-02T06:29:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。