論文の概要: COLE: a Comprehensive Benchmark for French Language Understanding Evaluation
- arxiv url: http://arxiv.org/abs/2510.05046v1
- Date: Mon, 06 Oct 2025 17:26:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:53:00.012925
- Title: COLE: a Comprehensive Benchmark for French Language Understanding Evaluation
- Title(参考訳): COLE: フランス語理解評価のための総合ベンチマーク
- Authors: David Beauchemin, Yan Tremblay, Mohamed Amine Youssef, Richard Khoury,
- Abstract要約: COLEは、幅広いNLU機能をカバーする23の多様なタスクからなる新しいベンチマークである。
我々は94の大規模言語モデル (LLM) をベンチマークし、フランスのNLUの現状を広範囲に分析した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: To address the need for a more comprehensive evaluation of French Natural Language Understanding (NLU), we introduce COLE, a new benchmark composed of 23 diverse task covering a broad range of NLU capabilities, including sentiment analysis, paraphrase detection, grammatical judgment, and reasoning, with a particular focus on linguistic phenomena relevant to the French language. We benchmark 94 large language models (LLM), providing an extensive analysis of the current state of French NLU. Our results highlight a significant performance gap between closed- and open-weights models and identify key challenging frontiers for current LLMs, such as zero-shot extractive question-answering (QA), fine-grained word sense disambiguation, and understanding of regional language variations. We release COLE as a public resource to foster further progress in French language modelling.
- Abstract(参考訳): フランス自然言語理解(NLU)のより包括的な評価の必要性に対処するため,感情分析,パラフレーズ検出,文法的判断,推論など,幅広いNLU能力をカバーする23種類のタスクからなる新しいベンチマークであるCOLEを紹介し,特にフランス語に関連する言語現象に着目した。
我々は94の大規模言語モデル (LLM) をベンチマークし、フランスのNLUの現状を広範囲に分析した。
この結果から, クローズドウェイトモデルとオープンウェイトモデルの間に大きな性能差が見られ, ゼロショット抽出質問応答(QA), きめ細かい単語感覚の曖昧さ, 地域言語変化の理解など, 現状のLLMにとって重要なフロンティアを特定することができた。
我々は、フランス語モデリングのさらなる進歩を促進するために、公的なリソースとしてCOLEをリリースする。
関連論文リスト
- Evaluating Large Language Model with Knowledge Oriented Language Specific Simple Question Answering [73.73820209993515]
KoLasSimpleQAは,Large Language Models (LLMs) の多言語事実能力を評価する最初のベンチマークである。
既存の研究に触発されて、単一知識点カバレッジ、絶対的客観性、独特な答え、時間的安定性といった特徴を備えた質問セットを作成しました。
その結果,2つの領域間に大きな性能差が認められた。
論文 参考訳(メタデータ) (2025-05-22T12:27:02Z) - Disambiguation in Conversational Question Answering in the Era of LLMs and Agents: A Survey [54.90240495777929]
自然言語処理(NLP)におけるあいまいさは依然として根本的な課題である
LLM(Large Language Models)の出現により、あいまいさに対処することがさらに重要になった。
本稿では,言語駆動システムにおけるあいまいさの定義,形態,含意について考察する。
論文 参考訳(メタデータ) (2025-05-18T20:53:41Z) - MMLU-ProX: A Multilingual Benchmark for Advanced Large Language Model Evaluation [86.7047714187813]
MMLU-ProXは29の言語をカバーするベンチマークであり、英語のベンチマーク上に構築されている。
それぞれの言語バージョンは11,829の同一の質問で構成されており、直接言語間比較を可能にする。
効率的な評価ニーズを満たすため,言語毎の質問数は658件である。
論文 参考訳(メタデータ) (2025-03-13T15:59:20Z) - Learning Shortcuts: On the Misleading Promise of NLU in Language Models [4.8951183832371]
大規模言語モデル(LLM)は、自然言語処理の分野で大きなパフォーマンス向上を実現している。
近年の研究では、LLMはタスクの実行時にショートカットを利用することが多く、その決定規則の一般化性に欠けると同時に、性能向上の錯覚を生んでいることが判明している。
論文 参考訳(メタデータ) (2024-01-17T21:55:15Z) - LLaMA Beyond English: An Empirical Study on Language Capability Transfer [49.298360366468934]
我々は、言語生成の能力と指示を英語以外の言語に効果的に伝達する方法に焦点をあてる。
本稿では,語彙拡張や事前学習,トランスファーに対する指導指導などの重要な要因が与える影響について分析する。
C-Eval、MMLU、AGI-Eval、GAokao-Benchの4つの広く使われている標準テストベンチマークを採用しています。
論文 参考訳(メタデータ) (2024-01-02T06:29:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。