論文の概要: QFrBLiMP: a Quebec-French Benchmark of Linguistic Minimal Pairs
- arxiv url: http://arxiv.org/abs/2509.25664v1
- Date: Tue, 30 Sep 2025 02:00:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 14:44:59.97966
- Title: QFrBLiMP: a Quebec-French Benchmark of Linguistic Minimal Pairs
- Title(参考訳): QFrBLiMP: ケベック・フランスの言語最小ペアベンチマーク
- Authors: David Beauchemin, Pier-Luc Veilleux, Richard Khoury, Johanna-Pascale Roy,
- Abstract要約: ケベック・フレンチ言語最小ペアベンチマーク(QFrBLiMP)について紹介する。
QFrBLiMPは、20の言語現象に注釈を付けた1,761個の最小ペアから構成される。
QFrBLiMPとMultiBLiMP-Frについて,各カテゴリの最小ペアの文に割り当てられる高い確率を観察することにより,異なるLLMを評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In this paper, we introduce the Quebec-French Benchmark of Linguistic Minimal Pairs (QFrBLiMP), a corpus designed to evaluate the linguistic knowledge of LLMs on prominent grammatical phenomena in Quebec-French. QFrBLiMP consists of 1,761 minimal pairs annotated with 20 linguistic phenomena. Specifically, these minimal pairs have been created by manually modifying sentences extracted from an official online resource maintained by a Qu\'ebec government institution. Each pair is annotated by twelve Quebec-French native speakers, who select the sentence they feel is grammatical amongst the two. These annotations are used to compare the competency of LLMs with that of humans. We evaluate different LLMs on QFrBLiMP and MultiBLiMP-Fr by observing the rate of higher probabilities assigned to the sentences of each minimal pair for each category. We find that while grammatical competence scales with model size, a clear hierarchy of difficulty emerges. All benchmarked models consistently fail on phenomena requiring deep semantic understanding, revealing a critical limitation and a significant gap compared to human performance on these specific tasks.
- Abstract(参考訳): 本稿では,ケベック・フランス語の文法現象に関するLLMの言語知識を評価するためのコーパスである,ケベック・フランス語の言語最小ペアベンチマーク(QFrBLiMP)を紹介する。
QFrBLiMPは、20の言語現象に注釈を付けた1,761個の最小ペアから構成される。
具体的には、これらの最小のペアは、Qu\'ebec政府機関によって維持されている公式のオンラインリソースから抽出された文を手動で修正することによって作成されている。
それぞれのペアは、ケベック・フランスの12人の母語話者によって注釈付けされ、彼らは2人の間で文法的な文章を選択する。
これらのアノテーションは、LLMの能力と人間の能力を比較するために使われる。
QFrBLiMPとMultiBLiMP-Frについて,各カテゴリの最小ペアの文に割り当てられる高い確率を観察することにより,異なるLLMを評価する。
文法的能力はモデルのサイズとともにスケールするが、難易度の明確な階層が現れる。
すべてのベンチマークされたモデルは、深い意味的理解を必要とする現象で一貫して失敗し、これらの特定のタスクにおける人間のパフォーマンスと比較して、限界と大きなギャップが明らかになる。
関連論文リスト
- UrBLiMP: A Benchmark for Evaluating the Linguistic Competence of Large Language Models in Urdu [12.952822154200497]
言語最小ペア(UrBLiMP)のUrduベンチマークについて述べる。
UrBLiMPは10コアの構文現象を対象とする5,696個の最小ペアから構成される。
UrBLiMPアノテーションの人間による評価は96.10%のアノテーション間の合意を得た。
論文 参考訳(メタデータ) (2025-08-01T18:16:37Z) - Explain-then-Process: Using Grammar Prompting to Enhance Grammatical Acceptability Judgments [2.3749120526936465]
大規模言語モデル(LLM)は文法的な規則を説明することができるが、文の受理性を判断する際にはそれらの規則を適用するのに失敗することが多い。
本稿では「文法プロンプト(grammar prompting)」について説明する。
LLMのメタ言語的説明をターゲットモデルにフィードバックすることで、ルールの理解とそれの使用の間のギャップを埋める。
論文 参考訳(メタデータ) (2025-06-02T22:42:33Z) - Assessing Dialect Fairness and Robustness of Large Language Models in Reasoning Tasks [68.33068005789116]
本稿では、標準英語とAAVEで1.2K以上の並列クエリペアを含むベンチマークであるReDialを紹介する。
我々は、GPT、Claude、Llama、Mistral、Phiモデルファミリーなど、広く使われているモデルを評価した。
我々の研究は、方言クエリにおけるLLMバイアスを分析するための体系的で客観的な枠組みを確立する。
論文 参考訳(メタデータ) (2024-10-14T18:44:23Z) - Understanding and Mitigating Language Confusion in LLMs [76.96033035093204]
我々は,既存の英語および多言語プロンプトを用いた15の型的多様言語の評価を行った。
Llama Instruct と Mistral のモデルでは,言語的混乱の度合いが高いことがわかった。
言語混乱は,数発のプロンプト,多言語SFT,選好調整によって部分的に緩和できることがわかった。
論文 参考訳(メタデータ) (2024-06-28T17:03:51Z) - RuBLiMP: Russian Benchmark of Linguistic Minimal Pairs [2.9521383230206966]
本稿では,RuBLiMP (Linguistic Minimal Pairs) のロシア語ベンチマークを紹介する。
RuBLiMPは文法性が異なる45k対の文を含み、形態的、構文的、意味的な現象を分離する。
ロシア語の言語モデルは, 構造的・合意的コントラストに敏感であるが, 構造的関係, 否定, 推移性, 時制の理解を必要とする現象に人間に遅れがあることが判明した。
論文 参考訳(メタデータ) (2024-06-27T14:55:19Z) - Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。
我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。
モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文 参考訳(メタデータ) (2023-05-24T06:41:09Z) - VALUE: Understanding Dialect Disparity in NLU [50.35526025326337]
アフリカ・アメリカン・バーナクラ・イングリッシュ(AAVE)の11つの特徴に関するルールを構築した。
言語的アクセプタビリティ判断により,各特徴変換の検証を行うために,流線型AAVE話者を募集する。
実験により、これらの新しい方言の特徴がモデル性能の低下につながることが示された。
論文 参考訳(メタデータ) (2022-04-06T18:30:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。