論文の概要: A Set of Quebec-French Corpus of Regional Expressions and Terms
- arxiv url: http://arxiv.org/abs/2510.05026v1
- Date: Mon, 06 Oct 2025 17:04:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:53:00.003571
- Title: A Set of Quebec-French Corpus of Regional Expressions and Terms
- Title(参考訳): ケベック・フレンチ・コーパスの地域表現と用語
- Authors: David Beauchemin, Yan Tremblay, Mohamed Amine Youssef, Richard Khoury,
- Abstract要約: ケベック方言のフランス語に対する2つの新しいベンチマークデータセットを提案する。
QFrCoREには4,633個の慣用句があり、QFrCoRTには171個の慣用句が含まれている。
94 LLM を用いた実験により,我々の地域イディオム・ベンチマークは,特定の方言におけるモデルの習熟度を測定するための信頼性の高いツールであることが示された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The tasks of idiom understanding and dialect understanding are both well-established benchmarks in natural language processing. In this paper, we propose combining them, and using regional idioms as a test of dialect understanding. Towards this end, we propose two new benchmark datasets for the Quebec dialect of French: QFrCoRE, which contains 4,633 instances of idiomatic phrases, and QFrCoRT, which comprises 171 regional instances of idiomatic words. We explain how to construct these corpora, so that our methodology can be replicated for other dialects. Our experiments with 94 LLM demonstrate that our regional idiom benchmarks are a reliable tool for measuring a model's proficiency in a specific dialect.
- Abstract(参考訳): イディオム理解と方言理解のタスクはどちらも自然言語処理において確立されたベンチマークである。
本稿では,これらを組み合わせることを提案し,方言理解のテストとして地域イディオムを用いる。
この目的のために、ケベック方言の4,633の慣用句を含むQFrCoREと、171の慣用句を含むQFrCoRTという2つの新しいベンチマークデータセットを提案する。
我々はこれらのコーパスを構築する方法を説明し、その方法論を他の方言に再現できるようにした。
94 LLM を用いた実験により,我々の地域イディオム・ベンチマークは,特定の方言におけるモデルの習熟度を測定するための信頼性の高いツールであることが示された。
関連論文リスト
- EquiBench: Benchmarking Large Language Models' Reasoning about Program Semantics via Equivalence Checking [58.15568681219339]
大規模言語モデル(LLM)を評価するための新しいベンチマークであるEquiBenchを紹介する。
このタスクは、プログラムのセマンティクスについて推論するモデルの能力を直接テストする。
19の最先端LCMを評価し、最も難しいカテゴリでは、最高の精度は63.8%と76.2%であり、50%のランダムベースラインよりわずかに高い。
論文 参考訳(メタデータ) (2025-02-18T02:54:25Z) - Assessing Dialect Fairness and Robustness of Large Language Models in Reasoning Tasks [68.33068005789116]
本稿では、標準英語とAAVEで1.2K以上の並列クエリペアを含むベンチマークであるReDialを紹介する。
我々は、GPT、Claude、Llama、Mistral、Phiモデルファミリーなど、広く使われているモデルを評価した。
我々の研究は、方言クエリにおけるLLMバイアスを分析するための体系的で客観的な枠組みを確立する。
論文 参考訳(メタデータ) (2024-10-14T18:44:23Z) - Voices Unheard: NLP Resources and Models for Yorùbá Regional Dialects [72.18753241750964]
Yorub'aは、約4700万人の話者を持つアフリカの言語である。
アフリカ語のためのNLP技術開発への最近の取り組みは、彼らの標準方言に焦点を当てている。
我々は、このギャップを埋めるために、新しい高品質のパラレルテキストと音声コーパスを導入する。
論文 参考訳(メタデータ) (2024-06-27T22:38:04Z) - Multi-VALUE: A Framework for Cross-Dialectal English NLP [49.55176102659081]
マルチディレクト (Multi-Dilect) は、50の英語方言にまたがる制御可能なルールベースの翻訳システムである。
ストレステストは、非標準方言の先行モデルに対する顕著な性能格差を示す。
私たちはチカノやインド英語のネイティブスピーカーと提携して、人気のあるCoQAタスクの新しいゴールドスタンダード版をリリースしています。
論文 参考訳(メタデータ) (2022-12-15T18:17:01Z) - FreCDo: A Large Corpus for French Cross-Domain Dialect Identification [22.132457694021184]
本稿では,413,522のフランス語テキストサンプルからなるフランス語方言識別のための新しいコーパスを提案する。
トレーニング、検証、テストの分割は、異なるニュースウェブサイトから収集される。
これはフランスのクロスドメイン(FreCDo)の方言識別タスクにつながります。
論文 参考訳(メタデータ) (2022-12-15T10:32:29Z) - CLSE: Corpus of Linguistically Significant Entities [58.29901964387952]
専門家が注釈を付けた言語学的に重要なエンティティ(CLSE)のコーパスをリリースする。
CLSEは74種類のセマンティックタイプをカバーし、航空券売機からビデオゲームまで様々なアプリケーションをサポートする。
言語的に代表されるNLG評価ベンチマークを,フランス語,マラティー語,ロシア語の3言語で作成する。
論文 参考訳(メタデータ) (2022-11-04T12:56:12Z) - Dialect-robust Evaluation of Generated Text [40.85375247260744]
NLG評価指標の目標として,方言の頑健性と方言認識を定式化する。
このスイートを現在の最先端のメトリクスに適用すると、それらが方言ロバストではないことが示される。
論文 参考訳(メタデータ) (2022-11-02T07:12:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。