論文の概要: TurBLiMP: A Turkish Benchmark of Linguistic Minimal Pairs
- arxiv url: http://arxiv.org/abs/2506.13487v1
- Date: Mon, 16 Jun 2025 13:45:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:48.590309
- Title: TurBLiMP: A Turkish Benchmark of Linguistic Minimal Pairs
- Title(参考訳): TurBLiMP: トルコ語で最小のペアのベンチマーク
- Authors: Ezgi Başar, Francesca Padovani, Jaap Jumelet, Arianna Bisazza,
- Abstract要約: TurBLiMPはトルコ初の言語最小ペアのベンチマークである。
1000組の最小ペアで16の言語現象をカバーしているTurBLiMPは、トルコ語の言語評価資源において重要なギャップを埋めている。
- 参考スコア(独自算出の注目度): 4.476339707463773
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce TurBLiMP, the first Turkish benchmark of linguistic minimal pairs, designed to evaluate the linguistic abilities of monolingual and multilingual language models (LMs). Covering 16 linguistic phenomena with 1000 minimal pairs each, TurBLiMP fills an important gap in linguistic evaluation resources for Turkish. In designing the benchmark, we give extra attention to two properties of Turkish that remain understudied in current syntactic evaluations of LMs, namely word order flexibility and subordination through morphological processes. Our experiments on a wide range of LMs and a newly collected set of human acceptability judgments reveal that even cutting-edge Large LMs still struggle with grammatical phenomena that are not challenging for humans, and may also exhibit different sensitivities to word order and morphological complexity compared to humans.
- Abstract(参考訳): 本稿では,言語最小ペアの最初のトルコ語ベンチマークであるTurBLiMPを紹介し,単言語言語モデルと多言語言語モデル(LM)の言語能力を評価する。
1000組の最小ペアで16の言語現象をカバーしているTurBLiMPは、トルコ語の言語評価資源において重要なギャップを埋めている。
このベンチマークを設計する際には,従来のLMの統語的評価,すなわち語順の柔軟性と形態素過程による副順序付けに未熟なトルコの2つの特性に注意を払っている。
広い範囲のLMと、新たに収集された人間の受容性判定に関する実験により、最先端の大規模LMでさえ、人間にとって困難ではない文法的な現象に苦戦し、また、単語の順序や形態的複雑さに対して異なる感性を示す可能性があることが明らかとなった。
関連論文リスト
- TUMLU: A Unified and Native Language Understanding Benchmark for Turkic Languages [2.115206401188031]
本稿では,テュルク語MMLUのTUMLUとTUMLU-miniの2つのベンチマークを提案する。
TUMLU-miniは、アゼルバイジャン語、クリミア・タタール語、カラカルパック語、カザフ語、タタール語、トルコ語、ウイグル語、ウズベク語で11人の学者からなる中・高校レベルの質問からなる。
また、より簡潔でバランスの取れた、手作業によるデータセットのサブセットであるTUMLU-miniも提示します。
論文 参考訳(メタデータ) (2025-02-16T07:07:38Z) - TurkishMMLU: Measuring Massive Multitask Language Understanding in Turkish [54.51310112013655]
本稿では,最初のマルチタスク,複数選択のトルコQAベンチマーク,トルコMMLUを紹介する。
トルコMMLUには1万以上の質問があり、トルコの高校教育カリキュラムとは9つの異なるテーマをカバーしている。
多言語オープンソース(Gemma、Llama、MT5)、クローズドソース(GPT 4o、Claude、Gemini)、トルコ適応モデル(Trendyolなど)を含む20以上のLLMを評価した。
論文 参考訳(メタデータ) (2024-07-17T08:28:55Z) - RuBLiMP: Russian Benchmark of Linguistic Minimal Pairs [2.9521383230206966]
本稿では,RuBLiMP (Linguistic Minimal Pairs) のロシア語ベンチマークを紹介する。
RuBLiMPは文法性が異なる45k対の文を含み、形態的、構文的、意味的な現象を分離する。
ロシア語の言語モデルは, 構造的・合意的コントラストに敏感であるが, 構造的関係, 否定, 推移性, 時制の理解を必要とする現象に人間に遅れがあることが判明した。
論文 参考訳(メタデータ) (2024-06-27T14:55:19Z) - Holmes: A Benchmark to Assess the Linguistic Competence of Language Models [59.627729608055006]
言語モデル(LM)の言語能力を評価するための新しいベンチマークであるHolmesを紹介する。
我々は、計算に基づく探索を用いて、異なる言語現象に関するLMの内部表現を調べる。
その結果,近年,他の認知能力からLMの言語能力を引き離す声が上がっている。
論文 参考訳(メタデータ) (2024-04-29T17:58:36Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。