論文の概要: Cetvel: A Unified Benchmark for Evaluating Language Understanding, Generation and Cultural Capacity of LLMs for Turkish
- arxiv url: http://arxiv.org/abs/2508.16431v1
- Date: Fri, 22 Aug 2025 14:42:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-25 16:42:36.415577
- Title: Cetvel: A Unified Benchmark for Evaluating Language Understanding, Generation and Cultural Capacity of LLMs for Turkish
- Title(参考訳): Cetvel:トルコにおけるLLMの言語理解,生成,文化能力評価のための統一ベンチマーク
- Authors: Yakup Abrek Er, Ilker Kesen, Gözde Gül Şahin, Aykut Erdem,
- Abstract要約: Cetvelはトルコの大規模言語モデル(LLM)を評価するために設計されたベンチマークである。
トルコ語の言語的・文化的豊かさを反映したコンテンツを確保するための差別的・生成的なタスクを幅広く組み合わせている。
- 参考スコア(独自算出の注目度): 9.111556632499472
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We introduce Cetvel, a comprehensive benchmark designed to evaluate large language models (LLMs) in Turkish. Existing Turkish benchmarks often lack either task diversity or culturally relevant content, or both. Cetvel addresses these gaps by combining a broad range of both discriminative and generative tasks ensuring content that reflects the linguistic and cultural richness of Turkish language. Cetvel covers 23 tasks grouped into seven categories, including tasks such as grammatical error correction, machine translation, and question answering rooted in Turkish history and idiomatic language. We evaluate 33 open-weight LLMs (up to 70B parameters) covering different model families and instruction paradigms. Our experiments reveal that Turkish-centric instruction-tuned models generally underperform relative to multilingual or general-purpose models (e.g. Llama 3 and Mistral), despite being tailored for the language. Moreover, we show that tasks such as grammatical error correction and extractive question answering are particularly discriminative in differentiating model capabilities. Cetvel offers a comprehensive and culturally grounded evaluation suite for advancing the development and assessment of LLMs in Turkish.
- Abstract(参考訳): トルコ語で大規模言語モデル(LLM)を評価するために設計された総合ベンチマークであるCetvelを紹介する。
既存のトルコのベンチマークでは、タスクの多様性や文化的に関連のあるコンテンツ、あるいはその両方が欠落していることが多い。
セトヴェルは、トルコ語の言語的・文化的豊かさを反映した内容を確保するために、識別的・生成的タスクを幅広く組み合わせることで、これらのギャップに対処している。
Cetvelは、文法的誤り訂正、機械翻訳、トルコの歴史や慣用言語に根ざした質問応答などのタスクを含む、23のタスクを7つのカテゴリに分類している。
我々は、異なるモデルファミリーと命令パラダイムをカバーするオープンウェイトLLM(最大70Bパラメータ)を33個評価した。
実験の結果,トルコ語中心の指導訓練モデルでは,言語に特化しているにもかかわらず,多言語モデルや汎用モデル(Llama 3 や Mistral など)と比較して性能が劣ることがわかった。
さらに, 文法的誤り訂正や抽出的質問応答といったタスクは, 特に識別モデル機能において識別可能であることを示す。
CetvelはトルコのLLMの開発と評価を進めるための包括的で文化的な評価スイートを提供している。
関連論文リスト
- TurkBench: A Benchmark for Evaluating Turkish Large Language Models [0.0]
TurkBenchは、トルコ語で生成する大規模言語モデルの能力を評価するために設計されたベンチマークである。
21の異なるサブタスクにまたがる8,151のデータサンプルを含んでいる。
多様なタスクと文化的に関連のあるデータは、研究者や開発者に対して、モデルを評価する貴重なツールを提供するだろう。
論文 参考訳(メタデータ) (2026-01-11T18:28:23Z) - Decoding Memes: Benchmarking Narrative Role Classification across Multilingual and Multimodal Models [26.91963265869296]
本研究は,インターネットミームにおける物語的役割の特定という課題について考察する。
元々は'他'クラスにスキューされたアノテーション付きデータセットの上に構築される。
包括的語彙および構造解析は、実際のミームで使われるニュアンス、文化特化、文脈に富んだ言語を強調している。
論文 参考訳(メタデータ) (2025-06-29T07:12:11Z) - TurBLiMP: A Turkish Benchmark of Linguistic Minimal Pairs [10.156237643034123]
TurBLiMPはトルコ初の言語最小ペアのベンチマークである。
1000組の最小ペアで16の言語現象をカバーしているTurBLiMPは、トルコ語の言語評価資源において重要なギャップを埋めている。
論文 参考訳(メタデータ) (2025-06-16T13:45:30Z) - Disentangling Language and Culture for Evaluating Multilingual Large Language Models [48.06219053598005]
本稿では,LLMの多言語機能を包括的に評価するデュアル評価フレームワークを提案する。
言語媒体と文化的文脈の次元に沿って評価を分解することにより、LLMが言語間を横断的に処理する能力の微妙な分析を可能にする。
論文 参考訳(メタデータ) (2025-05-30T14:25:45Z) - Language Mixing in Reasoning Language Models: Patterns, Impact, and Internal Causes [49.770097731093216]
RLM(Reasoning Language Model)は、チェーン・オブ・シント・プロセスを利用して構造化中間ステップを生成することで、複雑なタスクに優れる。
言語混合、すなわちプロンプト以外の言語からのトークンを含む推論ステップがアウトプットで観測され、性能に影響することが示されている。
本研究では, RLMにおける言語混合に関する最初の体系的研究を行い, そのパターン, 影響, 内部要因を15言語にわたって検討した。
論文 参考訳(メタデータ) (2025-05-20T18:26:53Z) - MMLU-ProX: A Multilingual Benchmark for Advanced Large Language Model Evaluation [86.7047714187813]
MMLU-ProXは29の言語をカバーするベンチマークであり、英語のベンチマーク上に構築されている。
それぞれの言語バージョンは11,829の同一の質問で構成されており、直接言語間比較を可能にする。
効率的な評価ニーズを満たすため,言語毎の質問数は658件である。
論文 参考訳(メタデータ) (2025-03-13T15:59:20Z) - TUMLU: A Unified and Native Language Understanding Benchmark for Turkic Languages [2.115206401188031]
本稿では,テュルク語MMLUのTUMLUとTUMLU-miniの2つのベンチマークを提案する。
TUMLU-miniは、アゼルバイジャン語、クリミア・タタール語、カラカルパック語、カザフ語、タタール語、トルコ語、ウイグル語、ウズベク語で11人の学者からなる中・高校レベルの質問からなる。
また、より簡潔でバランスの取れた、手作業によるデータセットのサブセットであるTUMLU-miniも提示します。
論文 参考訳(メタデータ) (2025-02-16T07:07:38Z) - Setting Standards in Turkish NLP: TR-MMLU for Large Language Model Evaluation [0.29687381456163997]
トルコ語MMLU(TR-MMLU)ベンチマークは、トルコ語における大規模言語モデル(LLM)の言語的および概念的能力を評価するために設計された。
TR-MMLUは、62のセクションにまたがる6200の多重選択質問からなるデータセットから構築され、67の分野にまたがる280000の質問と、トルコの教育システム内の800以上のトピックからなるプールから選択される。
この結果から,トークン化や微調整戦略の影響などの重要な課題が明らかとなり,モデル設計改善の領域が強調された。
論文 参考訳(メタデータ) (2024-12-31T18:43:49Z) - Global MMLU: Understanding and Addressing Cultural and Linguistic Biases in Multilingual Evaluation [71.59208664920452]
多言語データセットの文化的バイアスは、グローバルベンチマークとしての有効性に重大な課題をもたらす。
MMLUの進歩は西洋中心の概念の学習に大きく依存しており、文化に敏感な知識を必要とする質問の28%がそうである。
改良されたMMLUであるGlobal MMLUをリリースし,42言語を対象に評価を行った。
論文 参考訳(メタデータ) (2024-12-04T13:27:09Z) - TurkishMMLU: Measuring Massive Multitask Language Understanding in Turkish [54.51310112013655]
本稿では,最初のマルチタスク,複数選択のトルコQAベンチマーク,トルコMMLUを紹介する。
トルコMMLUには1万以上の質問があり、トルコの高校教育カリキュラムとは9つの異なるテーマをカバーしている。
多言語オープンソース(Gemma、Llama、MT5)、クローズドソース(GPT 4o、Claude、Gemini)、トルコ適応モデル(Trendyolなど)を含む20以上のLLMを評価した。
論文 参考訳(メタデータ) (2024-07-17T08:28:55Z) - Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。
我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。
モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文 参考訳(メタデータ) (2023-05-24T06:41:09Z) - Analyzing the Limits of Self-Supervision in Handling Bias in Language [52.26068057260399]
我々は、言語モデルが、認識、識別、抽出、言い換えの4つのタスクのセマンティクスをいかにうまく捉えているかを評価する。
分析の結果,言語モデルでは,ジェンダーや政治的アフィリエイトなど,様々なバイアス次元にまたがって,これらのタスクを広範囲にわたって実行することが可能であることが示唆された。
論文 参考訳(メタデータ) (2021-12-16T05:36:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。