論文の概要: Cetvel: A Unified Benchmark for Evaluating Language Understanding, Generation and Cultural Capacity of LLMs for Turkish
- arxiv url: http://arxiv.org/abs/2508.16431v1
- Date: Fri, 22 Aug 2025 14:42:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-25 16:42:36.415577
- Title: Cetvel: A Unified Benchmark for Evaluating Language Understanding, Generation and Cultural Capacity of LLMs for Turkish
- Title(参考訳): Cetvel:トルコにおけるLLMの言語理解,生成,文化能力評価のための統一ベンチマーク
- Authors: Yakup Abrek Er, Ilker Kesen, Gözde Gül Şahin, Aykut Erdem,
- Abstract要約: Cetvelはトルコの大規模言語モデル(LLM)を評価するために設計されたベンチマークである。
トルコ語の言語的・文化的豊かさを反映したコンテンツを確保するための差別的・生成的なタスクを幅広く組み合わせている。
- 参考スコア(独自算出の注目度): 9.111556632499472
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We introduce Cetvel, a comprehensive benchmark designed to evaluate large language models (LLMs) in Turkish. Existing Turkish benchmarks often lack either task diversity or culturally relevant content, or both. Cetvel addresses these gaps by combining a broad range of both discriminative and generative tasks ensuring content that reflects the linguistic and cultural richness of Turkish language. Cetvel covers 23 tasks grouped into seven categories, including tasks such as grammatical error correction, machine translation, and question answering rooted in Turkish history and idiomatic language. We evaluate 33 open-weight LLMs (up to 70B parameters) covering different model families and instruction paradigms. Our experiments reveal that Turkish-centric instruction-tuned models generally underperform relative to multilingual or general-purpose models (e.g. Llama 3 and Mistral), despite being tailored for the language. Moreover, we show that tasks such as grammatical error correction and extractive question answering are particularly discriminative in differentiating model capabilities. Cetvel offers a comprehensive and culturally grounded evaluation suite for advancing the development and assessment of LLMs in Turkish.
- Abstract(参考訳): トルコ語で大規模言語モデル(LLM)を評価するために設計された総合ベンチマークであるCetvelを紹介する。
既存のトルコのベンチマークでは、タスクの多様性や文化的に関連のあるコンテンツ、あるいはその両方が欠落していることが多い。
セトヴェルは、トルコ語の言語的・文化的豊かさを反映した内容を確保するために、識別的・生成的タスクを幅広く組み合わせることで、これらのギャップに対処している。
Cetvelは、文法的誤り訂正、機械翻訳、トルコの歴史や慣用言語に根ざした質問応答などのタスクを含む、23のタスクを7つのカテゴリに分類している。
我々は、異なるモデルファミリーと命令パラダイムをカバーするオープンウェイトLLM(最大70Bパラメータ)を33個評価した。
実験の結果,トルコ語中心の指導訓練モデルでは,言語に特化しているにもかかわらず,多言語モデルや汎用モデル(Llama 3 や Mistral など)と比較して性能が劣ることがわかった。
さらに, 文法的誤り訂正や抽出的質問応答といったタスクは, 特に識別モデル機能において識別可能であることを示す。
CetvelはトルコのLLMの開発と評価を進めるための包括的で文化的な評価スイートを提供している。
関連論文リスト
- Decoding Memes: Benchmarking Narrative Role Classification across Multilingual and Multimodal Models [26.91963265869296]
本研究は,インターネットミームにおける物語的役割の特定という課題について考察する。
元々は'他'クラスにスキューされたアノテーション付きデータセットの上に構築される。
包括的語彙および構造解析は、実際のミームで使われるニュアンス、文化特化、文脈に富んだ言語を強調している。
論文 参考訳(メタデータ) (2025-06-29T07:12:11Z) - Language Mixing in Reasoning Language Models: Patterns, Impact, and Internal Causes [49.770097731093216]
RLM(Reasoning Language Model)は、チェーン・オブ・シント・プロセスを利用して構造化中間ステップを生成することで、複雑なタスクに優れる。
言語混合、すなわちプロンプト以外の言語からのトークンを含む推論ステップがアウトプットで観測され、性能に影響することが示されている。
本研究では, RLMにおける言語混合に関する最初の体系的研究を行い, そのパターン, 影響, 内部要因を15言語にわたって検討した。
論文 参考訳(メタデータ) (2025-05-20T18:26:53Z) - MMLU-ProX: A Multilingual Benchmark for Advanced Large Language Model Evaluation [86.7047714187813]
MMLU-ProXは29の言語をカバーするベンチマークであり、英語のベンチマーク上に構築されている。
それぞれの言語バージョンは11,829の同一の質問で構成されており、直接言語間比較を可能にする。
効率的な評価ニーズを満たすため,言語毎の質問数は658件である。
論文 参考訳(メタデータ) (2025-03-13T15:59:20Z) - TUMLU: A Unified and Native Language Understanding Benchmark for Turkic Languages [2.115206401188031]
本稿では,テュルク語MMLUのTUMLUとTUMLU-miniの2つのベンチマークを提案する。
TUMLU-miniは、アゼルバイジャン語、クリミア・タタール語、カラカルパック語、カザフ語、タタール語、トルコ語、ウイグル語、ウズベク語で11人の学者からなる中・高校レベルの質問からなる。
また、より簡潔でバランスの取れた、手作業によるデータセットのサブセットであるTUMLU-miniも提示します。
論文 参考訳(メタデータ) (2025-02-16T07:07:38Z) - Setting Standards in Turkish NLP: TR-MMLU for Large Language Model Evaluation [0.29687381456163997]
トルコ語MMLU(TR-MMLU)ベンチマークは、トルコ語における大規模言語モデル(LLM)の言語的および概念的能力を評価するために設計された。
TR-MMLUは、62のセクションにまたがる6200の多重選択質問からなるデータセットから構築され、67の分野にまたがる280000の質問と、トルコの教育システム内の800以上のトピックからなるプールから選択される。
この結果から,トークン化や微調整戦略の影響などの重要な課題が明らかとなり,モデル設計改善の領域が強調された。
論文 参考訳(メタデータ) (2024-12-31T18:43:49Z) - TurkishMMLU: Measuring Massive Multitask Language Understanding in Turkish [54.51310112013655]
本稿では,最初のマルチタスク,複数選択のトルコQAベンチマーク,トルコMMLUを紹介する。
トルコMMLUには1万以上の質問があり、トルコの高校教育カリキュラムとは9つの異なるテーマをカバーしている。
多言語オープンソース(Gemma、Llama、MT5)、クローズドソース(GPT 4o、Claude、Gemini)、トルコ適応モデル(Trendyolなど)を含む20以上のLLMを評価した。
論文 参考訳(メタデータ) (2024-07-17T08:28:55Z) - Analyzing the Limits of Self-Supervision in Handling Bias in Language [52.26068057260399]
我々は、言語モデルが、認識、識別、抽出、言い換えの4つのタスクのセマンティクスをいかにうまく捉えているかを評価する。
分析の結果,言語モデルでは,ジェンダーや政治的アフィリエイトなど,様々なバイアス次元にまたがって,これらのタスクを広範囲にわたって実行することが可能であることが示唆された。
論文 参考訳(メタデータ) (2021-12-16T05:36:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。