論文の概要: TurkBench: A Benchmark for Evaluating Turkish Large Language Models
- arxiv url: http://arxiv.org/abs/2601.07020v1
- Date: Sun, 11 Jan 2026 18:28:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.120861
- Title: TurkBench: A Benchmark for Evaluating Turkish Large Language Models
- Title(参考訳): TurkBench: トルコの大規模言語モデルを評価するベンチマーク
- Authors: Çağrı Toraman, Ahmet Kaan Sever, Ayse Aysu Cengiz, Elif Ecem Arslan, Görkem Sevinç, Mete Mert Birdal, Yusuf Faruk Güldemir, Ali Buğra Kanburoğlu, Sezen Felekoğlu, Osman Gürlek, Sarp Kantar, Birsen Şahin Kütük, Büşra Tufan, Elif Genç, Serkan Coşkun, Gupse Ekin Demir, Muhammed Emin Arayıcı, Olgun Dursun, Onur Gungor, Susan Üsküdarlı, Abdullah Topraksoy, Esra Darıcı,
- Abstract要約: TurkBenchは、トルコ語で生成する大規模言語モデルの能力を評価するために設計されたベンチマークである。
21の異なるサブタスクにまたがる8,151のデータサンプルを含んでいる。
多様なタスクと文化的に関連のあるデータは、研究者や開発者に対して、モデルを評価する貴重なツールを提供するだろう。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: With the recent surge in the development of large language models, the need for comprehensive and language-specific evaluation benchmarks has become critical. While significant progress has been made in evaluating English language models, benchmarks for other languages, particularly those with unique linguistic characteristics such as Turkish, remain less developed. Our study introduces TurkBench, a comprehensive benchmark designed to assess the capabilities of generative large language models in the Turkish language. TurkBench involves 8,151 data samples across 21 distinct subtasks. These are organized under six main categories of evaluation: Knowledge, Language Understanding, Reasoning, Content Moderation, Turkish Grammar and Vocabulary, and Instruction Following. The diverse range of tasks and the culturally relevant data would provide researchers and developers with a valuable tool for evaluating their models and identifying areas for improvement. We further publish our benchmark for online submissions at https://huggingface.co/turkbench
- Abstract(参考訳): 近年の大規模言語モデルの発展に伴い,包括的および言語固有の評価ベンチマークの必要性が高まっている。
英語モデルの評価において大きな進歩があったが、他の言語、特にトルコ語のような独特の言語特性を持つ言語に対するベンチマークは、まだ発展していない。
本稿では,トルコ語で生成する大規模言語モデルの能力を評価するための総合的なベンチマークであるTurkBenchを紹介する。
TurkBenchは、21の異なるサブタスクにわたる8,151のデータサンプルを含んでいる。
これらは、知識、言語理解、推論、コンテンツモデレーション、トルコ文法と語彙、指示従の6つの主要なカテゴリに分類される。
多様なタスクと文化的に関連のあるデータは、研究者や開発者に対して、モデルを評価し、改善すべき領域を特定する貴重なツールを提供するだろう。
オンライン投稿のベンチマークはhttps://huggingface.co/turkbench.comで公開しています。
関連論文リスト
- Cetvel: A Unified Benchmark for Evaluating Language Understanding, Generation and Cultural Capacity of LLMs for Turkish [9.111556632499472]
Cetvelはトルコの大規模言語モデル(LLM)を評価するために設計されたベンチマークである。
トルコ語の言語的・文化的豊かさを反映したコンテンツを確保するための差別的・生成的なタスクを幅広く組み合わせている。
論文 参考訳(メタデータ) (2025-08-22T14:42:50Z) - TUMLU: A Unified and Native Language Understanding Benchmark for Turkic Languages [2.115206401188031]
本稿では,テュルク語MMLUのTUMLUとTUMLU-miniの2つのベンチマークを提案する。
TUMLU-miniは、アゼルバイジャン語、クリミア・タタール語、カラカルパック語、カザフ語、タタール語、トルコ語、ウイグル語、ウズベク語で11人の学者からなる中・高校レベルの質問からなる。
また、より簡潔でバランスの取れた、手作業によるデータセットのサブセットであるTUMLU-miniも提示します。
論文 参考訳(メタデータ) (2025-02-16T07:07:38Z) - Optimizing Large Language Models for Turkish: New Methodologies in Corpus Selection and Training [0.0]
大規模言語モデルの生成したデータセットに適応し、英語のデータセットをトルコ語に翻訳する。
このアプローチは、数ショットとゼロショットの両方の学習シナリオにおいて、モデルの精度を大幅に向上させた。
論文 参考訳(メタデータ) (2024-12-03T19:17:18Z) - Navigating Text-to-Image Generative Bias across Indic Languages [53.92640848303192]
本研究ではインドで広く話されているIndic言語に対するテキスト・ツー・イメージ(TTI)モデルのバイアスについて検討する。
これらの言語における主要なTTIモデルの生成的パフォーマンスと文化的関連性を評価し,比較する。
論文 参考訳(メタデータ) (2024-08-01T04:56:13Z) - TurkishMMLU: Measuring Massive Multitask Language Understanding in Turkish [54.51310112013655]
本稿では,最初のマルチタスク,複数選択のトルコQAベンチマーク,トルコMMLUを紹介する。
トルコMMLUには1万以上の質問があり、トルコの高校教育カリキュラムとは9つの異なるテーマをカバーしている。
多言語オープンソース(Gemma、Llama、MT5)、クローズドソース(GPT 4o、Claude、Gemini)、トルコ適応モデル(Trendyolなど)を含む20以上のLLMを評価した。
論文 参考訳(メタデータ) (2024-07-17T08:28:55Z) - Türkçe Dil Modellerinin Performans Karşılaştırması Performance Comparison of Turkish Language Models [0.0]
文脈学習と質問応答能力に基づいて,選択した7つの言語モデルの比較を行った。
その結果,質問応答では,教師用データセットを微調整する前に事前学習を継続することで,トルコ語に多言語モデルを適用することに成功していることがわかった。
論文 参考訳(メタデータ) (2024-04-25T20:10:14Z) - SEAHORSE: A Multilingual, Multifaceted Dataset for Summarization
Evaluation [52.186343500576214]
本稿では,多言語・多面的要約評価のためのデータセットSEAHORSEを紹介する。
SEAHORSEは、テキスト品質の6次元に沿って人間格付けされた96Kの要約で構成されている。
本稿では,SEAHORSEでトレーニングしたメトリクスが,ドメイン外メタ評価ベンチマークTRUEとmFACEで高い性能を示すことを示す。
論文 参考訳(メタデータ) (2023-05-22T16:25:07Z) - CUGE: A Chinese Language Understanding and Generation Evaluation
Benchmark [144.05723617401674]
汎用言語インテリジェンス評価は、自然言語処理の長年の目標である。
汎用言語インテリジェンス評価には,ベンチマーク自体が包括的で体系的なものである必要がある,と我々は主張する。
以下に示す機能を備えた中国語理解・生成評価ベンチマークであるCUGEを提案する。
論文 参考訳(メタデータ) (2021-12-27T11:08:58Z) - XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating
Cross-lingual Generalization [128.37244072182506]
言語間TRansfer Evaluation of Multilinguals XTREMEは、40言語および9タスクにわたる多言語表現の言語間一般化能力を評価するためのベンチマークである。
我々は、英語でテストされたモデルは、多くのタスクにおいて人間のパフォーマンスに達するが、言語間変換されたモデルの性能にはまだ大きなギャップがあることを示した。
論文 参考訳(メタデータ) (2020-03-24T19:09:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。