論文の概要: BenCzechMark : A Czech-centric Multitask and Multimetric Benchmark for Large Language Models with Duel Scoring Mechanism
- arxiv url: http://arxiv.org/abs/2412.17933v1
- Date: Mon, 23 Dec 2024 19:45:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-25 15:56:40.378758
- Title: BenCzechMark : A Czech-centric Multitask and Multimetric Benchmark for Large Language Models with Duel Scoring Mechanism
- Title(参考訳): BenCzechMark : Duel Scoring 機構を持つ大規模言語モデルのチェコ語中心のマルチタスクとマルチメトリックベンチマーク
- Authors: Martin Fajcik, Martin Docekal, Jan Dolezal, Karel Ondrej, Karel Beneš, Jan Kapsa, Pavel Smrz, Alexander Polok, Michal Hradis, Zuzana Neverilova, Ales Horak, Radoslav Sabol, Michal Stefanik, Adam Jirkovsky, David Adamczyk, Petr Hyner, Jan Hula, Hynek Kydlicek,
- Abstract要約: BenCzechMark (BCM) は、大規模な言語モデル向けに設計されたチェコ初の総合的な言語ベンチマークである。
私たちのベンチマークには50の課題があり、対応するテストデータセット、主にチェコ原産で、新たに収集された11のタスクが含まれています。
これらのタスクは8つのカテゴリにまたがり、歴史的チェコのニュース、生徒や言語学習者のエッセイ、話し言葉など様々な分野をカバーする。
- 参考スコア(独自算出の注目度): 30.267465719961585
- License:
- Abstract: We present BenCzechMark (BCM), the first comprehensive Czech language benchmark designed for large language models, offering diverse tasks, multiple task formats, and multiple evaluation metrics. Its scoring system is grounded in statistical significance theory and uses aggregation across tasks inspired by social preference theory. Our benchmark encompasses 50 challenging tasks, with corresponding test datasets, primarily in native Czech, with 11 newly collected ones. These tasks span 8 categories and cover diverse domains, including historical Czech news, essays from pupils or language learners, and spoken word. Furthermore, we collect and clean BUT-Large Czech Collection, the largest publicly available clean Czech language corpus, and use it for (i) contamination analysis, (ii) continuous pretraining of the first Czech-centric 7B language model, with Czech-specific tokenization. We use our model as a baseline for comparison with publicly available multilingual models. Lastly, we release and maintain a leaderboard, with existing 44 model submissions, where new model submissions can be made at https://huggingface.co/spaces/CZLC/BenCzechMark.
- Abstract(参考訳): BenCzechMark(BCM)は、大規模な言語モデル用に設計された最初の包括的なチェコ語ベンチマークであり、多様なタスク、複数のタスクフォーマット、複数の評価指標を提供する。
そのスコアリングシステムは統計的に重要な理論に基づいており、社会的嗜好理論にインスパイアされたタスクを集約する。
私たちのベンチマークには50の課題があり、対応するテストデータセット、主にチェコ原産で、新たに収集された11のタスクが含まれています。
これらのタスクは8つのカテゴリにまたがり、歴史的チェコのニュース、生徒や言語学習者のエッセイ、話し言葉など様々な分野をカバーする。
さらに、公開可能なチェコ語コーパスとしては最大規模のBUT-Large Czech Collectionを収集、クリーン化し、それを用いています。
汚染分析; 汚染分析; 汚染分析; 汚染分析
(II)チェコ固有のトークン化による最初のチェコ中心の7B言語モデルの継続的な事前訓練。
我々のモデルは、公開されている多言語モデルと比較するためのベースラインとして使用します。
最後に、既存の44モデルのサブミッションでリーダボードをリリースし、メンテナンスしています。新しいモデルサブミッションはhttps://huggingface.co/spaces/CZLC/BenCzechMark.com/で作成できます。
関連論文リスト
- DeMuX: Data-efficient Multilingual Learning [57.37123046817781]
DEMUXは、大量の重複しない多言語データからラベルを付けるための正確なデータポイントを規定するフレームワークである。
エンドツーエンドのフレームワークは言語に依存しず、モデル表現を記述し、多言語的ターゲット設定をサポートしています。
論文 参考訳(メタデータ) (2023-11-10T20:09:08Z) - A Dataset and Strong Baselines for Classification of Czech News Texts [0.0]
チェコ最大の分類データセットであるCZE-NEC(CZE-NEC)について述べる。
我々は、ニュースソース、ニュースカテゴリ、推論された著者の性別、週の日という4つの分類タスクを定義した。
本研究では,市販の大規模生成言語モデルにおいて,言語固有の事前学習エンコーダ解析が優れていることを示す。
論文 参考訳(メタデータ) (2023-07-20T07:47:08Z) - BUFFET: Benchmarking Large Language Models for Few-shot Cross-lingual
Transfer [81.5984433881309]
本稿では,54言語にまたがる15のタスクをシーケンス・ツー・シーケンス・フォーマットで統一するBUFFETを紹介する。
BUFFETは、数発の言語間移動のための厳密で公平な評価フレームワークを確立するように設計されている。
コンテクスト内言語間移動における改善の余地は極めて大きいことが判明した。
論文 参考訳(メタデータ) (2023-05-24T08:06:33Z) - Multi-lingual Evaluation of Code Generation Models [82.7357812992118]
本稿では,MBXPとMultilingual HumanEval,MathQA-Xという,評価コード生成モデルに関する新しいベンチマークを提案する。
これらのデータセットは10以上のプログラミング言語をカバーする。
コード生成モデルの性能を多言語で評価することができる。
論文 参考訳(メタデータ) (2022-10-26T17:17:06Z) - Czech Dataset for Cross-lingual Subjectivity Classification [13.70633147306388]
そこで本研究では,映画レビューや説明文から10kの注釈付き主観的,客観的な文を手作業で作成する新しいチェコ語主観性データセットを提案する。
2つのアノテータはデータセットにコーエンのカッパ間アノテータ契約の0.83に達した。
新しいデータセットの単一言語ベースラインを設定するために、トレーニング済みのBERT風モデルを5つ微調整し、93.56%の精度を達成する。
論文 参考訳(メタデータ) (2022-04-29T07:31:46Z) - Are Multilingual Models the Best Choice for Moderately Under-resourced
Languages? A Comprehensive Assessment for Catalan [0.05277024349608833]
この研究はカタルーニャ語に焦点を当て、中規模のモノリンガル言語モデルが最先端の大規模多言語モデルとどの程度競合するかを探求することを目的としている。
クリーンで高品質なカタルーニャ語コーパス(CaText)を構築し、カタルーニャ語(BERTa)のためのトランスフォーマーベースの言語モデルを訓練し、様々な設定で徹底的に評価する。
その結果,カタルーニャ語理解ベンチマーク(CLUB, Catalan Language Understanding Benchmark)が,オープンリソースとして公開された。
論文 参考訳(メタデータ) (2021-07-16T13:52:01Z) - Czert -- Czech BERT-like Model for Language Representation [0.0]
本稿では, BERT と ALBERT アーキテクチャに基づく最初のチェコ語単言語表現モデルの学習過程について述べる。
私たちは、チェコのデータを含む多言語モデルよりも50倍多い340K以上の文でモデルを事前にトレーニングします。
論文 参考訳(メタデータ) (2021-03-24T07:27:28Z) - XL-WiC: A Multilingual Benchmark for Evaluating Semantic
Contextualization [98.61159823343036]
単語の意味を正確にモデル化する能力を評価するために,Word-in-Context データセット (WiC) を提案する。
我々は、XL-WiCという大規模なマルチ言語ベンチマークを提案し、12の新しい言語でゴールドスタンダードを特徴付けました。
実験結果から、ターゲット言語にタグ付けされたインスタンスが存在しない場合でも、英語データのみにトレーニングされたモデルは、競争力のあるパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2020-10-13T15:32:00Z) - Reading Comprehension in Czech via Machine Translation and Cross-lingual
Transfer [2.8273701718153563]
この研究は、手動で注釈付けされたチェコのトレーニングデータを必要とせずに、チェコ語で読みやすいシステムを構築することに焦点を当てている。
我々はSQuAD 1.1とSQuAD 2.0データセットをチェコ語に自動翻訳し、トレーニングと開発データを作成しました。
その後,複数のBERTおよびXLM-RoBERTaベースラインモデルの訓練と評価を行った。
論文 参考訳(メタデータ) (2020-07-03T13:09:37Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z) - XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating
Cross-lingual Generalization [128.37244072182506]
言語間TRansfer Evaluation of Multilinguals XTREMEは、40言語および9タスクにわたる多言語表現の言語間一般化能力を評価するためのベンチマークである。
我々は、英語でテストされたモデルは、多くのタスクにおいて人間のパフォーマンスに達するが、言語間変換されたモデルの性能にはまだ大きなギャップがあることを示した。
論文 参考訳(メタデータ) (2020-03-24T19:09:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。