論文の概要: Estonian Native Large Language Model Benchmark
- arxiv url: http://arxiv.org/abs/2510.21193v1
- Date: Fri, 24 Oct 2025 06:56:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 09:00:15.402435
- Title: Estonian Native Large Language Model Benchmark
- Title(参考訳): エストニアの大規模言語モデルベンチマーク
- Authors: Helena Grete Lillepalu, Tanel Alumäe,
- Abstract要約: 7つの多様なデータセットに基づいてエストニアのLLMを評価するための新しいベンチマークを導入する。
データセットはすべて、マシン翻訳を使わずに、エストニアのネイティブソースから生成される。
評価には人的評価とLCM-as-a-judge法の両方を用いる。
- 参考スコア(独自算出の注目度): 6.193919591996934
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The availability of LLM benchmarks for the Estonian language is limited, and a comprehensive evaluation comparing the performance of different LLMs on Estonian tasks has yet to be conducted. We introduce a new benchmark for evaluating LLMs in Estonian, based on seven diverse datasets. These datasets assess general and domain-specific knowledge, understanding of Estonian grammar and vocabulary, summarization abilities, contextual comprehension, and more. The datasets are all generated from native Estonian sources without using machine translation. We compare the performance of base models, instruction-tuned open-source models, and commercial models. Our evaluation includes 6 base models and 26 instruction-tuned models. To assess the results, we employ both human evaluation and LLM-as-a-judge methods. Human evaluation scores showed moderate to high correlation with benchmark evaluations, depending on the dataset. Claude 3.7 Sonnet, used as an LLM judge, demonstrated strong alignment with human ratings, indicating that top-performing LLMs can effectively support the evaluation of Estonian-language models.
- Abstract(参考訳): エストニア語のLLMベンチマークの可用性は限られており、エストニアのタスクにおける異なるLLMの性能を比較する包括的な評価はまだ行われていない。
7つの多様なデータセットに基づいてエストニアのLLMを評価するための新しいベンチマークを導入する。
これらのデータセットは、一般的な知識とドメイン固有の知識、エストニア語の文法と語彙の理解、要約能力、文脈理解などを評価する。
データセットはすべて、マシン翻訳を使わずに、エストニアのネイティブソースから生成される。
我々は,ベースモデル,命令調整型オープンソースモデル,商用モデルの性能を比較した。
評価には6つのベースモデルと26の命令調整モデルが含まれる。
評価には人的評価とLCM-as-a-judge法の両方を用いる。
人体評価スコアは、データセットに応じて、ベンチマーク評価と中程度から高い相関を示した。
クロード 3.7 ソーネットは LLM の裁判官として用いられ、人間のレーティングと強い整合性を示し、トップパフォーマンスの LLM がエストニア語モデルの評価を効果的に支援できることを示した。
関連論文リスト
- PL-Guard: Benchmarking Language Model Safety for Polish [43.39208658482427]
ポーランド語における言語モデルの安全性分類のために,手動で注釈付きベンチマークデータセットを導入する。
また、モデルロバスト性に挑戦するために設計されたこれらのサンプルの逆摂動変異体も作成する。
我々は、アノテーション付きデータの異なる組み合わせを用いてこれらのモデルをトレーニングし、それらのパフォーマンスを評価し、公開されているガードモデルと比較する。
論文 参考訳(メタデータ) (2025-06-19T13:56:41Z) - MM-Eval: A Multilingual Meta-Evaluation Benchmark for LLM-as-a-Judge and Reward Models [3.961168847961322]
MM-Evalは18の言語と122の言語にまたがる言語一貫性サブセットをカバーする多言語メタ評価ベンチマークである。
MM-Evalのコア属性は、既存の英語メタ評価ベンチマークを単に翻訳するのではなく、多言語固有の課題を念頭に設計されていることである。
その結果、英語の文脈で優れている既存の評価者は、非英語の出力を評価する際に、かなりの改善の余地があることが示唆された。
論文 参考訳(メタデータ) (2024-10-23T06:04:55Z) - DnA-Eval: Enhancing Large Language Model Evaluation through Decomposition and Aggregation [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。
これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。
本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文 参考訳(メタデータ) (2024-05-24T08:12:30Z) - Bridging the Bosphorus: Advancing Turkish Large Language Models through Strategies for Low-Resource Language Adaptation and Benchmarking [1.3716808114696444]
大規模言語モデル(LLM)は様々な分野において重要になってきており、表現不足の言語における高品質なモデルの緊急性を強調している。
本研究では、データ不足、モデル選択、評価、計算制限など、低リソース言語が直面する固有の課題について検討する。
論文 参考訳(メタデータ) (2024-05-07T21:58:45Z) - METAL: Towards Multilingual Meta-Evaluation [12.852595634767901]
本研究では,多言語シナリオにおいて,Large Language Models (LLMs) を評価対象としてエンド・ツー・エンド評価を行うためのフレームワークを提案する。
要約作業のための母国語話者判定を含む10言語を対象としたデータセットを作成する。
GPT-3.5-Turbo, GPT-4, PaLM2を用いたLCM評価器の性能の比較を行った。
論文 参考訳(メタデータ) (2024-04-02T06:14:54Z) - Benchmarking Generation and Evaluation Capabilities of Large Language Models for Instruction Controllable Summarization [132.25202059478065]
命令制御可能なテキスト要約の大規模言語モデル(LLM)をベンチマークする。
本研究は,LLMにおいて,命令制御可能なテキスト要約が依然として困難な課題であることを示す。
論文 参考訳(メタデータ) (2023-11-15T18:25:26Z) - CoAnnotating: Uncertainty-Guided Work Allocation between Human and Large
Language Models for Data Annotation [94.59630161324013]
本稿では,非構造化テキストの大規模共同アノテーションのための新しいパラダイムであるCoAnnotatingを提案する。
我々の実証研究は、CoAnnotatingが、異なるデータセット上の結果から作業を割り当てる効果的な手段であることを示し、ランダムベースラインよりも最大21%のパフォーマンス改善を実現している。
論文 参考訳(メタデータ) (2023-10-24T08:56:49Z) - Are Large Language Model-based Evaluators the Solution to Scaling Up
Multilingual Evaluation? [20.476500441734427]
大規模言語モデル(LLM)は様々な自然言語処理(NLP)タスクに優れる。
彼らの評価、特に上位20ドルを超える言語では、既存のベンチマークとメトリクスの制限のため、依然として不十分である。
論文 参考訳(メタデータ) (2023-09-14T06:41:58Z) - On Learning to Summarize with Large Language Models as References [101.79795027550959]
大型言語モデル (LLM) は、一般的な要約データセットにおける元の参照要約よりも人間のアノテーションに好まれる。
より小さなテキスト要約モデルに対するLLM-as-reference学習設定について検討し,その性能が大幅に向上するかどうかを検討する。
論文 参考訳(メタデータ) (2023-05-23T16:56:04Z) - Evaluating the Performance of Large Language Models on GAOKAO Benchmark [53.663757126289795]
本稿では,中国のガオカオ検定の質問をサンプルとして用いた直感的なベンチマークであるガオカオベンチについて紹介する。
人間の評価により, GPT-4, ChatGPT, ERNIE-Botを含むLLMの変換総得点を得た。
また、LLMを用いて主観的質問を格付けし、モデルスコアが人間のスコアと適度な一貫性を達成することを確認する。
論文 参考訳(メタデータ) (2023-05-21T14:39:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。