論文の概要: MERA: A Comprehensive LLM Evaluation in Russian
- arxiv url: http://arxiv.org/abs/2401.04531v2
- Date: Fri, 12 Jan 2024 15:04:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-15 21:19:22.379422
- Title: MERA: A Comprehensive LLM Evaluation in Russian
- Title(参考訳): MERA:ロシアにおける総合的なLCM評価
- Authors: Alena Fenogenova, Artem Chervyakov, Nikita Martynov, Anastasia
Kozlova, Maria Tikhonova, Albina Akhmetgareeva, Anton Emelyanov, Denis
Shevelev, Pavel Lebedev, Leonid Sinev, Ulyana Isaeva, Katerina Kolomeytseva,
Daniil Moskovskiy, Elizaveta Goncharova, Nikita Savushkin, Polina Mikhailova,
Denis Dimitrov, Alexander Panchenko, Sergei Markov
- Abstract要約: 基礎モデルを評価するために,ロシア語アーキテクチャ(MERA)ベンチマークのオープンなマルチモーダル評価を導入する。
ベンチマークには、11のスキルドメインで生成モデルを評価する21のタスクが含まれている。
本稿では,評価手法,MERA評価のためのオープンソースコードベース,提案システムを備えたリーダボードを提案する。
- 参考スコア(独自算出の注目度): 43.65236119370611
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Over the past few years, one of the most notable advancements in AI research
has been in foundation models (FMs), headlined by the rise of language models
(LMs). As the models' size increases, LMs demonstrate enhancements in
measurable aspects and the development of new qualitative features. However,
despite researchers' attention and the rapid growth in LM application, the
capabilities, limitations, and associated risks still need to be better
understood. To address these issues, we introduce an open Multimodal Evaluation
of Russian-language Architectures (MERA), a new instruction benchmark for
evaluating foundation models oriented towards the Russian language. The
benchmark encompasses 21 evaluation tasks for generative models in 11 skill
domains and is designed as a black-box test to ensure the exclusion of data
leakage. The paper introduces a methodology to evaluate FMs and LMs in zero-
and few-shot fixed instruction settings that can be extended to other
modalities. We propose an evaluation methodology, an open-source code base for
the MERA assessment, and a leaderboard with a submission system. We evaluate
open LMs as baselines and find that they are still far behind the human level.
We publicly release MERA to guide forthcoming research, anticipate
groundbreaking model features, standardize the evaluation procedure, and
address potential societal drawbacks.
- Abstract(参考訳): 過去数年間、AI研究の最も顕著な進歩の1つは、基礎モデル(FM)であり、言語モデル(LM)の台頭に基づいている。
モデルのサイズが大きくなるにつれて、LMは測定可能な側面の強化と新しい定性的特徴の開発を示す。
しかし、研究者の注意とLM応用の急速な成長にもかかわらず、その能力、限界、関連するリスクをよりよく理解する必要がある。
これらの課題に対処するために,ロシア語を指向した基礎モデルを評価するための新しい指導ベンチマークである,ロシア語アーキテクチャのマルチモーダル評価(MERA)を導入する。
このベンチマークは、11のスキルドメインで生成モデルを評価する21のタスクを含み、データ漏洩の排除を保証するブラックボックステストとして設計されている。
本稿では,FMとLMを,他のモードに拡張可能なゼロおよび少数ショットの固定命令設定で評価する手法を提案する。
本研究では,評価手法,mera評価のためのオープンソースコードベース,提出システムを備えたリーダボードを提案する。
オープンなLMをベースラインとして評価し,人間のレベルをはるかに下回っていることを確認した。
我々はMERAを公開し、今後の研究をガイドし、グラウンディングモデルの特徴を予測し、評価手順を標準化し、潜在的な社会的欠点に対処する。
関連論文リスト
- The Generative AI Paradox on Evaluation: What It Can Solve, It May Not
Evaluate [17.77014177096838]
本稿では,ジェネレーションタスクにおけるLarge Language Models (LLMs) が同等に評価できるという仮定を考察する。
質問応答(QA)における3つのLLMと1つのオープンソースLMの性能評価と,TriviaQAデータセットを用いた評価課題について述べる。
論文 参考訳(メタデータ) (2024-02-09T06:16:08Z) - F-Eval: Asssessing Fundamental Abilities with Refined Evaluation Methods [111.46455901113976]
F-Evalは、表現、常識、論理などの基本能力を評価するためのバイリンガル評価ベンチマークである。
参照不要な主観的タスクに対しては,APIモデルによるスコアの代替として,新たな評価手法を考案する。
論文 参考訳(メタデータ) (2024-01-26T13:55:32Z) - LLMs as Narcissistic Evaluators: When Ego Inflates Evaluation Scores [26.489063021538577]
本研究は,LMに基づく評価指標が,要約タスクの文脈において,それぞれの基盤となるLMに対して有利なバイアスを示すかどうかを考察する。
以上の結果から, 金のサマリーを活用せずに, 基準のない手法で評価指標を用いた場合, 特に有意なバイアスがみられた。
これらの結果は、生成的評価モデルによって提供される評価は、本質的なテキスト品質を超える要因に影響される可能性があることを裏付けている。
論文 参考訳(メタデータ) (2023-11-16T10:43:26Z) - Post Turing: Mapping the landscape of LLM Evaluation [22.517544562890663]
本稿では,アラン・チューリングによる基礎的疑問からAI研究の現代まで,大規模言語モデル (LLM) 評価の歴史的軌跡を追究する。
これらのモデルのより広範な社会的意味を考慮し、統一的な評価システムの必要性を強調した。
この作業は、AIコミュニティがLLM評価の課題に協力して対処し、信頼性、公正性、社会的な利益を保証するために役立ちます。
論文 参考訳(メタデータ) (2023-11-03T17:24:50Z) - Evaluating Large Language Models at Evaluating Instruction Following [54.49567482594617]
我々は,命令追従出力の識別におけるLLM評価器の能力をテストするために,挑戦的なメタ評価ベンチマーク LLMBar を導入する。
異なる評価器がLLMBarに対して異なる性能を示し、最高の評価器でさえ改善の余地があることが判明した。
論文 参考訳(メタデータ) (2023-10-11T16:38:11Z) - L-Eval: Instituting Standardized Evaluation for Long Context Language
Models [91.05820785008527]
長い文脈言語モデル(LCLM)のより標準化された評価を行うためにL-Evalを提案する。
20のサブタスク、508の長いドキュメント、2000以上の人間ラベルのクエリ応答対を含む新しい評価スイートを構築した。
その結果、一般的なn-gramマッチングの指標は人間の判断とよく相関しないことがわかった。
論文 参考訳(メタデータ) (2023-07-20T17:59:41Z) - A Survey on Evaluation of Large Language Models [87.60417393701331]
大規模言語モデル(LLM)は、学術と産業の両方で人気が高まっている。
本稿では,評価方法,評価方法,評価方法の3つの重要な側面に焦点をあてる。
論文 参考訳(メタデータ) (2023-07-06T16:28:35Z) - CARE-MI: Chinese Benchmark for Misinformation Evaluation in Maternity
and Infant Care [14.326936563564171]
大規模言語モデル(LLM)における誤情報評価のためのベンチマークCARE-MIを提案する。
提案するベンチマークは,LLMの広範利用と,これらのモデルが生成した誤情報を評価するためのデータセットの欠如とのギャップを埋めるものである。
ベンチマークの結果,母子関係や乳幼児ケアの分野では,現在の中国のLSMは完璧とは程遠いことが判明した。
論文 参考訳(メタデータ) (2023-07-04T03:34:19Z) - Benchmarking Foundation Models with Language-Model-as-an-Examiner [47.345760054595246]
本稿では,新しいベンチマークフレームワークLanguage-Model-as-an-Examinerを提案する。
LMは、その知識に基づいて質問を定式化し、基準のない方法で応答を評価する、知識に富んだ検査者として機能する。
論文 参考訳(メタデータ) (2023-06-07T06:29:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。