Fugu-MT 論文翻訳(概要): MERA: A Comprehensive LLM Evaluation in Russian

論文の概要: MERA: A Comprehensive LLM Evaluation in Russian

arxiv url: http://arxiv.org/abs/2401.04531v2
Date: Fri, 12 Jan 2024 15:04:43 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-15 21:19:22.379422
Title: MERA: A Comprehensive LLM Evaluation in Russian
Title（参考訳）: MERA:ロシアにおける総合的なLCM評価
Authors: Alena Fenogenova, Artem Chervyakov, Nikita Martynov, Anastasia Kozlova, Maria Tikhonova, Albina Akhmetgareeva, Anton Emelyanov, Denis Shevelev, Pavel Lebedev, Leonid Sinev, Ulyana Isaeva, Katerina Kolomeytseva, Daniil Moskovskiy, Elizaveta Goncharova, Nikita Savushkin, Polina Mikhailova, Denis Dimitrov, Alexander Panchenko, Sergei Markov
Abstract要約: 基礎モデルを評価するために,ロシア語アーキテクチャ(MERA)ベンチマークのオープンなマルチモーダル評価を導入する。ベンチマークには、11のスキルドメインで生成モデルを評価する21のタスクが含まれている。本稿では,評価手法,MERA評価のためのオープンソースコードベース,提案システムを備えたリーダボードを提案する。
参考スコア（独自算出の注目度）: 43.65236119370611
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Over the past few years, one of the most notable advancements in AI research has been in foundation models (FMs), headlined by the rise of language models (LMs). As the models' size increases, LMs demonstrate enhancements in measurable aspects and the development of new qualitative features. However, despite researchers' attention and the rapid growth in LM application, the capabilities, limitations, and associated risks still need to be better understood. To address these issues, we introduce an open Multimodal Evaluation of Russian-language Architectures (MERA), a new instruction benchmark for evaluating foundation models oriented towards the Russian language. The benchmark encompasses 21 evaluation tasks for generative models in 11 skill domains and is designed as a black-box test to ensure the exclusion of data leakage. The paper introduces a methodology to evaluate FMs and LMs in zero- and few-shot fixed instruction settings that can be extended to other modalities. We propose an evaluation methodology, an open-source code base for the MERA assessment, and a leaderboard with a submission system. We evaluate open LMs as baselines and find that they are still far behind the human level. We publicly release MERA to guide forthcoming research, anticipate groundbreaking model features, standardize the evaluation procedure, and address potential societal drawbacks.
Abstract（参考訳）: 過去数年間、AI研究の最も顕著な進歩の1つは、基礎モデル(FM)であり、言語モデル(LM)の台頭に基づいている。モデルのサイズが大きくなるにつれて、LMは測定可能な側面の強化と新しい定性的特徴の開発を示す。しかし、研究者の注意とLM応用の急速な成長にもかかわらず、その能力、限界、関連するリスクをよりよく理解する必要がある。これらの課題に対処するために,ロシア語を指向した基礎モデルを評価するための新しい指導ベンチマークである,ロシア語アーキテクチャのマルチモーダル評価(MERA)を導入する。このベンチマークは、11のスキルドメインで生成モデルを評価する21のタスクを含み、データ漏洩の排除を保証するブラックボックステストとして設計されている。本稿では,FMとLMを,他のモードに拡張可能なゼロおよび少数ショットの固定命令設定で評価する手法を提案する。本研究では,評価手法,mera評価のためのオープンソースコードベース,提出システムを備えたリーダボードを提案する。オープンなLMをベースラインとして評価し,人間のレベルをはるかに下回っていることを確認した。我々はMERAを公開し、今後の研究をガイドし、グラウンディングモデルの特徴を予測し、評価手順を標準化し、潜在的な社会的欠点に対処する。

関連論文リスト

MERA Code: A Unified Framework for Evaluating Code Generation Across Tasks [56.34018316319873]
我々は,最新のLLMをロシア語で評価するためのベンチマークであるMERA Codeを提案する。このベンチマークには、8つのプログラミング言語にまたがる11の評価タスクが含まれている。我々はオープンなLLMとフロンティアAPIモデルを評価し、非英語言語における実用的なコーディングタスクの観点からそれらの制限を分析した。
論文参考訳（メタデータ） (2025-07-16T14:31:33Z)
Eye of Judgement: Dissecting the Evaluation of Russian-speaking LLMs with POLLUX [1.3269144777389015]
POLLUXは、ロシア語で大規模言語モデル(LLM)の生成能力を評価するために設計されたベンチマークである。各タスクタイプについて、一連の詳細な基準を定義し、スコアリングプロトコルを開発する。これにより、従来のリソース消費による人的比較を超えて、透過的で基準駆動的な評価が可能になる。
論文参考訳（メタデータ） (2025-05-30T14:08:17Z)
Déjà Vu: Multilingual LLM Evaluation through the Lens of Machine Translation Evaluation [17.163770146320545]
多言語大言語モデル(mLLM)の生成能力と言語カバレッジは急速に進歩している。しかし、mLLMの評価方法には、包括性、科学的厳密性、研究機関間の一貫した採用の欠如がある。同様の課題に直面し、何十年もの間、透過的なレポーティング標準を開発してきた分野である、機械翻訳(MT)評価と平行関係を描いています。我々はこれらの知見を,mLLM研究・開発のための実行可能なレコメンデーションのチェックリストに抽出する。
論文参考訳（メタデータ） (2025-04-16T07:38:19Z)
MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs [97.94579295913606]
MLLM(Multimodal Large Language Models)は、産業と学術の両方から注目を集めている。開発プロセスでは、モデルの改善に関する直感的なフィードバックとガイダンスを提供するため、評価が重要である。この研究は、研究者に異なるニーズに応じてMLLMを効果的に評価する方法を簡単に把握し、より良い評価方法を促すことを目的としている。
論文参考訳（メタデータ） (2024-11-22T18:59:54Z)
MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。 MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文参考訳（メタデータ） (2024-10-14T04:15:00Z)
LMMs-Eval: Reality Check on the Evaluation of Large Multimodal Models [71.8065384742686]
LMMS-EVALは50以上のタスクと10以上のモデルを持つ統一的で標準化されたマルチモーダルベンチマークフレームワークである。 LMMS-EVAL LITEは、カバー範囲と効率の両方を重視したプルーニング評価ツールキットである。マルチモーダルなLIVEBENCHは、ニュースやオンラインフォーラムを継続的に更新し、野生におけるモデルの一般化能力を評価する。
論文参考訳（メタデータ） (2024-07-17T17:51:53Z)
Belief Revision: The Adaptability of Large Language Models Reasoning [63.0281286287648]
本稿では,LMの信念修正能力をテストするための新しいデータセットであるBelief-Rを紹介する。このタスクは、人間が事前の推論を抑える方法にインスパイアされ、新しく提案されたデルタ推論フレームワーク内のLMを評価する。様々なプロンプト戦略にまたがる$sim$30 LMを評価した結果,LMは一般的に,新たな情報に反応して信念を適切に修正するのに苦慮していることがわかった。
論文参考訳（メタデータ） (2024-06-28T09:09:36Z)
DnA-Eval: Enhancing Large Language Model Evaluation through Decomposition and Aggregation [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文参考訳（メタデータ） (2024-05-24T08:12:30Z)
LLMs as Narcissistic Evaluators: When Ego Inflates Evaluation Scores [23.568883428947494]
本研究は,LMに基づく評価指標が,要約タスクの文脈において,それぞれの基盤となるLMに対して有利なバイアスを示すかどうかを考察する。以上の結果から, 金のサマリーを活用せずに, 基準のない手法で評価指標を用いた場合, 特に有意なバイアスがみられた。これらの結果は、生成的評価モデルによって提供される評価は、本質的なテキスト品質を超える要因に影響される可能性があることを裏付けている。
論文参考訳（メタデータ） (2023-11-16T10:43:26Z)
Benchmarking Foundation Models with Language-Model-as-an-Examiner [47.345760054595246]
本稿では,新しいベンチマークフレームワークLanguage-Model-as-an-Examinerを提案する。 LMは、その知識に基づいて質問を定式化し、基準のない方法で応答を評価する、知識に富んだ検査者として機能する。
論文参考訳（メタデータ） (2023-06-07T06:29:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。