論文の概要: RussianSuperGLUE: A Russian Language Understanding Evaluation Benchmark
- arxiv url: http://arxiv.org/abs/2010.15925v2
- Date: Mon, 2 Nov 2020 11:02:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-01 21:59:37.477791
- Title: RussianSuperGLUE: A Russian Language Understanding Evaluation Benchmark
- Title(参考訳): Russian SuperGLUE: ロシア語理解評価ベンチマーク
- Authors: Tatiana Shavrina and Alena Fenogenova and Anton Emelyanov and Denis
Shevelev and Ekaterina Artemova and Valentin Malykh and Vladislav Mikhailov
and Maria Tikhonova and Andrey Chertok and Andrey Evlampiev
- Abstract要約: 先進的なロシア語理解評価ベンチマークであるロシア語GLUEを紹介する。
9つのタスクのベンチマークは、SuperGLUEの手法と類似して収集され、ロシア語のスクラッチから開発された。
- 参考スコア(独自算出の注目度): 5.258267224004844
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we introduce an advanced Russian general language
understanding evaluation benchmark -- RussianGLUE. Recent advances in the field
of universal language models and transformers require the development of a
methodology for their broad diagnostics and testing for general intellectual
skills - detection of natural language inference, commonsense reasoning,
ability to perform simple logical operations regardless of text subject or
lexicon. For the first time, a benchmark of nine tasks, collected and organized
analogically to the SuperGLUE methodology, was developed from scratch for the
Russian language. We provide baselines, human level evaluation, an open-source
framework for evaluating models
(https://github.com/RussianNLP/RussianSuperGLUE), and an overall leaderboard of
transformer models for the Russian language. Besides, we present the first
results of comparing multilingual models in the adapted diagnostic test set and
offer the first steps to further expanding or assessing state-of-the-art models
independently of language.
- Abstract(参考訳): 本稿では,ロシアの汎用言語理解評価ベンチマークである russianglue について紹介する。
近年のユニバーサル言語モデルとトランスフォーマーの分野での進歩は、自然言語の推論、常識推論、テキストの主題や辞書に関わらず単純な論理操作を実行する能力など、幅広い知識スキルの診断とテストのための方法論の開発を必要としている。
初めて、スーパーグルーの方法論に類似した9つのタスクのベンチマークがロシア語でスクラッチから開発された。
我々は、ベースライン、人間レベルの評価、モデル評価のためのオープンソースフレームワーク(https://github.com/russiannlp/russiansuperglue)、ロシア語のトランスフォーマーモデルの全体的なリーダーボードを提供する。
さらに,適応型診断テストセットにおける多言語モデルの比較を行い,言語に依存しない最先端モデルをさらに拡張・評価するための第一歩を示す。
関連論文リスト
- The Russian-focused embedders' exploration: ruMTEB benchmark and Russian embedding model design [39.80182519545138]
本稿では,ロシア語の埋め込みモデルに関する研究に焦点をあてる。
ru-en-RoSBERTaと呼ばれる新しいロシアの埋め込みモデルとruMTEBベンチマークを導入している。
論文 参考訳(メタデータ) (2024-08-22T15:53:23Z) - Advancing the Evaluation of Traditional Chinese Language Models: Towards
a Comprehensive Benchmark Suite [17.764840326809797]
本稿では,既存の英語データセットを活用し,中国語の言語モデルを評価するための新しいベンチマークセットを提案する。
これらのベンチマークには、コンテキスト質問、要約、分類、テーブル理解など、幅広いタスクが含まれている。
本稿では,これらのベンチマークを用いて,GPT-3.5,台湾-LLaMa-v1.0,モデル7-Cの性能評価を行った。
論文 参考訳(メタデータ) (2023-09-15T14:52:23Z) - Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - Commonsense Knowledge Transfer for Pre-trained Language Models [83.01121484432801]
ニューラルコモンセンス知識モデルに格納されたコモンセンス知識を汎用的な事前学習言語モデルに転送するフレームワークであるコモンセンス知識伝達を導入する。
まず、一般的なテキストを利用して、ニューラルコモンセンス知識モデルからコモンセンス知識を抽出するクエリを形成する。
次に、コモンセンスマスクの埋め込みとコモンセンスの関係予測という2つの自己教師対象で言語モデルを洗練する。
論文 参考訳(メタデータ) (2023-06-04T15:44:51Z) - Russian SuperGLUE 1.1: Revising the Lessons not Learned by Russian NLP
models [53.95094814056337]
本稿では,ロシアNLPモデルのGLUEを改良したベンチマークである,ロシアのSuperGLUE 1.1を提案する。
新バージョンには、技術的、ユーザエクスペリエンス、方法論的改善が多数含まれている。
我々は,ロシアのSuperGLUEをオープンソースモデルMOROCCOの産業的評価のためのフレームワークに統合する。
論文 参考訳(メタデータ) (2022-02-15T23:45:30Z) - CUGE: A Chinese Language Understanding and Generation Evaluation
Benchmark [144.05723617401674]
汎用言語インテリジェンス評価は、自然言語処理の長年の目標である。
汎用言語インテリジェンス評価には,ベンチマーク自体が包括的で体系的なものである必要がある,と我々は主張する。
以下に示す機能を備えた中国語理解・生成評価ベンチマークであるCUGEを提案する。
論文 参考訳(メタデータ) (2021-12-27T11:08:58Z) - Methods for Detoxification of Texts for the Russian Language [55.337471467610094]
我々は、攻撃的言語と戦うために、ロシア語のテキストを自動で解毒する研究を初めて紹介する。
我々は、局所的な修正を行う教師なしアプローチと、事前訓練された言語GPT-2モデルに基づく教師なしアプローチの2種類のモデルをテストする。
以上の結果から, 改良の余地はあるものの, 脱毒に有効であることが明らかとなった。
論文 参考訳(メタデータ) (2021-05-19T10:37:44Z) - TextFlint: Unified Multilingual Robustness Evaluation Toolkit for
Natural Language Processing [73.16475763422446]
NLPタスク(TextFlint)のための多言語ロバスト性評価プラットフォームを提案する。
普遍的なテキスト変換、タスク固有の変換、敵攻撃、サブポピュレーション、およびそれらの組み合わせを取り入れ、包括的な堅牢性分析を提供する。
TextFlintは、モデルの堅牢性の欠点に対処するために、完全な分析レポートとターゲットとした拡張データを生成します。
論文 参考訳(メタデータ) (2021-03-21T17:20:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。