論文の概要: ElitePLM: An Empirical Study on General Language Ability Evaluation of
Pretrained Language Models
- arxiv url: http://arxiv.org/abs/2205.01523v1
- Date: Tue, 3 May 2022 14:18:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-04 14:04:25.096797
- Title: ElitePLM: An Empirical Study on General Language Ability Evaluation of
Pretrained Language Models
- Title(参考訳): ElitePLM:事前学習言語モデルの一般言語能力評価に関する実証的研究
- Authors: Junyi Li, Tianyi Tang, Zheng Gong, Lixin Yang, Zhuohao Yu, Zhipeng
Chen, Jingyuan Wang, Wayne Xin Zhao and Ji-Rong Wen
- Abstract要約: 本稿では,事前学習型言語モデル(ElitePLM)の汎用言語能力評価に関する大規模実証的研究について述べる。
実験の結果,(1)訓練対象の異なるPLMは異なる能力試験に適しており,(2)下流タスクの微調整PLMはデータサイズや分布に敏感であり,(3)PLMは類似タスク間の転送性に優れていた。
- 参考スコア(独自算出の注目度): 78.08792285698853
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Nowadays, pretrained language models (PLMs) have dominated the majority of
NLP tasks. While, little research has been conducted on systematically
evaluating the language abilities of PLMs. In this paper, we present a
large-scale empirical study on general language ability evaluation of PLMs
(ElitePLM). In our study, we design four evaluation dimensions, i.e. memory,
comprehension, reasoning, and composition, to measure ten widely-used PLMs
within five categories. Our empirical results demonstrate that: (1) PLMs with
varying training objectives and strategies are good at different ability tests;
(2) fine-tuning PLMs in downstream tasks is usually sensitive to the data size
and distribution; (3) PLMs have excellent transferability between similar
tasks. Moreover, the prediction results of PLMs in our experiments are released
as an open resource for more deep and detailed analysis on the language
abilities of PLMs. This paper can guide the future work to select, apply, and
design PLMs for specific tasks. We have made all the details of experiments
publicly available at https://github.com/RUCAIBox/ElitePLM.
- Abstract(参考訳): 現在、プレトレーニング言語モデル(PLM)がNLPタスクの大部分を占めている。
PLMの言語能力を体系的に評価する研究はほとんど行われていない。
本稿では,PLM(ElitePLM)の汎用言語能力評価に関する大規模な実証的研究を行う。
本研究では, 記憶, 理解, 推論, 構成の4つの評価次元を設計し, 広く利用されている10個のPLMを5つのカテゴリで測定した。
その結果,(1)訓練目標や戦略の異なるplmは能力テストに適しており,(2)下流タスクにおけるplmの微調整はデータサイズや分布に敏感であり,(3)plmは類似したタスク間の転送性に優れることがわかった。
さらに,本実験におけるPLMの予測結果は,PLMの言語能力についてより深く詳細な分析を行うためのオープンリソースとしてリリースされた。
本稿では, PLM の選択, 適用, 設計を行うための今後の課題について紹介する。
実験の詳細はhttps://github.com/RUCAIBox/ElitePLM.comで公開しています。
関連論文リスト
- MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs [97.94579295913606]
MLLM(Multimodal Large Language Models)は、産業と学術の両方から注目を集めている。
開発プロセスでは、モデルの改善に関する直感的なフィードバックとガイダンスを提供するため、評価が重要である。
この研究は、研究者に異なるニーズに応じてMLLMを効果的に評価する方法を簡単に把握し、より良い評価方法を促すことを目的としている。
論文 参考訳(メタデータ) (2024-11-22T18:59:54Z) - Few-Shot Cross-Lingual Transfer for Prompting Large Language Models in
Low-Resource Languages [0.0]
プロンプティング(prompting)とは、ユーザがタスクの説明と完了したタスクのいくつかの例を PLM にコンテキストとして提供し、PLM に新しい例でタスクを実行するように促す方法である。
提案手法は, 数発プロンプト(prompt), 言語適応微調整(LAFT), ニューラルマシン翻訳(Translate)の3種類である。
翻訳とプロンプトの設定は、選択した低リソース言語に対して、数ショットプロンプトの計算効率とコスト効率のよい方法であることがわかった。
論文 参考訳(メタデータ) (2024-03-09T21:36:13Z) - Linguistic Intelligence in Large Language Models for Telecommunications [5.06945923921948]
自然言語処理(NLP)分野において,Large Language Models (LLMs) が大きな進歩を遂げている。
本研究は,電気通信分野におけるLLMの知識と理解能力を評価することを目的とする。
評価の結果,ゼロショットLLMは現状の細調整モデルに匹敵する性能を達成できることがわかった。
論文 参考訳(メタデータ) (2024-02-24T14:01:07Z) - PRE: A Peer Review Based Large Language Model Evaluator [14.585292530642603]
既存のパラダイムは、LLMの性能を評価するために、人間アノテーションまたはモデルベースの評価器のいずれかに依存している。
ピアレビュープロセスを通じてLLMを自動的に評価できる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-28T12:33:14Z) - Through the Lens of Core Competency: Survey on Evaluation of Large
Language Models [27.271533306818732]
大規模言語モデル(LLM)は優れた性能と幅広い実用性を持っている。
既存の評価タスクは、現実世界のシナリオにおける幅広いアプリケーションに追いつくのは難しい。
LLMの4つのコア能力は、推論、知識、信頼性、安全性などである。
この能力アーキテクチャの下では、類似したタスクを組み合わせて対応する能力を反映し、新しいタスクをシステムに簡単に追加することができる。
論文 参考訳(メタデータ) (2023-08-15T17:40:34Z) - Metacognitive Prompting Improves Understanding in Large Language Models [12.112914393948415]
メタ認知プロンプト(MP)は,人間の内省的推論プロセスにインスパイアされた戦略である。
我々は10の自然言語理解(NLU)データセットにまたがる4つの先行するLarge Language Model(LLM)の実験を行った。
MPは、一般的なNLUタスクとドメイン固有のNLUタスクの両方において、既存のプロンプトメソッドを一貫して上回っている。
論文 参考訳(メタデータ) (2023-08-10T05:10:17Z) - A Survey on Evaluation of Large Language Models [87.60417393701331]
大規模言語モデル(LLM)は、学術と産業の両方で人気が高まっている。
本稿では,評価方法,評価方法,評価方法の3つの重要な側面に焦点をあてる。
論文 参考訳(メタデータ) (2023-07-06T16:28:35Z) - Document-Level Machine Translation with Large Language Models [91.03359121149595]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクに対して、一貫性、凝集性、関連性、流動性のある回答を生成することができる。
本稿では,LLMの談話モデルにおける能力について詳細に評価する。
論文 参考訳(メタデータ) (2023-04-05T03:49:06Z) - LERT: A Linguistically-motivated Pre-trained Language Model [67.65651497173998]
本稿では,3種類の言語特徴を学習する事前学習型言語モデルLERTを提案する。
我々は,中国における10のNLUタスクについて広範な実験を行い,LERTが大きな改善をもたらすことを示す実験結果を得た。
論文 参考訳(メタデータ) (2022-11-10T05:09:16Z) - Knowledge Inheritance for Pre-trained Language Models [57.51305807391381]
我々は「知識継承(KI)」という新しい事前学習フレームワークを導入する。
KIは、自己学習と教師指導の両方を組み合わせて、より大きなPLMを効率的に訓練する。
KIは生涯学習と知識伝達を十分に支援できることを示す。
論文 参考訳(メタデータ) (2021-05-28T14:43:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。