論文の概要: What's the Meaning of Superhuman Performance in Today's NLU?
- arxiv url: http://arxiv.org/abs/2305.08414v1
- Date: Mon, 15 May 2023 07:48:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-16 15:41:20.023353
- Title: What's the Meaning of Superhuman Performance in Today's NLU?
- Title(参考訳): 今日のNLUにおける超人的パフォーマンスの意味は?
- Authors: Simone Tedeschi, Johan Bos, Thierry Declerck, Jan Hajic, Daniel
Hershcovich, Eduard H. Hovy, Alexander Koller, Simon Krek, Steven Schockaert,
Rico Sennrich, Ekaterina Shutova, Roberto Navigli
- Abstract要約: 我々は,SuperGLUE や SQuAD などのベンチマークが人間と PLM の比較に重大な制限を課していることを示す。
より公平で透過的なベンチマークのためのレコメンデーションを提供します。
- 参考スコア(独自算出の注目度): 145.75798804940766
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In the last five years, there has been a significant focus in Natural
Language Processing (NLP) on developing larger Pretrained Language Models
(PLMs) and introducing benchmarks such as SuperGLUE and SQuAD to measure their
abilities in language understanding, reasoning, and reading comprehension.
These PLMs have achieved impressive results on these benchmarks, even
surpassing human performance in some cases. This has led to claims of
superhuman capabilities and the provocative idea that certain tasks have been
solved. In this position paper, we take a critical look at these claims and ask
whether PLMs truly have superhuman abilities and what the current benchmarks
are really evaluating. We show that these benchmarks have serious limitations
affecting the comparison between humans and PLMs and provide recommendations
for fairer and more transparent benchmarks.
- Abstract(参考訳): 過去5年間、自然言語処理(NLP)において、より大きな事前学習言語モデル(PLM)の開発や、SuperGLUEやSQuADといったベンチマークを導入して、言語理解、推論、理解の能力を測定することに注力してきた。
これらのPLMはこれらのベンチマークで印象的な成果を上げており、場合によっては人間のパフォーマンスを上回ります。
これは超人的能力の主張と、あるタスクが解決されたという挑発的な考えにつながった。
本稿では、これらの主張を批判的に考察し、PLMが本当に超人的能力を持つのか、現在のベンチマークが実際に評価しているのかを問う。
これらのベンチマークは人間とPLMの比較に重大な制約があることを示し、より公平で透明なベンチマークの推奨を提供する。
関連論文リスト
- Alleviating Over-smoothing for Unsupervised Sentence Representation [96.19497378628594]
本稿では,この問題を緩和するために,SSCL(Self-Contrastive Learning)というシンプルな手法を提案する。
提案手法は非常に単純で,様々な最先端モデルに拡張して,性能向上を図ることができる。
論文 参考訳(メタデータ) (2023-05-09T11:00:02Z) - Benchmarking Large Language Models for News Summarization [79.37850439866938]
大規模言語モデル(LLM)は自動要約を約束しているが、その成功の背景にある理由はよく分かっていない。
LLMのゼロショット要約能力の鍵は、モデルサイズではなく、命令チューニングにある。
論文 参考訳(メタデータ) (2023-01-31T18:46:19Z) - True Detective: A Challenging Benchmark for Deep Abductive Reasoning
\\in Foundation Models [0.0]
大規模言語モデル(LLM)は、帰納的推論を含むゼロショット推論タスクにおいて、強い性能を示している。
本稿では,191個の長文のミステリーストーリーからなり,それぞれ約1200語の長さで,刑事パズルの形で提示されるベンチマークを提案する。
以上の結果から,現状のGPTモデルは,人間の47%に比べて28%の精度で,人間の解法よりも有意に低い結果が得られた。
論文 参考訳(メタデータ) (2022-12-20T09:34:43Z) - Despite "super-human" performance, current LLMs are unsuited for
decisions about ethics and safety [0.0]
我々は、もう1つの「スーパーヒューマン」な結果につながる、シンプルな新しいプロンプト戦略を提供します。
平均的なパフォーマンスを判断能力に頼っていることは、非常に誤解を招く可能性がある。
また、いくつかの例では、モデルサイズによる逆スケーリングの兆候を観察し、モデルに"推論を説明する"よう促すことが、しばしば非倫理的行動の顕著な正当化につながることを示す。
論文 参考訳(メタデータ) (2022-12-13T00:29:45Z) - Large language models are not zero-shot communicators [20.366191779150878]
LLMを会話エージェントとして広く使用しているにもかかわらず、性能評価はコミュニケーションの重要な側面を捉えていない。
LLMがこのような推論を行う能力を持つかどうかを考察する。
私たちは、バイナリ推論を必要とする発話(yes or no)のみを評価するにもかかわらず、ほとんどの場合ランダムに近いパフォーマンスを示すことに気付きました。
論文 参考訳(メタデータ) (2022-10-26T19:04:23Z) - Large Language Models Still Can't Plan (A Benchmark for LLMs on Planning
and Reasoning about Change) [33.01659916505635]
大規模言語モデル(LLM)は自然言語処理(NLP)の分野を変革した。
大規模言語モデル(LLM)の最近の進歩は、自然言語処理(NLP)の分野を変えつつある。
論文 参考訳(メタデータ) (2022-06-21T16:15:27Z) - ElitePLM: An Empirical Study on General Language Ability Evaluation of
Pretrained Language Models [78.08792285698853]
本稿では,事前学習型言語モデル(ElitePLM)の汎用言語能力評価に関する大規模実証的研究について述べる。
実験の結果,(1)訓練対象の異なるPLMは異なる能力試験に適しており,(2)下流タスクの微調整PLMはデータサイズや分布に敏感であり,(3)PLMは類似タスク間の転送性に優れていた。
論文 参考訳(メタデータ) (2022-05-03T14:18:10Z) - CLUES: Few-Shot Learning Evaluation in Natural Language Understanding [81.63968985419982]
我々は,NLUモデルの少数ショット学習能力を評価するためのベンチマークであるCLUESを紹介する。
近年のモデルでは,大量のラベル付きデータにアクセスすると人的パフォーマンスが向上するが,ほとんどのタスクにおいて数ショット設定では,パフォーマンスに大きなギャップが生じることが実証された。
論文 参考訳(メタデータ) (2021-11-04T00:43:15Z) - Unreasonable Effectiveness of Rule-Based Heuristics in Solving Russian
SuperGLUE Tasks [2.6189995284654737]
SuperGLUEのようなリーダーボードは、NLPの活発な開発のための重要なインセンティブと見なされている。
テストデータセットは浅瀬に対して脆弱であることを示す。
最も簡単な説明として)RSGリーダーボードにおけるSOTAモデルのパフォーマンスの大部分は、これらの浅瀬を利用するためである可能性が高い。
論文 参考訳(メタデータ) (2021-05-03T22:19:22Z) - FewJoint: A Few-shot Learning Benchmark for Joint Language Understanding [55.38905499274026]
機械学習は、機械学習における重要なステップの1つだ。
FewJointは、NLP用のFew-Shot Learningベンチマークである。
論文 参考訳(メタデータ) (2020-09-17T08:17:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。