論文の概要: CoDA21: Evaluating Language Understanding Capabilities of NLP Models
With Context-Definition Alignment
- arxiv url: http://arxiv.org/abs/2203.06228v1
- Date: Fri, 11 Mar 2022 20:12:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-20 04:29:42.242592
- Title: CoDA21: Evaluating Language Understanding Capabilities of NLP Models
With Context-Definition Alignment
- Title(参考訳): CoDA21:コンテキスト分割アライメントによるNLPモデルの言語理解能力の評価
- Authors: L\"utfi Kerem Senel, Timo Schick and Hinrich Sch\"utze
- Abstract要約: プレトレーニング言語モデル(PLM)は多くのベンチマークで超人的性能を達成した。
PLMの自然言語理解能力(NLU)を測定するベンチマークであるCoDA21を紹介する。
我々は、人間とPLMのパフォーマンスの間に大きなギャップがあることを発見し、CoDA21が既存のベンチマークで十分にカバーされていないNLUの側面を測定することを示唆している。
- 参考スコア(独自算出の注目度): 12.891210250935147
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pretrained language models (PLMs) have achieved superhuman performance on
many benchmarks, creating a need for harder tasks. We introduce CoDA21 (Context
Definition Alignment), a challenging benchmark that measures natural language
understanding (NLU) capabilities of PLMs: Given a definition and a context each
for k words, but not the words themselves, the task is to align the k
definitions with the k contexts. CoDA21 requires a deep understanding of
contexts and definitions, including complex inference and world knowledge. We
find that there is a large gap between human and PLM performance, suggesting
that CoDA21 measures an aspect of NLU that is not sufficiently covered in
existing benchmarks.
- Abstract(参考訳): 事前学習された言語モデル(plm)は多くのベンチマークで超人的なパフォーマンスを達成し、難しいタスクの必要性を生み出した。
我々は、plmの自然言語理解(nlu)能力を測定する挑戦的なベンチマークであるcoda21(context definition alignment)を紹介している。
CoDA21は複雑な推論や世界知識を含む文脈や定義の深い理解を必要とする。
我々は、人間とPLMのパフォーマンスの間に大きなギャップがあることを発見し、CoDA21が既存のベンチマークで十分にカバーされていないNLUの側面を測定することを示唆している。
関連論文リスト
- Retrieval or Global Context Understanding? On Many-Shot In-Context Learning for Long-Context Evaluation [10.500629810624769]
マルチショットインコンテキスト学習(ICL)による長文言語モデルの評価について検討する。
ICLタスクが必要とするスキルを特定し、それらに対するモデルの長期コンテキスト能力を調べる。
我々は、LCLMの検索機能とグローバルコンテキスト理解機能を別々に特徴付けるために、新しいマルチショットICLベンチマークMANYICLBENCHを導入する。
論文 参考訳(メタデータ) (2024-11-11T17:00:59Z) - PUB: A Pragmatics Understanding Benchmark for Assessing LLMs' Pragmatics
Capabilities [40.55743949223173]
Pragmatics Understanding Benchmark (PUB) は、4つの実用的現象における14のタスクからなるデータセットである。
PUBには合計28kのデータポイントが含まれており、そのうち6.1kは私たちによって作成され、残りは既存のデータセットから適応されている。
本研究は,命令追従とチャットの微調整により,より小さな言語モデルの実用性を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-01-13T13:46:14Z) - SOUL: Towards Sentiment and Opinion Understanding of Language [96.74878032417054]
我々は、言語感覚とオピニオン理解(SOUL)と呼ばれる新しいタスクを提案する。
SOULは2つのサブタスクを通して感情理解を評価することを目的としている:レビュー(RC)と正当化生成(JG)。
論文 参考訳(メタデータ) (2023-10-27T06:48:48Z) - CoAnnotating: Uncertainty-Guided Work Allocation between Human and Large
Language Models for Data Annotation [94.59630161324013]
本稿では,非構造化テキストの大規模共同アノテーションのための新しいパラダイムであるCoAnnotatingを提案する。
我々の実証研究は、CoAnnotatingが、異なるデータセット上の結果から作業を割り当てる効果的な手段であることを示し、ランダムベースラインよりも最大21%のパフォーマンス改善を実現している。
論文 参考訳(メタデータ) (2023-10-24T08:56:49Z) - A Novel Computational and Modeling Foundation for Automatic Coherence Assessment [13.430637580980164]
コヒーレンス(Coherence)は、テキスト単位が相互に関連付ける方法を指す、よく書かれたテキストの本質的な性質である。
本研究では,3つの条件 – em cohesion, consistency, emlevance – から成る談話コヒーレント(concourse coherent)を形式的に定義し,これらの条件をそれぞれ計算タスクとして定式化する。
人間によるコヒーレンス評価のための2つのベンチマークで、そのうち1つは、自動生成された500個の短編記事、もう1つは4万個の現実世界のテキストを含む。
論文 参考訳(メタデータ) (2023-10-01T07:06:17Z) - Can Large Language Models Understand Real-World Complex Instructions? [54.86632921036983]
大型言語モデル(LLM)は人間の指示を理解することができるが、複雑な命令には耐えられない。
既存のベンチマークでは、LLMが複雑な命令を理解する能力を評価するには不十分である。
複雑な命令を体系的に追従するLSMの能力を評価するためのベンチマークであるCellOを提案する。
論文 参考訳(メタデータ) (2023-09-17T04:18:39Z) - DecompEval: Evaluating Generated Texts as Unsupervised Decomposed
Question Answering [95.89707479748161]
自然言語生成タスク(NLG)の既存の評価指標は、一般化能力と解釈可能性の課題に直面している。
本稿では,NLG評価を命令型質問応答タスクとして定式化するDecompEvalというメトリクスを提案する。
本稿では,文の質を測る問合せに,文の質を問う指導スタイルの質問を分解する。
PLMが生成した回答を証拠として再検討し、評価結果を得る。
論文 参考訳(メタデータ) (2023-07-13T16:16:51Z) - Error Analysis Prompting Enables Human-Like Translation Evaluation in Large Language Models [57.80514758695275]
機械翻訳(MT)の品質を評価するために,大規模言語モデル(LLM)を用いることで,システムレベルでの最先端のパフォーマンスを実現する。
我々はtextbftexttError Analysis Prompting (EAPrompt) と呼ばれる新しいプロンプト手法を提案する。
本手法は,多次元品質指標 (MQM) とtextitproduces を用いて,システムレベルとセグメントレベルの両方で説明可能かつ信頼性の高いMT評価を行う。
論文 参考訳(メタデータ) (2023-03-24T05:05:03Z) - ERICA: Improving Entity and Relation Understanding for Pre-trained
Language Models via Contrastive Learning [97.10875695679499]
そこで本研究では, ERICA という新たなコントラスト学習フレームワークを提案し, エンティティとその関係をテキストでより深く理解する。
実験の結果,提案する erica フレームワークは文書レベルの言語理解タスクにおいて一貫した改善を実現することがわかった。
論文 参考訳(メタデータ) (2020-12-30T03:35:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。