論文の概要: Curriculum: A Broad-Coverage Benchmark for Linguistic Phenomena in
Natural Language Understanding
- arxiv url: http://arxiv.org/abs/2204.06283v1
- Date: Wed, 13 Apr 2022 10:32:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-14 18:07:59.198215
- Title: Curriculum: A Broad-Coverage Benchmark for Linguistic Phenomena in
Natural Language Understanding
- Title(参考訳): Curriculum: 自然言語理解における言語現象の広域ベンチマーク
- Authors: Zeming Chen, Qiyue Gao
- Abstract要約: Curriculumは広範囲言語現象の評価のためのNLIベンチマークの新しいフォーマットである。
この言語フェノメナ駆動型ベンチマークは、モデル行動の診断とモデル学習品質の検証に有効なツールであることを示す。
- 参考スコア(独自算出の注目度): 1.827510863075184
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the age of large transformer language models, linguistic evaluation play
an important role in diagnosing models' abilities and limitations on natural
language understanding. However, current evaluation methods show some
significant shortcomings. In particular, they do not provide insight into how
well a language model captures distinct linguistic skills essential for
language understanding and reasoning. Thus they fail to effectively map out the
aspects of language understanding that remain challenging to existing models,
which makes it hard to discover potential limitations in models and datasets.
In this paper, we introduce Curriculum as a new format of NLI benchmark for
evaluation of broad-coverage linguistic phenomena. Curriculum contains a
collection of datasets that covers 36 types of major linguistic phenomena and
an evaluation procedure for diagnosing how well a language model captures
reasoning skills for distinct types of linguistic phenomena. We show that this
linguistic-phenomena-driven benchmark can serve as an effective tool for
diagnosing model behavior and verifying model learning quality. In addition,
Our experiments provide insight into the limitation of existing benchmark
datasets and state-of-the-art models that may encourage future research on
re-designing datasets, model architectures, and learning objectives.
- Abstract(参考訳): 大きなトランスフォーマー言語モデルの時代において、言語評価は、自然言語理解におけるモデルの能力と限界の診断において重要な役割を担っている。
しかし、現在の評価手法にはいくつかの重大な欠点がある。
特に、言語モデルが言語理解と推論に不可欠な言語スキルをいかにうまく捉えているかについての洞察を与えていない。
そのため、既存のモデルでは難しい言語理解の側面を効果的にマップできないため、モデルやデータセットの潜在的な制限を見つけることは困難である。
本稿では,広範囲言語現象評価のためのNLIベンチマークの新たな形式としてCurriculumを紹介した。
カリキュラムには、36種類の主要な言語現象をカバーするデータセットと、言語モデルが言語現象の異なるタイプの推論スキルをいかにうまく捉えているかを診断するための評価手順が含まれている。
この言語表現型ベンチマークは,モデル行動の診断とモデル学習品質の検証に有効なツールであることを示す。
さらに,既存のベンチマークデータセットと最新モデルの限界に関する洞察を与え,データセット,モデルアーキテクチャ,学習目標の再設計に関する今後の研究を奨励する。
関連論文リスト
- Linguistically Grounded Analysis of Language Models using Shapley Head Values [2.914115079173979]
最近提案されたシェープヘッド値(SHV)を用いた言語モデル探索手法を利用した形態素合成現象の処理について検討する。
英語のBLiMPデータセットを用いて、BERTとRoBERTaという2つの広く使われているモデルに対して、我々のアプローチを検証し、言語構造がどのように扱われるかを比較する。
以上の結果から,SHVに基づく属性は両モデルにまたがる異なるパターンを明らかにし,言語モデルがどのように言語情報を整理・処理するかの洞察を与える。
論文 参考訳(メタデータ) (2024-10-17T09:48:08Z) - Language Models as Models of Language [0.0]
この章は、理論言語学への現代言語モデルの潜在的貢献について批判的に考察する。
言語モデルが階層的な構文構造を学習し,様々な言語現象に対する感受性を示すことを示唆する経験的証拠の蓄積を概説する。
私は、理論言語学者と計算研究者の緊密な協力が貴重な洞察をもたらすと結論づける。
論文 参考訳(メタデータ) (2024-08-13T18:26:04Z) - Lessons from the Trenches on Reproducible Evaluation of Language Models [60.522749986793094]
我々は,大規模言語モデルの評価を3年間経験し,研究者に指導とレッスンを提供してきた。
本稿では,言語モデルの独立性,再現性,評価を行うオープンソースライブラリであるLanguage Model Evaluation Harness(lm-eval)を紹介する。
論文 参考訳(メタデータ) (2024-05-23T16:50:49Z) - Learning Phonotactics from Linguistic Informants [54.086544221761486]
本モデルでは,情報理論的なポリシーの1つに従って,データポイントを反復的に選択または合成する。
提案モデルでは,情報提供者を問う項目の選択に使用する情報理論のポリシーが,完全教師付きアプローチに匹敵する,あるいはそれ以上の効率性が得られることがわかった。
論文 参考訳(メタデータ) (2024-05-08T00:18:56Z) - Holmes: A Benchmark to Assess the Linguistic Competence of Language Models [59.627729608055006]
言語モデル(LM)の言語能力を評価するための新しいベンチマークであるHolmesを紹介する。
我々は、計算に基づく探索を用いて、異なる言語現象に関するLMの内部表現を調べる。
その結果,近年,他の認知能力からLMの言語能力を引き離す声が上がっている。
論文 参考訳(メタデータ) (2024-04-29T17:58:36Z) - More Room for Language: Investigating the Effect of Retrieval on Language Models [3.8574940917179164]
本稿では、これらのモデルを完全に制御可能な環境で研究するための「理想的検索」手法を提案する。
本研究では,検索の強化が言語モデルの動作に与える影響を評価するための評価を行う。
論文 参考訳(メタデータ) (2024-04-16T22:43:48Z) - L2CEval: Evaluating Language-to-Code Generation Capabilities of Large
Language Models [102.00201523306986]
大規模言語モデル(LLM)の言語間コード生成能力を体系的に評価するL2CEvalを提案する。
モデルのサイズ、事前学習データ、命令チューニング、異なるプロンプトメソッドなど、それらのパフォーマンスに影響を与える可能性のある要因を分析する。
モデル性能の評価に加えて、モデルに対する信頼性校正を計測し、出力プログラムの人間による評価を行う。
論文 参考訳(メタデータ) (2023-09-29T17:57:00Z) - Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - Large Linguistic Models: Analyzing theoretical linguistic abilities of
LLMs [7.4815059492034335]
大規模言語モデルでは,言語データの一貫性のある形式解析が可能であることを示す。
形式言語学の3つのサブフィールド(構文、音韻学、意味論)に焦点を当てる。
この調査の行は、モデル表現が明示的なプロンプトによってアクセスされる深層学習の行動解釈可能性を示している。
論文 参考訳(メタデータ) (2023-05-01T17:09:33Z) - Probing via Prompting [71.7904179689271]
本稿では,探索をプロンプトタスクとして定式化することで,新しいモデルフリーな探索手法を提案する。
我々は5つの探索課題について実験を行い、我々のアプローチが診断プローブよりも情報抽出に優れていることを示す。
次に,その特性に不可欠な頭部を除去し,言語モデリングにおけるモデルの性能を評価することにより,事前学習のための特定の言語特性の有用性を検討する。
論文 参考訳(メタデータ) (2022-07-04T22:14:40Z) - A Closer Look at Linguistic Knowledge in Masked Language Models: The
Case of Relative Clauses in American English [17.993417004424078]
トランスフォーマーに基づく言語モデルは、様々なタスクにおいて高いパフォーマンスを達成するが、それらが学習し、依存する言語知識の理解はいまだに不足している。
文レベルの探索, 診断事例, マスク付き予測タスクにより, 文法的および意味的知識をテストする3つのモデル(BERT, RoBERTa, ALBERT)を評価した。
論文 参考訳(メタデータ) (2020-11-02T13:25:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。