論文の概要: A Systematic Investigation of Commonsense Understanding in Large
Language Models
- arxiv url: http://arxiv.org/abs/2111.00607v1
- Date: Sun, 31 Oct 2021 22:20:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-03 04:45:33.689712
- Title: A Systematic Investigation of Commonsense Understanding in Large
Language Models
- Title(参考訳): 大規模言語モデルにおける共通理解の体系的研究
- Authors: Xiang Lorraine Li, Adhi Kuncoro, Cyprien de Masson d'Autume, Phil
Blunsom, Aida Nematzadeh
- Abstract要約: 大規模な言語モデルでは、ゼロショット設定で多くの自然言語処理(NLP)タスクで顕著なパフォーマンスを示している。
これらのモデルが4つのコモンセンスベンチマークに対してモデルを評価することによってコモンセンス理解を示すかどうかを問う。
- 参考スコア(独自算出の注目度): 23.430757316504316
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models have shown impressive performance on many natural
language processing (NLP) tasks in a zero-shot setting. We ask whether these
models exhibit commonsense understanding -- a critical component of NLP
applications -- by evaluating models against four commonsense benchmarks. We
find that the impressive zero-shot performance of large language models is
mostly due to existence of dataset bias in our benchmarks. We also show that
the zero-shot performance is sensitive to the choice of hyper-parameters and
similarity of the benchmark to the pre-training datasets. Moreover, we did not
observe substantial improvements when evaluating models in a few-shot setting.
Finally, in contrast to previous work, we find that leveraging explicit
commonsense knowledge does not yield substantial improvement.
- Abstract(参考訳): 大きな言語モデルは、ゼロショット設定で多くの自然言語処理(nlp)タスクで印象的なパフォーマンスを示している。
これらのモデルが4つのcommonsenseベンチマークに対してモデルを評価することによって、nlpアプリケーションの重要なコンポーネントであるcommonsense理解を示すかどうかを問う。
大規模言語モデルの印象的なゼロショットパフォーマンスは、ベンチマークにおけるデータセットバイアスの存在によるものです。
また,ゼロショット性能はハイパーパラメータの選択や,事前学習したデータセットとベンチマークの類似性に敏感であることを示した。
さらに,数ショット設定でのモデル評価では,大幅な改善は見られなかった。
最後に,従来の研究とは対照的に,明示的なコモンセンス知識を活用することで,大幅な改善が得られないことを見出した。
関連論文リスト
- On the Compositional Generalization Gap of In-Context Learning [73.09193595292233]
In-distriion (ID) と Out-of-distriion (OOD) の相違について考察する。
我々は,3つの意味解析データセットを用いて,OPT,BLOOM,CodeGen,Codexの4つのモデルファミリを評価する。
論文 参考訳(メタデータ) (2022-11-15T19:56:37Z) - Analyzing Bagging Methods for Language Models [0.5161531917413708]
我々は,バッジ言語モデルの解析を行い,単一言語モデルと最終モデルサイズで大まかに等価なタグ付きアンサンブルを比較した。
我々のアンサンブル法は、少なくとも1つのLMベースラインとほぼ同等である。
論文 参考訳(メタデータ) (2022-07-19T06:30:37Z) - ELEVATER: A Benchmark and Toolkit for Evaluating Language-Augmented
Visual Models [102.63817106363597]
ELEVATERは、事前訓練された言語拡張ビジュアルモデルの比較と評価を行う最初のベンチマークである。
20の画像分類データセットと35のオブジェクト検出データセットで構成され、それぞれが外部知識で拡張されている。
研究コミュニティ向けのツールキットと評価プラットフォームをリリースします。
論文 参考訳(メタデータ) (2022-04-19T10:23:42Z) - A Generative Language Model for Few-shot Aspect-Based Sentiment Analysis [90.24921443175514]
我々は、アスペクト項、カテゴリを抽出し、対応する極性を予測するアスペクトベースの感情分析に焦点を当てる。
本稿では,一方向の注意を伴う生成言語モデルを用いて,抽出タスクと予測タスクをシーケンス生成タスクに再構成することを提案する。
提案手法は,従来の最先端(BERTをベースとした)の性能を,数ショットとフルショットの設定において,大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-04-11T18:31:53Z) - An Application of Pseudo-Log-Likelihoods to Natural Language Scoring [5.382454613390483]
比較的少ないパラメータとトレーニングステップを持つ言語モデルは、最近の大規模なデータセットでそれを上回るパフォーマンスを得ることができる。
二項選択タスクにおける常識推論のための絶対的最先端結果を生成する。
より小さなモデルの堅牢性は、構成性の観点から理解されるべきである。
論文 参考訳(メタデータ) (2022-01-23T22:00:54Z) - Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of
Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。
GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。
テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文 参考訳(メタデータ) (2021-11-04T12:59:55Z) - Sparse MoEs meet Efficient Ensembles [49.313497379189315]
このようなモデルの2つの一般的なクラス、すなわちニューラルネットワークのアンサンブルと専門家のスパースミックス(スパースMoE)の相互作用について研究する。
Efficient Ensemble of Experts (E$3$)は、両モデルのクラスを最大限に活用するスケーラブルでシンプルなMoEのアンサンブルであり、深いアンサンブルよりも最大45%少ないFLOPを使用する。
論文 参考訳(メタデータ) (2021-10-07T11:58:35Z) - Language Models are Few-shot Multilingual Learners [66.11011385895195]
我々は、非英語言語における多言語分類を行う際に、GPTモデルとT5モデルの多言語的スキルを評価する。
文脈としての英語の例を見ると、事前学習された言語モデルは、英語のテストサンプルだけでなく、英語以外のサンプルも予測できることが示されている。
論文 参考訳(メタデータ) (2021-09-16T03:08:22Z) - Evaluating the Robustness of Neural Language Models to Input
Perturbations [7.064032374579076]
本研究では,雑音の多い入力テキストをシミュレートするために,文字レベルおよび単語レベルの摂動法を設計し,実装する。
本稿では,BERT,XLNet,RoBERTa,ELMoなどの高性能言語モデルを用いて,入力摂動の異なるタイプの処理能力について検討する。
その結果, 言語モデルは入力摂動に敏感であり, 小さな変化が生じても性能が低下することが示唆された。
論文 参考訳(メタデータ) (2021-08-27T12:31:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。