論文の概要: Testing AI performance on less frequent aspects of language reveals
insensitivity to underlying meaning
- arxiv url: http://arxiv.org/abs/2302.12313v2
- Date: Mon, 27 Feb 2023 08:24:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-28 12:19:37.071798
- Title: Testing AI performance on less frequent aspects of language reveals
insensitivity to underlying meaning
- Title(参考訳): あまり頻度の低い言語でAIのパフォーマンスをテストする
- Authors: Vittoria Dentella, Elliot Murphy, Gary Marcus and Evelina Leivada
- Abstract要約: 大規模言語モデルにおける言語知識によって言語性能が導かれるかどうかを問う。
我々は,文法判断タスクでGPT-3を起動し,より頻繁な構成に関する質問を解答する。
GPT-3はすべてのプロンプトで失敗し、しばしば高周波の単語でさえ理解の欠如を示す回答を提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Advances in computational methods and big data availability have recently
translated into breakthroughs in AI applications. With successes in bottom-up
challenges partially overshadowing shortcomings, the 'human-like' performance
of Large Language Models has raised the question of how linguistic performance
is achieved by algorithms. Given systematic shortcomings in generalization
across many AI systems, in this work we ask whether linguistic performance is
indeed guided by language knowledge in Large Language Models. To this end, we
prompt GPT-3 with a grammaticality judgement task and comprehension questions
on less frequent constructions that are thus unlikely to form part of Large
Language Models' training data. These included grammatical 'illusions',
semantic anomalies, complex nested hierarchies and self-embeddings. GPT-3
failed for every prompt but one, often offering answers that show a critical
lack of understanding even of high-frequency words used in these less frequent
grammatical constructions. The present work sheds light on the boundaries of
the alleged AI human-like linguistic competence and argues that, far from
human-like, the next-word prediction abilities of LLMs may face issues of
robustness, when pushed beyond training data.
- Abstract(参考訳): 計算手法とビッグデータ可用性の進歩は、最近AIアプリケーションのブレークスルーに変換された。
ボトムアップの課題の成功によって、大きな言語モデルの「人間的な」パフォーマンスは、アルゴリズムが言語のパフォーマンスをどのように達成するかという問題を提起している。
多くのAIシステムにまたがる一般化における体系的な欠点を考えると、この研究では、言語性能が大規模言語モデルにおける言語知識によって実際に導かれるかどうかを問う。
この目的のために,我々はGPT-3に文法判断タスクを付与し,大規模言語モデルの学習データを構成する可能性が低い低頻度な構成について質問する。
これには、文法的な「イラストレーション」、意味的な異常、複雑なネストした階層、自己埋め込みが含まれる。
GPT-3は全てのプロンプトで失敗し、しばしば、あまり頻度の低い文法構造で使われる高周波語でさえ理解の欠如を示す回答を提供する。
この研究は、AIのような言語能力の主張の境界に光を当て、LLMの次の単語予測能力は、トレーニングデータを超えた堅牢性の問題に直面するかもしれない、と論じている。
関連論文リスト
- On Robustness of Prompt-based Semantic Parsing with Large Pre-trained
Language Model: An Empirical Study on Codex [48.588772371355816]
本稿では,大規模なプロンプトベース言語モデルであるコーデックスの対角的ロバスト性に関する最初の実証的研究について述べる。
この結果から, 最先端の言語モデル(SOTA)は, 慎重に構築された敵の例に対して脆弱であることが示された。
論文 参考訳(メタデータ) (2023-01-30T13:21:00Z) - Prompting Language Models for Linguistic Structure [73.11488464916668]
本稿では,言語構造予測タスクに対する構造化プロンプト手法を提案する。
提案手法は, 音声タグ付け, 名前付きエンティティ認識, 文チャンキングについて評価する。
PLMはタスクラベルの事前知識を事前学習コーパスに漏えいすることで有意な事前知識を含むが、構造化プロンプトは任意のラベルで言語構造を復元することも可能である。
論文 参考訳(メタデータ) (2022-11-15T01:13:39Z) - CLSE: Corpus of Linguistically Significant Entities [58.29901964387952]
専門家が注釈を付けた言語学的に重要なエンティティ(CLSE)のコーパスをリリースする。
CLSEは74種類のセマンティックタイプをカバーし、航空券売機からビデオゲームまで様々なアプリケーションをサポートする。
言語的に代表されるNLG評価ベンチマークを,フランス語,マラティー語,ロシア語の3言語で作成する。
論文 参考訳(メタデータ) (2022-11-04T12:56:12Z) - NumGLUE: A Suite of Fundamental yet Challenging Mathematical Reasoning
Tasks [37.730939229638224]
8つのタスクでAIシステムの性能を評価するベンチマークであるNumGLUEを提案する。
このベンチマークは、最先端の大規模言語モデルを含むニューラルモデルで解決されるには程遠い。
我々はNumGLUEが言語内で堅牢で一般的な算術推論を行うシステムを促進することを願っている。
論文 参考訳(メタデータ) (2022-04-12T09:36:10Z) - A simple language-agnostic yet very strong baseline system for hate
speech and offensive content identification [0.0]
古典的な教師付きアルゴリズムに基づくシステムは、文字n-gramのみを供給し、したがって完全に言語に依存しないシステムを提案する。
英語では中程度のパフォーマンスに達しており、ディープラーニングアプローチの開発が容易な言語である。
これらの言語の3つのタスクでパフォーマンスが平均化され、多くのディープラーニングアプローチを上回ります。
論文 参考訳(メタデータ) (2022-02-05T08:09:09Z) - Few-shot Named Entity Recognition with Cloze Questions [3.561183926088611]
本稿では,クローゼクエスト機構とファインチューニングを併用した数ショット学習手法であるPET(Pattern-Exploiting Training)の簡易かつ直感的な適応を提案する。
提案手法は,他の数発のベースラインに対して,標準的な微調整や同等あるいは改良された結果よりもはるかに優れた性能を実現する。
論文 参考訳(メタデータ) (2021-11-24T11:08:59Z) - A Short Survey of Pre-trained Language Models for Conversational AI-A
NewAge in NLP [17.10418053437171]
最近導入された事前学習言語モデルは、データ不足の問題に対処する可能性がある。
これらのモデルは、階層的関係、長期依存、感情など、異なる言語の側面を捉えることを実証している。
本論文では,これらの事前学習モデルが対話システムに関連する課題を克服できるかどうかを明らかにする。
論文 参考訳(メタデータ) (2021-04-22T01:00:56Z) - A Closer Look at Linguistic Knowledge in Masked Language Models: The
Case of Relative Clauses in American English [17.993417004424078]
トランスフォーマーに基づく言語モデルは、様々なタスクにおいて高いパフォーマンスを達成するが、それらが学習し、依存する言語知識の理解はいまだに不足している。
文レベルの探索, 診断事例, マスク付き予測タスクにより, 文法的および意味的知識をテストする3つのモデル(BERT, RoBERTa, ALBERT)を評価した。
論文 参考訳(メタデータ) (2020-11-02T13:25:39Z) - Curious Case of Language Generation Evaluation Metrics: A Cautionary
Tale [52.663117551150954]
イメージキャプションや機械翻訳などのタスクを評価するデファクトメトリクスとして、いくつかの一般的な指標が残っている。
これは、使いやすさが原因でもあり、また、研究者がそれらを見て解釈する方法を知りたがっているためでもある。
本稿では,モデルの自動評価方法について,コミュニティにより慎重に検討するよう促す。
論文 参考訳(メタデータ) (2020-10-26T13:57:20Z) - Mechanisms for Handling Nested Dependencies in Neural-Network Language
Models and Humans [75.15855405318855]
我々は,「深層学習」手法で訓練された現代人工ニューラルネットワークが,人間の文処理の中心的な側面を模倣するかどうかを検討した。
ネットワークは、大きなコーパスで次の単語を予測するためにのみ訓練されたが、分析の結果、局所的および長距離の構文合意をうまく処理する特別なユニットが出現した。
我々は,複数の名詞の単数/複数状態における体系的な変化を伴う文中の数一致の違反を人間が検出する行動実験において,モデルの予測を検証した。
論文 参考訳(メタデータ) (2020-06-19T12:00:05Z) - Language Models are Few-Shot Learners [61.36677350504291]
言語モデルのスケールアップにより、タスクに依存しない、少数ショットのパフォーマンスが大幅に向上することを示す。
我々は、1750億のパラメータを持つ自動回帰言語モデルであるGPT-3を訓練し、その性能を数ショットでテストする。
GPT-3は、翻訳、質問応答、クローズタスクを含む多くのNLPデータセットで高いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-05-28T17:29:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。