論文の概要: Can language models handle recursively nested grammatical structures? A
case study on comparing models and humans
- arxiv url: http://arxiv.org/abs/2210.15303v1
- Date: Thu, 27 Oct 2022 10:25:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-28 12:16:17.102335
- Title: Can language models handle recursively nested grammatical structures? A
case study on comparing models and humans
- Title(参考訳): 言語モデルは再帰的にネストされた文法構造を扱えるか?
モデルと人間の比較に関する事例研究
- Authors: Andrew Kyle Lampinen
- Abstract要約: 言語モデルと人間の能力を比較するには?
私は、ネストした文法構造の処理というケーススタディを考えます。
特定の現象の認知モデルを評価することと、広範囲に訓練されたモデルを評価することには、重要な違いがあることを示唆する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: How should we compare the capabilities of language models and humans? Here, I
consider a case study: processing of recursively nested grammatical structures.
Prior work has suggested that language models cannot handle these structures as
reliably as humans can. However, the humans were provided with instructions and
training before being evaluated, while the language models were evaluated
zero-shot. I therefore attempt to more closely match the evaluation paradigms
by providing language models with few-shot prompts. A simple prompt, which
contains substantially less content than the human training, allows large
language models to consistently outperform the human results. The same prompt
even allows extrapolation to more-deeply-nested conditions than have been
tested in humans. Further, a reanalysis of the prior human experiments suggests
that the humans may not perform above chance at the difficult structures
initially. These results suggest that large language models can in fact process
recursively nested grammatical structures comparably to humans. This case study
highlights how discrepancies in the quantity of experiment-specific context can
confound comparisons of language models and humans. I use this case study to
reflect on the broader challenge of comparing human and model capabilities, and
to suggest that there is an important difference between evaluating cognitive
models of a specific phenomenon and evaluating broadly-trained models.
- Abstract(参考訳): 言語モデルと人間の能力を比較するには?
ここでは,再帰的にネストした文法構造の処理というケーススタディについて考察する。
先行研究によると、言語モデルは、人間ができる限り確実にこれらの構造を処理できない。
しかし、人間は評価される前に指導と訓練を受け、言語モデルはゼロショットで評価された。
ですから私は,少ないプロンプトで言語モデルを提供することで,評価パラダイムをより密接に一致させようとしています。
簡単なプロンプトは、人間のトレーニングよりも内容がかなり少ないが、大きな言語モデルは人間の結果より一貫して優れている。
同じプロンプトは、ヒトでテストされたものよりも、より深い条件で外挿を許す。
さらに、以前のヒト実験の再分析では、ヒトは最初は難しい構造でそれ以上の確率で実行できないことが示唆されている。
これらの結果から, 大規模言語モデルでは, 帰納的にネストした文法構造を人間に相性よく処理できることが示唆された。
このケーススタディでは、実験固有の文脈における相違が、言語モデルと人間の比較にどのように影響するかを強調した。
このケーススタディは、人間とモデルの能力を比較するという幅広い課題を反映し、特定の現象の認知モデルの評価と広く訓練されたモデルの評価との間に重要な違いがあることを示唆するものです。
関連論文リスト
- DevBench: A multimodal developmental benchmark for language learning [0.34129029452670606]
タスクと行動データに基づいて視覚言語モデルを評価するベンチマークであるDevBenchを紹介する。
DevBenchは、モデルを人間の言語開発と比較するためのベンチマークを提供する。
これらの比較は、モデルと人間の言語学習プロセスの分岐方法を強調する。
論文 参考訳(メタデータ) (2024-06-14T17:49:41Z) - Language Models for Text Classification: Is In-Context Learning Enough? [54.869097980761595]
最近の基礎言語モデルでは、ゼロショットや少数ショットの設定で多くのNLPタスクで最先端のパフォーマンスが示されている。
より標準的なアプローチよりもこれらのモデルの利点は、自然言語(prompts)で書かれた命令を理解する能力である。
これにより、アノテーション付きインスタンスが限られているドメインのテキスト分類問題に対処するのに適している。
論文 参考訳(メタデータ) (2024-03-26T12:47:39Z) - Chain of Hindsight Aligns Language Models with Feedback [62.68665658130472]
我々は,その極性に関係なく,任意の形式のフィードバックから学習し,最適化が容易な新しい手法であるChain of Hindsightを提案する。
我々は、あらゆる種類のフィードバックを文のシーケンスに変換し、それをモデルを微調整するために使用する。
そうすることで、モデルはフィードバックに基づいて出力を生成するように訓練され、負の属性やエラーを特定し修正する。
論文 参考訳(メタデータ) (2023-02-06T10:28:16Z) - Rarely a problem? Language models exhibit inverse scaling in their
predictions following few-type quantifiers [0.6091702876917281]
言語モデルにおいて特に課題となる「おもちゃのような2人の子供」のような「2つの」型の量化器に焦点をあてる。
人間の2つの神経言語実験から、異なる大きさの22個の自己回帰トランスフォーマーモデルまで、960の英語文刺激を提示する。
論文 参考訳(メタデータ) (2022-12-16T20:01:22Z) - Training Language Models with Natural Language Feedback [51.36137482891037]
3段階学習アルゴリズムを用いてモデル出力の言語フィードバックから学習する。
合成実験において、まず言語モデルがフィードバックを正確に組み込んで改良を行うかどうかを評価する。
人間の手書きフィードバックのサンプルは100程度しかなく, 学習アルゴリズムはGPT-3モデルを微調整し, ほぼ人間レベルの要約を行う。
論文 参考訳(メタデータ) (2022-04-29T15:06:58Z) - Typical Decoding for Natural Language Generation [76.69397802617064]
本稿は,高確率テキストが退屈あるいは反復的である理由について考察する。
典型的なサンプリングでは,品質面での競争性能が期待できる。
論文 参考訳(メタデータ) (2022-02-01T18:58:45Z) - A Targeted Assessment of Incremental Processing in Neural LanguageModels
and Humans [2.7624021966289605]
本稿では,人間とニューラル言語モデルにおけるインクリメンタル処理のスケールアップ比較について述べる。
データはInterpolated Maze Taskと呼ばれる新しいオンライン実験パラダイムに由来する。
人間と言語モデルの両方が、非文法的な文領域における処理困難を増大させていることが判明した。
論文 参考訳(メタデータ) (2021-06-06T20:04:39Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - Recurrent Neural Network Language Models Always Learn English-Like
Relative Clause Attachment [17.995905582226463]
英語とスペイン語のモデル性能を比較し,RNN LMにおける非言語的バイアスが英語の構文構造と有利に重なることを示す。
英語モデルは人間に似た構文的嗜好を習得しているように見えるが、スペイン語で訓練されたモデルは、同等の人間的な嗜好を取得できない。
論文 参考訳(メタデータ) (2020-05-01T01:21:47Z) - Limits of Detecting Text Generated by Large-Scale Language Models [65.46403462928319]
誤情報キャンペーンで使用される可能性があるため、長く一貫性のあるテキストを生成できる大規模な言語モデルが危険であると考える者もいる。
ここでは、仮説テスト問題として大規模言語モデル出力検出を定式化し、テキストを真あるいは生成されたものと分類する。
論文 参考訳(メタデータ) (2020-02-09T19:53:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。