論文の概要: Testing the limits of natural language models for predicting human
language judgments
- arxiv url: http://arxiv.org/abs/2204.03592v3
- Date: Tue, 12 Sep 2023 15:01:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-13 18:09:11.623626
- Title: Testing the limits of natural language models for predicting human
language judgments
- Title(参考訳): 人間の言語判断予測のための自然言語モデルの限界の検証
- Authors: Tal Golan, Matthew Siegelman, Nikolaus Kriegeskorte, Christopher
Baldassano
- Abstract要約: 諸言語モデルのモデルと人間の一貫性を、議論を呼んでいる文対を用いて比較した。
議論文ペアは、モデル失敗を明らかにするのに非常に効果的であることが証明された。
最も人間一貫性のあるモデルは GPT-2 であったが、実験では人間の知覚との整合性の重大な欠点も明らかにした。
- 参考スコア(独自算出の注目度): 0.27309692684728604
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural network language models can serve as computational hypotheses about
how humans process language. We compared the model-human consistency of diverse
language models using a novel experimental approach: controversial sentence
pairs. For each controversial sentence pair, two language models disagree about
which sentence is more likely to occur in natural text. Considering nine
language models (including n-gram, recurrent neural networks, and transformer
models), we created hundreds of such controversial sentence pairs by either
selecting sentences from a corpus or synthetically optimizing sentence pairs to
be highly controversial. Human subjects then provided judgments indicating for
each pair which of the two sentences is more likely. Controversial sentence
pairs proved highly effective at revealing model failures and identifying
models that aligned most closely with human judgments. The most
human-consistent model tested was GPT-2, although experiments also revealed
significant shortcomings of its alignment with human perception.
- Abstract(参考訳): ニューラルネットワーク言語モデルは、人間の言語処理に関する計算仮説として機能する。
多様な言語モデルのモデルと人間の一貫性を、新しい実験手法を用いて比較した。
議論の的になっている文対について、2つの言語モデルでは、どの文が自然文でより起こりやすいかは意見が一致しない。
9つの言語モデル(n-gram、リカレントニューラルネットワーク、トランスフォーマーモデルを含む)を考慮して、コーパスから文を選択したり、合成最適化された文ペアを非常に議論の余地のあるものにすることで、何百もの議論を巻き起こした文ペアを作成しました。
次に、被験者は2つの文のどちらがよりありそうなかを示す判断を下した。
議論の的となる文ペアは、モデルの失敗を明らかにし、人間の判断と最も密接に一致するモデルを特定するのに非常に効果的である。
最も人間一貫性のあるモデルは GPT-2 であったが、実験では人間の知覚との整合性の重大な欠点も明らかにした。
関連論文リスト
- A Psycholinguistic Evaluation of Language Models' Sensitivity to Argument Roles [0.06554326244334868]
我々は,人間の議論的役割処理に関する心理言語学的研究を再現することにより,大規模言語モデルの議論的役割に対する感受性を評価する。
言語モデルでは,動詞とその先行する引数の関係から,可否が決定されるような,可否的かつ不可解な文脈で現れる動詞を識別することができる。
このことは、言語モデルが動詞の可読性を検出する能力は、人間のリアルタイム文処理の基盤となるメカニズムから生じるものではないことを示唆している。
論文 参考訳(メタデータ) (2024-10-21T16:05:58Z) - A Probability--Quality Trade-off in Aligned Language Models and its Relation to Sampling Adaptors [50.046717886067555]
一致した言語モデルからコーパスをサンプリングする場合,文字列の平均報酬と平均ログ類似度との間にはトレードオフが存在することを示す。
我々は、この現象を形式的に処理し、サンプリングアダプタの選択が、どれだけの確率で報酬を交換できるかを選択できるかを実証する。
論文 参考訳(メタデータ) (2024-06-14T17:38:21Z) - UNcommonsense Reasoning: Abductive Reasoning about Uncommon Situations [62.71847873326847]
異常、予期せぬ、そしてありそうもない状況をモデル化する能力について検討する。
予期せぬ結果のコンテキストが与えられた場合、このタスクは説明を生成するために故意に推論する必要がある。
私たちはUNcommonsenseという新しい英語コーパスをリリースします。
論文 参考訳(メタデータ) (2023-11-14T19:00:55Z) - Rarely a problem? Language models exhibit inverse scaling in their
predictions following few-type quantifiers [0.6091702876917281]
言語モデルにおいて特に課題となる「おもちゃのような2人の子供」のような「2つの」型の量化器に焦点をあてる。
人間の2つの神経言語実験から、異なる大きさの22個の自己回帰トランスフォーマーモデルまで、960の英語文刺激を提示する。
論文 参考訳(メタデータ) (2022-12-16T20:01:22Z) - A fine-grained comparison of pragmatic language understanding in humans
and language models [2.231167375820083]
言語モデルと人間を7つの現実的な現象で比較する。
最大のモデルでは精度が高く,人間の誤りパターンと一致していることがわかった。
モデルと人間が同様の言語的手がかりに敏感であるという予備的な証拠がある。
論文 参考訳(メタデータ) (2022-12-13T18:34:59Z) - Can language models handle recursively nested grammatical structures? A
case study on comparing models and humans [0.0]
言語モデルと人間の能力を比較するには?
私は、ネストした文法構造の処理というケーススタディを考えます。
特定の現象の認知モデルを評価することと、広範囲に訓練されたモデルを評価することには、重要な違いがあることを示唆する。
論文 参考訳(メタデータ) (2022-10-27T10:25:12Z) - Naturalistic Causal Probing for Morpho-Syntax [76.83735391276547]
スペインにおける実世界のデータに対する入力レベルの介入に対する自然主義的戦略を提案する。
提案手法を用いて,共同設立者から文章中の形態・症状の特徴を抽出する。
本研究では,事前学習したモデルから抽出した文脈化表現に対する性別と数字の因果効果を解析するために,本手法を適用した。
論文 参考訳(メタデータ) (2022-05-14T11:47:58Z) - Do Multilingual Language Models Capture Differing Moral Norms? [71.52261949766101]
大量多言語文表現は、未処理データの大規模なコーパスに基づいて訓練される。
これは、高資源言語からの道徳的判断を含む文化的価値をモデルが把握する原因となる可能性がある。
特定の言語におけるデータ不足は、ランダムで潜在的に有害な信念を発達させる可能性がある。
論文 参考訳(メタデータ) (2022-03-18T12:26:37Z) - A Targeted Assessment of Incremental Processing in Neural LanguageModels
and Humans [2.7624021966289605]
本稿では,人間とニューラル言語モデルにおけるインクリメンタル処理のスケールアップ比較について述べる。
データはInterpolated Maze Taskと呼ばれる新しいオンライン実験パラダイムに由来する。
人間と言語モデルの両方が、非文法的な文領域における処理困難を増大させていることが判明した。
論文 参考訳(メタデータ) (2021-06-06T20:04:39Z) - Mechanisms for Handling Nested Dependencies in Neural-Network Language
Models and Humans [75.15855405318855]
我々は,「深層学習」手法で訓練された現代人工ニューラルネットワークが,人間の文処理の中心的な側面を模倣するかどうかを検討した。
ネットワークは、大きなコーパスで次の単語を予測するためにのみ訓練されたが、分析の結果、局所的および長距離の構文合意をうまく処理する特別なユニットが出現した。
我々は,複数の名詞の単数/複数状態における体系的な変化を伴う文中の数一致の違反を人間が検出する行動実験において,モデルの予測を検証した。
論文 参考訳(メタデータ) (2020-06-19T12:00:05Z) - Limits of Detecting Text Generated by Large-Scale Language Models [65.46403462928319]
誤情報キャンペーンで使用される可能性があるため、長く一貫性のあるテキストを生成できる大規模な言語モデルが危険であると考える者もいる。
ここでは、仮説テスト問題として大規模言語モデル出力検出を定式化し、テキストを真あるいは生成されたものと分類する。
論文 参考訳(メタデータ) (2020-02-09T19:53:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。