論文の概要: Language models align with human judgments on key grammatical constructions
- arxiv url: http://arxiv.org/abs/2402.01676v2
- Date: Fri, 30 Aug 2024 14:43:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-02 20:21:37.017199
- Title: Language models align with human judgments on key grammatical constructions
- Title(参考訳): 言語モデルは重要な文法的構成に関する人間の判断と一致している
- Authors: Jennifer Hu, Kyle Mahowald, Gary Lupyan, Anna Ivanova, Roger Levy,
- Abstract要約: 確立したプラクティスを用いて,大規模言語モデル(LLM)のパフォーマンスを再評価する。
モデル全体の精度は高いが、人間の言語学的判断のきめ細かい変化も捉えることができる。
- 参考スコア(独自算出の注目度): 24.187439110055404
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Do large language models (LLMs) make human-like linguistic generalizations? Dentella et al. (2023) ("DGL") prompt several LLMs ("Is the following sentence grammatically correct in English?") to elicit grammaticality judgments of 80 English sentences, concluding that LLMs demonstrate a "yes-response bias" and a "failure to distinguish grammatical from ungrammatical sentences". We re-evaluate LLM performance using well-established practices and find that DGL's data in fact provide evidence for just how well LLMs capture human behaviors. Models not only achieve high accuracy overall, but also capture fine-grained variation in human linguistic judgments.
- Abstract(参考訳): 大規模言語モデル(LLM)は、人間のような言語的一般化をもたらすか?
Dentella et al (2023) ("DGL") は、いくつかの LLM に対し、LLM が "yes-response bias" と "failure to distinguish grammatical from ungrammatical sentences" を示して、80の英文の文法的判断を引き出すよう促した("Is the following sentence grammatically correct in English?")。
我々は、十分に確立されたプラクティスを用いてLLMのパフォーマンスを再評価し、実際にDGLのデータが、LLMが人間の行動をどのように捉えているかを示す証拠となることを発見した。
モデルは全体として高い精度を達成するだけでなく、人間の言語学的判断のきめ細かい変化も捉えている。
関連論文リスト
- Understanding and Mitigating Language Confusion in LLMs [76.96033035093204]
我々は,既存の英語および多言語プロンプトを用いた15の型的多様言語の評価を行った。
Llama Instruct と Mistral のモデルでは,言語的混乱の度合いが高いことがわかった。
言語混乱は,数発のプロンプト,多言語SFT,選好調整によって部分的に緩和できることがわかった。
論文 参考訳(メタデータ) (2024-06-28T17:03:51Z) - How Proficient Are Large Language Models in Formal Languages? An In-Depth Insight for Knowledge Base Question Answering [52.86931192259096]
知識ベース質問回答(KBQA)は,知識ベースにおける事実に基づいた自然言語質問への回答を目的としている。
最近の研究は、論理形式生成のための大規模言語モデル(LLM)の機能を活用して性能を向上させる。
論文 参考訳(メタデータ) (2024-01-11T09:27:50Z) - Native Language Identification with Large Language Models [60.80452362519818]
我々はGPTモデルがNLI分類に熟練していることを示し、GPT-4は0ショット設定でベンチマーク11テストセットで91.7%の新たなパフォーマンス記録を樹立した。
また、従来の完全教師付き設定とは異なり、LLMは既知のクラスに制限されずにNLIを実行できることを示す。
論文 参考訳(メタデータ) (2023-12-13T00:52:15Z) - AlignedCoT: Prompting Large Language Models via Native-Speaking Demonstrations [52.43593893122206]
AlignedCoTは、大規模言語モデルを呼び出すためのコンテキスト内学習技術である。
ゼロショットシナリオでは、一貫した正しいステップワイズプロンプトを達成する。
数学的推論とコモンセンス推論の実験を行う。
論文 参考訳(メタデータ) (2023-11-22T17:24:21Z) - Generating Valid and Natural Adversarial Examples with Large Language
Models [18.944937459278197]
敵対的攻撃モデルは有効でも自然でもないため、意味的維持、文法性、そして人間の知覚不能が失われる。
本研究では,LLM-Attackを提案する。
The Movie Review (MR), IMDB, and Review Polarity datas against the baseline adversarial attack model showed the effect of LLM-Attack。
論文 参考訳(メタデータ) (2023-11-20T15:57:04Z) - This is not a Dataset: A Large Negation Benchmark to Challenge Large
Language Models [4.017326849033009]
我々は,否定を理解する大規模言語モデルの最適部分性能の理由を明らかにする。
我々は,コモンセンス知識に関する40万前後の記述文を半自動生成する大規模データセットを提案する。
我々は,その一般化と推論能力を把握するために,ゼロショットアプローチで利用可能な最大オープンLCMを用いてデータセットを構築した。
論文 参考訳(メタデータ) (2023-10-24T15:38:21Z) - Large Language Models Help Humans Verify Truthfulness -- Except When They Are Convincingly Wrong [35.64962031447787]
大規模言語モデル(LLM)は、Web上の情報へのアクセスにますます使われています。
80人のクラウドワーカーによる実験では,事実チェックを容易にするために,言語モデルと検索エンジン(情報検索システム)を比較した。
LLMの説明を読むユーザーは、類似の精度を保ちながら、検索エンジンを使用するものよりもはるかに効率的である。
論文 参考訳(メタデータ) (2023-10-19T08:09:58Z) - Can Large Language Models Transform Computational Social Science? [79.62471267510963]
大規模言語モデル(LLM)は、(トレーニングデータなしで)ゼロショットで多くの言語処理タスクを実行することができる
この研究は、計算社会科学ツールとしてLLMを使用するためのロードマップを提供する。
論文 参考訳(メタデータ) (2023-04-12T17:33:28Z) - Benchmarking Large Language Models for News Summarization [79.37850439866938]
大規模言語モデル(LLM)は自動要約を約束しているが、その成功の背景にある理由はよく分かっていない。
LLMのゼロショット要約能力の鍵は、モデルサイズではなく、命令チューニングにある。
論文 参考訳(メタデータ) (2023-01-31T18:46:19Z) - The Goldilocks of Pragmatic Understanding: Fine-Tuning Strategy Matters
for Implicature Resolution by LLMs [26.118193748582197]
我々は、広く使われている最先端モデルの4つのカテゴリを評価する。
2進推論を必要とする発話のみを評価するにもかかわらず、3つのカテゴリのモデルはランダムに近い性能を示す。
これらの結果は、特定の微調整戦略がモデルにおける実用的理解を誘導する上ではるかに優れていることを示唆している。
論文 参考訳(メタデータ) (2022-10-26T19:04:23Z) - SLING: Sino Linguistic Evaluation of Large Language Models [34.42512869432145]
Sling (Sino linguistics) は、中国語における38Kの最小文対を9つの高水準言語現象に分類する。
Sling 上で 18 個の事前訓練された単言語 (BERT-base-zh など) とマルチ言語 (mT5 や XLM など) の言語モデルをテストする。
実験の結果, LMの平均精度は人的性能(69.7%対97.1%)よりはるかに低いが, BERT-base-zhは試験されたLMの最大精度(84.8%)を達成していることがわかった。
論文 参考訳(メタデータ) (2022-10-21T02:29:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。