論文の概要: Grammaticality Representation in ChatGPT as Compared to Linguists and Laypeople
- arxiv url: http://arxiv.org/abs/2406.11116v1
- Date: Mon, 17 Jun 2024 00:23:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-18 18:53:41.103128
- Title: Grammaticality Representation in ChatGPT as Compared to Linguists and Laypeople
- Title(参考訳): ChatGPTにおける文法表現 : 言語学者とレイマンとの比較
- Authors: Zhuang Qiu, Xufeng Duan, Zhenguang G. Cai,
- Abstract要約: 本研究は,148の言語現象について,住民の文法的判断を収集した以前の研究に基づいている。
我々の主な焦点は、これらの言語構成の判断において、ChatGPTを一般人と言語学者の両方と比較することであった。
全体として,ChatGPTと言語学者の間には73%から95%の収束率があり,全体としては89%と推定された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have demonstrated exceptional performance across various linguistic tasks. However, it remains uncertain whether LLMs have developed human-like fine-grained grammatical intuition. This preregistered study (https://osf.io/t5nes) presents the first large-scale investigation of ChatGPT's grammatical intuition, building upon a previous study that collected laypeople's grammatical judgments on 148 linguistic phenomena that linguists judged to be grammatical, ungrammatical, or marginally grammatical (Sprouse, Schutze, & Almeida, 2013). Our primary focus was to compare ChatGPT with both laypeople and linguists in the judgement of these linguistic constructions. In Experiment 1, ChatGPT assigned ratings to sentences based on a given reference sentence. Experiment 2 involved rating sentences on a 7-point scale, and Experiment 3 asked ChatGPT to choose the more grammatical sentence from a pair. Overall, our findings demonstrate convergence rates ranging from 73% to 95% between ChatGPT and linguists, with an overall point-estimate of 89%. Significant correlations were also found between ChatGPT and laypeople across all tasks, though the correlation strength varied by task. We attribute these results to the psychometric nature of the judgment tasks and the differences in language processing styles between humans and LLMs.
- Abstract(参考訳): 大規模言語モデル (LLM) は様々な言語課題において例外的な性能を示した。
しかし、LLMが人間のような微粒な文法的直観を発達させたかどうかは不明である。
この事前登録された研究 (https://osf.io/t5nes) は、ChatGPTの文法的直観を初めて大規模に調査し、言語学者が文法的、非文法的、辺縁的な文法的であると判断した148の言語的現象について、住民の文法的判断を収集した以前の研究に基づいている(Sprouse, Schutze, & Almeida, 2013)。
我々の主な焦点は、これらの言語構成の判断において、ChatGPTを一般人と言語学者の両方と比較することであった。
実験1では、ChatGPTは与えられた参照文に基づいて評価を文に割り当てた。
実験2では7点の尺度で評価文を選択し,実験3ではChatGPTに対して,より文法的な文章を選択するように求めた。
全体として,ChatGPTと言語学者の間には73%から95%の収束率があり,全体としては89%と推定された。
また,全てのタスクにおいてChatGPTとレイパーの間に有意な相関関係が認められたが,相関強度はタスクによって異なる。
これらの結果は、判断タスクの心理測定的性質と、人間とLLMの言語処理スタイルの違いによるものである。
関連論文リスト
- Language in Vivo vs. in Silico: Size Matters but Larger Language Models Still Do Not Comprehend Language on a Par with Humans [1.8434042562191815]
本研究では,人間とモデルの違いがモデルサイズに寄与するかどうかを判断する上で,モデルスケーリングが果たす役割について検討する。
アナフォラ, 中心埋め込み, 比較, 負極性を含む文法判断タスクにおいて, 3つの大言語モデル(LLM)を検証した。
結果,ChatGPT-4の精度は,ChatGPT-4の精度が76%に対して80%であったのに対し,ChatGPT-4の精度は1つのタスク条件,すなわち文法文でのみ優れていた。
論文 参考訳(メタデータ) (2024-04-23T10:09:46Z) - Towards a Psychology of Machines: Large Language Models Predict Human Memory [0.0]
大規模言語モデル(LLM)は、人間の認知に基づいていないにもかかわらず、様々なタスクで優れています。
本研究では,ChatGPTが言語ベースのメモリタスクにおいて,人間のパフォーマンスを予測する能力について検討する。
論文 参考訳(メタデータ) (2024-03-08T08:41:14Z) - A Linguistic Comparison between Human and ChatGPT-Generated Conversations [9.022590646680095]
この研究は、ChatGPTが生成した会話と人間の会話を比較して、言語問合せと単語数分析を取り入れている。
結果は,人間の対話における多様性と信頼度は高いが,ChatGPTは社会的プロセス,分析的スタイル,認知,注意的焦点,ポジティブな感情的トーンといったカテゴリーに優れていた。
論文 参考訳(メタデータ) (2024-01-29T21:43:27Z) - Counting the Bugs in ChatGPT's Wugs: A Multilingual Investigation into
the Morphological Capabilities of a Large Language Model [23.60677380868016]
大規模言語モデル (LLM) は近年,人間の言語スキルと比較する上で,目覚ましい言語能力に達している。
そこで本研究では,4言語でChatGPTの形態的能力の厳密な分析を行う。
ChatGPTは、特に英語の目的構築システムでは大幅に性能が低下している。
論文 参考訳(メタデータ) (2023-10-23T17:21:03Z) - Primacy Effect of ChatGPT [69.49920102917598]
本稿では,ChatGPTの優位性について検討する。
実験と分析により、より信頼性の高いChatGPTベースのソリューションを構築する上で、さらなる洞察が得られればと思っています。
論文 参考訳(メタデータ) (2023-10-20T00:37:28Z) - Emergence of a phonological bias in ChatGPT [0.0]
私はChatGPTが人間の言語処理の目印となる音韻的バイアスを示すことを実証する。
ChatGPTは母音上の子音を使って単語を識別する傾向がある。
これは、英語やスペイン語のような子音と母音の相対的な分布が異なる言語で観察される。
論文 参考訳(メタデータ) (2023-05-25T10:57:43Z) - ChatGPT Beyond English: Towards a Comprehensive Evaluation of Large
Language Models in Multilingual Learning [70.57126720079971]
大規模言語モデル(LLM)は、自然言語処理(NLP)において最も重要なブレークスルーとして登場した。
本稿では,高,中,低,低リソースの37言語を対象として,ChatGPTを7つのタスクで評価する。
従来のモデルと比較すると,様々なNLPタスクや言語に対するChatGPTの性能は低下していた。
論文 参考訳(メタデータ) (2023-04-12T05:08:52Z) - Can ChatGPT Understand Too? A Comparative Study on ChatGPT and
Fine-tuned BERT [103.57103957631067]
チャットGPTは、人間の質問に対する流動的で高品質な応答を生成できるため、大きな注目を集めている。
そこで我々は,ChatGPTの理解能力を,最も人気のあるGLUEベンチマークで評価し,より詳細な4種類のBERTスタイルのモデルと比較した。
2)ChatGPTは,感情分析や質問応答タスクにおいて,BERTと同等のパフォーマンスを達成している。
論文 参考訳(メタデータ) (2023-02-19T12:29:33Z) - A Multitask, Multilingual, Multimodal Evaluation of ChatGPT on
Reasoning, Hallucination, and Interactivity [79.12003701981092]
8種類の共通NLPアプリケーションタスクをカバーする23のデータセットを用いてChatGPTの広範な技術的評価を行う。
これらのデータセットと、新たに設計されたマルチモーダルデータセットに基づいて、ChatGPTのマルチタスク、マルチリンガル、マルチモーダルの側面を評価する。
ChatGPTの精度は平均63.41%で、論理的推論、非テキスト的推論、コモンセンス推論の10の異なる推論カテゴリで正確である。
論文 参考訳(メタデータ) (2023-02-08T12:35:34Z) - Is ChatGPT a General-Purpose Natural Language Processing Task Solver? [113.22611481694825]
大規模言語モデル(LLM)は、さまざまな自然言語処理(NLP)タスクをゼロショットで実行できることを実証している。
近年、ChatGPTのデビューは自然言語処理(NLP)コミュニティから大きな注目を集めている。
ChatGPTが多くのNLPタスクをゼロショットで実行できるジェネラリストモデルとして機能するかどうかはまだ分かっていない。
論文 参考訳(メタデータ) (2023-02-08T09:44:51Z) - The Secret is in the Spectra: Predicting Cross-lingual Task Performance
with Spectral Similarity Measures [83.53361353172261]
本稿では,モノリンガル埋め込み空間の類似性とタスク性能の相関性に着目した大規模研究を行う。
2つの埋め込み空間間のいくつかの同型測度を導入し、それぞれのスペクトルの関連統計に基づく。
このようなスペクトル同型尺度から得られた言語類似度スコアは、異なる言語間タスクで観測された性能と強く関連していることを実証的に示す。
論文 参考訳(メタデータ) (2020-01-30T00:09:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。