論文の概要: Do large language models resemble humans in language use?
- arxiv url: http://arxiv.org/abs/2303.08014v2
- Date: Tue, 26 Mar 2024 01:46:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-28 01:49:43.742855
- Title: Do large language models resemble humans in language use?
- Title(参考訳): 大規模言語モデルは、言語使用において人間に似ていますか?
- Authors: Zhenguang G. Cai, Xufeng Duan, David A. Haslett, Shuqi Wang, Martin J. Pickering,
- Abstract要約: ChatGPTやVicunaのような大規模言語モデル(LLM)は、言語を解釈し、生成する際、顕著な能力を示している。
私たちはChatGPTとVicunaを、音から対話、事前登録、実験1回につき1000ラン(イテレーション)の12の実験に応用した。
ChatGPTとVicunaは、それぞれ12の実験のうち10と7で人間の言語使用パターンを再現した。
- 参考スコア(独自算出の注目度): 1.8524806794216748
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) such as ChatGPT and Vicuna have shown remarkable capacities in comprehending and producing language. However, their internal workings remain a black box, and it is unclear whether LLMs and chatbots can develop humanlike characteristics in language use. Cognitive scientists have devised many experiments that probe, and have made great progress in explaining, how people comprehend and produce language. We subjected ChatGPT and Vicuna to 12 of these experiments ranging from sounds to dialogue, preregistered and with 1000 runs (i.e., iterations) per experiment. ChatGPT and Vicuna replicated the human pattern of language use in 10 and 7 out of the 12 experiments, respectively. The models associated unfamiliar words with different meanings depending on their forms, continued to access recently encountered meanings of ambiguous words, reused recent sentence structures, attributed causality as a function of verb semantics, and accessed different meanings and retrieved different words depending on an interlocutor's identity. In addition, ChatGPT, but not Vicuna, nonliterally interpreted implausible sentences that were likely to have been corrupted by noise, drew reasonable inferences, and overlooked semantic fallacies in a sentence. Finally, unlike humans, neither model preferred using shorter words to convey less informative content, nor did they use context to resolve syntactic ambiguities. We discuss how these convergences and divergences may result from the transformer architecture. Overall, these experiments demonstrate that LLMs such as ChatGPT (and Vicuna to a lesser extent) are humanlike in many aspects of human language processing.
- Abstract(参考訳): ChatGPTやVicunaのような大規模言語モデル(LLM)は、言語を解釈し、生成する際、顕著な能力を示している。
しかし、内部の作業はブラックボックスのままであり、LLMやチャットボットが言語利用において人間的な特性を発達できるかどうかは不明である。
認知科学者は、多くの実験を考案し、人々が言語を理解し、どのように生成するかを説明することに大きく進歩した。
私たちはChatGPTとVicunaを、音から対話、事前登録、実験1回につき1000ラン(イテレーション)の12の実験に応用した。
ChatGPTとVicunaは、それぞれ12の実験のうち10と7で人間の言語使用パターンを再現した。
形式によって異なる意味を持つ不慣れな単語を関連づけたモデルは、最近遭遇した曖昧な単語の意味にアクセスし続け、最近の文構造を再利用し、動詞の意味論の関数として因果性に起因し、異なる意味にアクセスし、インターロケータの同一性に応じて異なる単語を検索した。
加えて、ChatGPTは、Vicunaではなく、ノイズによって腐敗した可能性があり、合理的な推論を引き合いに出し、文の中で見落とされた意味的な誤記を解釈する非解釈不可能な文である。
最後に、人間とは異なり、どちらのモデルも、より少ない情報的内容を伝えるために短い単語を使うことを好まなかったし、統語的曖昧さを解決するために文脈を使うこともしなかった。
これらの収束と発散がトランスフォーマーアーキテクチャからどのように引き起こされるかについて議論する。
全体として、これらの実験は、ChatGPT(およびVicuna)のようなLLMが人間の言語処理の多くの面で人間に似ていることを示した。
関連論文リスト
- Language in Vivo vs. in Silico: Size Matters but Larger Language Models Still Do Not Comprehend Language on a Par with Humans [1.8434042562191815]
本研究では,人間とモデルの違いがモデルサイズに寄与するかどうかを判断する上で,モデルスケーリングが果たす役割について検討する。
アナフォラ, 中心埋め込み, 比較, 負極性を含む文法判断タスクにおいて, 3つの大言語モデル(LLM)を検証した。
結果,ChatGPT-4の精度は,ChatGPT-4の精度が76%に対して80%であったのに対し,ChatGPT-4の精度は1つのタスク条件,すなわち文法文でのみ優れていた。
論文 参考訳(メタデータ) (2024-04-23T10:09:46Z) - UNcommonsense Reasoning: Abductive Reasoning about Uncommon Situations [62.71847873326847]
異常、予期せぬ、そしてありそうもない状況をモデル化する能力について検討する。
予期せぬ結果のコンテキストが与えられた場合、このタスクは説明を生成するために故意に推論する必要がある。
私たちはUNcommonsenseという新しい英語コーパスをリリースします。
論文 参考訳(メタデータ) (2023-11-14T19:00:55Z) - Syntax and Semantics Meet in the "Middle": Probing the Syntax-Semantics
Interface of LMs Through Agentivity [68.8204255655161]
このような相互作用を探索するためのケーススタディとして,作用性のセマンティックな概念を提示する。
これは、LMが言語アノテーション、理論テスト、発見のためのより有用なツールとして役立つ可能性を示唆している。
論文 参考訳(メタデータ) (2023-05-29T16:24:01Z) - The language of sounds unheard: Exploring musical timbre semantics of
large language models [0.0]
近年の大型言語モデル(LLM)の普及を考えると、そのようなモデルが人間のものと類似した知覚的意味論の組織を示すかどうかを問うた。
異なるチャットで複数の応答を抽出した。
ChatGPTは人間の評価と部分的にしか相関しないセマンティックプロファイルを作成したが、音楽音のよく知られた心理物理学的次元に沿って頑健な一致を示した。
論文 参考訳(メタデータ) (2023-04-16T16:50:25Z) - Collateral facilitation in humans and language models [0.6091702876917281]
人間は、非常に異常な単語に対して、同様の処理の利点を示す。
本稿では、人間の言語理解と言語モデルによる予測の両方を理解することの意味について論じる。
論文 参考訳(メタデータ) (2022-11-09T21:08:08Z) - Transparency Helps Reveal When Language Models Learn Meaning [71.96920839263457]
合成データを用いた体系的な実験により,すべての表現が文脈に依存しない意味を持つ言語では,自己回帰型とマスキング型の両方の言語モデルが,表現間の意味的関係をエミュレートする。
自然言語に目を向けると、特定の現象(参照不透明さ)による実験は、現在の言語モデルが自然言語の意味論をうまく表現していないという証拠を増大させる。
論文 参考訳(メタデータ) (2022-10-14T02:35:19Z) - Subject Verb Agreement Error Patterns in Meaningless Sentences: Humans
vs. BERT [64.40111510974957]
英語における主語数合意に意味が干渉するかどうかを検証する。
意味的によく形づくられた、意味のないアイテムを生成します。
BERTと人間はどちらも、セマンティックな操作に敏感である。
論文 参考訳(メタデータ) (2022-09-21T17:57:23Z) - Do language models make human-like predictions about the coreferents of
Italian anaphoric zero pronouns? [0.6091702876917281]
12の現代言語モデルが、ゼロ代名詞の文に晒されたときの人間の振舞いを反映する期待を示すかどうかを検証した。
XGLM 2.9B、4.5B、7.5Bの3つのモデルが、全ての実験から人間の行動を捉えている。
この結果は、コア推論に対する人間の期待は、言語への露出から導き出すことができ、また、人間の振る舞いをよりよく反映できる言語モデルの特徴を示すことを示唆している。
論文 参考訳(メタデータ) (2022-08-30T22:06:07Z) - PIGLeT: Language Grounding Through Neuro-Symbolic Interaction in a 3D
World [86.21137454228848]
我々はPIGLeTを物理力学モデルと別言語モデルに分類する。
PIGLeTは文を読み、次に何が起こるか神経的にシミュレートし、その結果を文字通りの記号表現を通して伝達する。
80%以上の英語の文から「次に何が起こるか」を正確に予測することができ、100倍以上のテキスト・テキスト・アプローチを10%以上上回っている。
論文 参考訳(メタデータ) (2021-06-01T02:32:12Z) - Speakers Fill Lexical Semantic Gaps with Context [65.08205006886591]
我々は単語の語彙的あいまいさを意味のエントロピーとして運用する。
単語のあいまいさの推定値と,WordNetにおける単語の同義語数との間には,有意な相関関係が認められた。
これは、あいまいさの存在下では、話者が文脈をより情報的にすることで補うことを示唆している。
論文 参考訳(メタデータ) (2020-10-05T17:19:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。