論文の概要: Dissociating language and thought in large language models
- arxiv url: http://arxiv.org/abs/2301.06627v2
- Date: Sat, 4 Nov 2023 21:03:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-08 01:18:19.058636
- Title: Dissociating language and thought in large language models
- Title(参考訳): 大規模言語モデルにおける言語と思考の解離
- Authors: Kyle Mahowald, Anna A. Ivanova, Idan A. Blank, Nancy Kanwisher, Joshua
B. Tenenbaum, Evelina Fedorenko
- Abstract要約: 大規模言語モデル(LLM)は、人間の言語を習得する上で、今までに最も近いモデルである。
言語規則とパターンの理解-および機能的言語能力-世界における言語の理解と利用-を区別してLLMを評価する。
- 参考スコア(独自算出の注目度): 55.51583339260924
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have come closest among all models to date to
mastering human language, yet opinions about their linguistic and cognitive
capabilities remain split. Here, we evaluate LLMs using a distinction between
formal linguistic competence--knowledge of linguistic rules and patterns--and
functional linguistic competence--understanding and using language in the
world. We ground this distinction in human neuroscience, showing that formal
and functional competence rely on different neural mechanisms. Although LLMs
are surprisingly good at formal competence, their performance on functional
competence tasks remains spotty and often requires specialized fine-tuning
and/or coupling with external modules. In short, LLMs are good models of
language but incomplete models of human thought.
- Abstract(参考訳): 大規模言語モデル(LLM)は、現在まで人間の言語を習得する上で最も近いモデルとなっているが、その言語的および認知的能力に関する意見は相変わらず分かれている。
本稿では,言語規則とパターンの理解-および機能的言語能力-世界における言語の理解と活用-を,形式的言語能力の区別を用いて評価する。
我々はこの区別を人間の神経科学に置き、形式的および機能的な能力は異なる神経機構に依存していることを示す。
LLMの形式的能力は驚くほど優れているが、機能的能力のタスクのパフォーマンスは不明瞭であり、しばしば外部モジュールとの特別な微調整や結合を必要とする。
要するに、LLMは言語の優れたモデルであるが、人間の思考の不完全なモデルである。
関連論文リスト
- FAC$^2$E: Better Understanding Large Language Model Capabilities by
Dissociating Language and Cognition [57.747888532651]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - How do Large Language Models Handle Multilingualism? [87.06210331315451]
大規模言語モデル(LLM)は、様々な言語で顕著な性能を示す。
LLMの多言語入力処理を記述したフレームワークを提案する。
さらに,特定の言語処理における言語特異的ニューロンの存在について検討する。
論文 参考訳(メタデータ) (2024-02-29T02:55:26Z) - Language-Specific Neurons: The Key to Multilingual Capabilities in Large
Language Models [122.25217086389425]
大規模言語モデル(LLM)は、特別にキュレートされた多言語並列コーパスで事前訓練されることなく、顕著な多言語機能を示す。
LLM内の言語特異的ニューロンを識別するための新しい検出手法である言語アクティベーション確率エントロピー(LAPE)を提案する。
以上の結果から,LLMが特定の言語を処理できる能力は,神経細胞のサブセットが少なすぎるためであることが示唆された。
論文 参考訳(メタデータ) (2024-02-26T09:36:05Z) - A Computational Model for the Assessment of Mutual Intelligibility Among
Closely Related Languages [1.5773159234875098]
密接に関連する言語は、ある言語の話者が積極的に学習することなく他の言語の話者を理解することができる言語類似性を示す。
相互の知性は程度によって異なり、典型的には精神言語実験でテストされる。
本稿では,人間による言語学習の認知過程を近似するために,線形識別学習システムを用いたコンピュータ支援手法を提案する。
論文 参考訳(メタデータ) (2024-02-05T11:32:13Z) - Probing Structured Semantics Understanding and Generation of Language
Models via Question Answering [56.610044062739256]
本研究では,人間が構築した形式言語を用いて質問応答のタスクにおいて,大規模言語モデルが構造化意味論に対処する能力について検討する。
異なる大きさのモデルと異なる形式言語を用いた実験は、今日の最先端のLLMの論理形式に対する理解が全体的な人間レベルにアプローチできることを示している。
結果は、モデルが異なる形式言語にかなり敏感であることを示している。
論文 参考訳(メタデータ) (2024-01-11T09:27:50Z) - Unveiling A Core Linguistic Region in Large Language Models [49.860260050718516]
本稿では,脳局在化をプロトタイプとして用いた類似研究を行う。
我々は、言語能力に対応する大規模言語モデルにおいて、中核領域を発見した。
我々は,言語能力の向上が必ずしもモデルの知識レベルの向上に伴わないことを観察する。
論文 参考訳(メタデータ) (2023-10-23T13:31:32Z) - Overcoming Barriers to Skill Injection in Language Modeling: Case Study
in Arithmetic [14.618731441943847]
我々は,言語モデルが言語能力を維持しつつ数学的に熟練することを可能にする新しい枠組みを開発する。
具体的には、言語モデルに非言語的スキルを注入しながら発生する言語スキルの破滅的な忘れを克服するために、情報理論の介入を提供する。
論文 参考訳(メタデータ) (2022-11-03T18:53:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。