論文の概要: Dissociating language and thought in large language models: a cognitive
perspective
- arxiv url: http://arxiv.org/abs/2301.06627v1
- Date: Mon, 16 Jan 2023 22:41:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-18 15:13:40.521833
- Title: Dissociating language and thought in large language models: a cognitive
perspective
- Title(参考訳): 大規模言語モデルにおける言語と思考の解離:認知的視点
- Authors: Kyle Mahowald, Anna A. Ivanova, Idan A. Blank, Nancy Kanwisher, Joshua
B. Tenenbaum, Evelina Fedorenko
- Abstract要約: 大規模言語モデル(LLM)は、日常的にコヒーレントで文法的で一見意味のあるテキストの段落を生成する。
この成果は、これらのネットワークがすぐに「マシンを考える」ようになるという憶測につながった。
言語使用の2つの異なる側面:「形式言語能力」と「機能言語能力」について考察する。
- 参考スコア(独自算出の注目度): 38.10979954372768
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Today's large language models (LLMs) routinely generate coherent, grammatical
and seemingly meaningful paragraphs of text. This achievement has led to
speculation that these networks are -- or will soon become -- "thinking
machines", capable of performing tasks that require abstract knowledge and
reasoning. Here, we review the capabilities of LLMs by considering their
performance on two different aspects of language use: 'formal linguistic
competence', which includes knowledge of rules and patterns of a given
language, and 'functional linguistic competence', a host of cognitive abilities
required for language understanding and use in the real world. Drawing on
evidence from cognitive neuroscience, we show that formal competence in humans
relies on specialized language processing mechanisms, whereas functional
competence recruits multiple extralinguistic capacities that comprise human
thought, such as formal reasoning, world knowledge, situation modeling, and
social cognition. In line with this distinction, LLMs show impressive (although
imperfect) performance on tasks requiring formal linguistic competence, but
fail on many tests requiring functional competence. Based on this evidence, we
argue that (1) contemporary LLMs should be taken seriously as models of formal
linguistic skills; (2) models that master real-life language use would need to
incorporate or develop not only a core language module, but also multiple
non-language-specific cognitive capacities required for modeling thought.
Overall, a distinction between formal and functional linguistic competence
helps clarify the discourse surrounding LLMs' potential and provides a path
toward building models that understand and use language in human-like ways.
- Abstract(参考訳): 今日の大きな言語モデル(LLM)は、日常的にコヒーレントで文法的で一見意味のあるテキストの段落を生成する。
この成果は、これらのネットワークが、抽象的な知識と推論を必要とするタスクを実行することができる「マシンを考える」ようになるという憶測につながった。
本稿では、言語使用における2つの異なる側面におけるllmの能力について考察する。与えられた言語の規則やパターンの知識を含む「形式的言語能力」と、現実世界における言語理解や使用に必要な認知能力のホストである「機能的言語能力」である。
認知神経科学(cognitive neuroscience)のエビデンスをもとに,人間の形式的能力は特殊言語処理機構に依存しているのに対し,機能的能力は形式的推論,世界知識,状況モデリング,社会認知など,人間の思考を構成する複数の言語外能力を持っている。
この区別に従って、LLMは形式的な言語能力を必要とするタスクにおいて印象的な(不完全な)パフォーマンスを示すが、機能能力を必要とする多くのテストでは失敗する。
この証拠に基づき,(1)現代LLMは形式言語スキルのモデルとして真剣に取り組まなければならない,(2)実生活言語を習得するモデルは,コア言語モジュールだけでなく,思考のモデル化に必要な複数の非言語固有の認知能力も組み込む必要がある,と論じる。
全体として、形式的言語能力と機能的言語能力の区別は、LLMの潜在能力を包含する談話を明確にし、言語を人間的な方法で理解し、使用するモデルを構築するための道筋を提供する。
関連論文リスト
- FAC$^2$E: Better Understanding Large Language Model Capabilities by
Dissociating Language and Cognition [57.747888532651]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - How do Large Language Models Handle Multilingualism? [87.06210331315451]
大規模言語モデル(LLM)は、様々な言語で顕著な性能を示す。
LLMの多言語入力処理を記述したフレームワークを提案する。
さらに,特定の言語処理における言語特異的ニューロンの存在について検討する。
論文 参考訳(メタデータ) (2024-02-29T02:55:26Z) - Language-Specific Neurons: The Key to Multilingual Capabilities in Large
Language Models [122.25217086389425]
大規模言語モデル(LLM)は、特別にキュレートされた多言語並列コーパスで事前訓練されることなく、顕著な多言語機能を示す。
LLM内の言語特異的ニューロンを識別するための新しい検出手法である言語アクティベーション確率エントロピー(LAPE)を提案する。
以上の結果から,LLMが特定の言語を処理できる能力は,神経細胞のサブセットが少なすぎるためであることが示唆された。
論文 参考訳(メタデータ) (2024-02-26T09:36:05Z) - A Computational Model for the Assessment of Mutual Intelligibility Among
Closely Related Languages [1.5773159234875098]
密接に関連する言語は、ある言語の話者が積極的に学習することなく他の言語の話者を理解することができる言語類似性を示す。
相互の知性は程度によって異なり、典型的には精神言語実験でテストされる。
本稿では,人間による言語学習の認知過程を近似するために,線形識別学習システムを用いたコンピュータ支援手法を提案する。
論文 参考訳(メタデータ) (2024-02-05T11:32:13Z) - Probing Structured Semantics Understanding and Generation of Language
Models via Question Answering [56.610044062739256]
本研究では,人間が構築した形式言語を用いて質問応答のタスクにおいて,大規模言語モデルが構造化意味論に対処する能力について検討する。
異なる大きさのモデルと異なる形式言語を用いた実験は、今日の最先端のLLMの論理形式に対する理解が全体的な人間レベルにアプローチできることを示している。
結果は、モデルが異なる形式言語にかなり敏感であることを示している。
論文 参考訳(メタデータ) (2024-01-11T09:27:50Z) - Unveiling A Core Linguistic Region in Large Language Models [49.860260050718516]
本稿では,脳局在化をプロトタイプとして用いた類似研究を行う。
我々は、言語能力に対応する大規模言語モデルにおいて、中核領域を発見した。
我々は,言語能力の向上が必ずしもモデルの知識レベルの向上に伴わないことを観察する。
論文 参考訳(メタデータ) (2023-10-23T13:31:32Z) - Overcoming Barriers to Skill Injection in Language Modeling: Case Study
in Arithmetic [14.618731441943847]
我々は,言語モデルが言語能力を維持しつつ数学的に熟練することを可能にする新しい枠組みを開発する。
具体的には、言語モデルに非言語的スキルを注入しながら発生する言語スキルの破滅的な忘れを克服するために、情報理論の介入を提供する。
論文 参考訳(メタデータ) (2022-11-03T18:53:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。