論文の概要: Contextual Feature Extraction Hierarchies Converge in Large Language
Models and the Brain
- arxiv url: http://arxiv.org/abs/2401.17671v1
- Date: Wed, 31 Jan 2024 08:48:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-01 15:17:06.070697
- Title: Contextual Feature Extraction Hierarchies Converge in Large Language
Models and the Brain
- Title(参考訳): 文脈的特徴抽出階層は大規模言語モデルと脳に収束する
- Authors: Gavin Mischler, Yinghao Aaron Li, Stephan Bickel, Ashesh D. Mehta and
Nima Mesgarani
- Abstract要約: 大規模言語モデル(LLM)がベンチマークタスクで高いパフォーマンスを達成するにつれ、より脳に近いものになることを示す。
また、モデルの性能と脳の類似性を改善する上で、文脈情報の重要性を示す。
- 参考スコア(独自算出の注目度): 12.92793034617015
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent advancements in artificial intelligence have sparked interest in the
parallels between large language models (LLMs) and human neural processing,
particularly in language comprehension. While prior research has established
similarities in the representation of LLMs and the brain, the underlying
computational principles that cause this convergence, especially in the context
of evolving LLMs, remain elusive. Here, we examined a diverse selection of
high-performance LLMs with similar parameter sizes to investigate the factors
contributing to their alignment with the brain's language processing
mechanisms. We find that as LLMs achieve higher performance on benchmark tasks,
they not only become more brain-like as measured by higher performance when
predicting neural responses from LLM embeddings, but also their hierarchical
feature extraction pathways map more closely onto the brain's while using fewer
layers to do the same encoding. We also compare the feature extraction pathways
of the LLMs to each other and identify new ways in which high-performing models
have converged toward similar hierarchical processing mechanisms. Finally, we
show the importance of contextual information in improving model performance
and brain similarity. Our findings reveal the converging aspects of language
processing in the brain and LLMs and offer new directions for developing models
that align more closely with human cognitive processing.
- Abstract(参考訳): 近年の人工知能の進歩は、大きな言語モデル(LLM)と人間のニューラル処理、特に言語理解における類似性への関心を喚起している。
従来の研究は、LSMと脳の表現に類似性を確立してきたが、この収束を引き起こす基礎となる計算原理は、特にLLMの進化の文脈において、解明され続けている。
本稿では,脳の言語処理機構と協調する要因を検討するため,類似のパラメータサイズを持つ高性能llmの多種多様な選択について検討した。
LLMがベンチマークタスクで高いパフォーマンスを達成すると、LLM埋め込みから神経応答を予測する際に、より高いパフォーマンスで測定されるほど、より脳に近いものになるだけでなく、それらの階層的特徴抽出経路は、より少ないレイヤを使用して同じエンコーディングを行う。
また,LLMの特徴抽出経路を互いに比較し,ハイパフォーマンスモデルが類似の階層的処理機構に収束する新たな方法を特定する。
最後に,モデル性能と脳の類似性を改善する上で,文脈情報の重要性を示す。
以上より,脳およびllmにおける言語処理の収束的側面を明らかにし,人間の認知処理とより密接に連携するモデルの開発に向けた新たな方向性を示す。
関連論文リスト
- Comparing Rationality Between Large Language Models and Humans: Insights and Open Questions [6.201550639431176]
本稿では,大規模言語モデル(LLM)の急成長に焦点をあてる。
我々は,LLMの合理性と意思決定能力の増強において,人間フィードバックからの強化学習(RLHF)が果たす重要な役割を強調した。
論文 参考訳(メタデータ) (2024-03-14T18:36:04Z) - Dissecting Language Models: Machine Unlearning via Selective Pruning [0.8287206589886881]
本稿では,大規模言語モデル(LLM)に特化して設計された機械学習手法を提案する。
我々は,LLMの選択的プルーニング法を導入し,ネットワーク全体の性能と比較して,標的能力に対するニューロンの重要性から神経細胞を除去する。
LLMのフィードフォワードニューロンとアテンションニューロンはどちらも専門的であり、特定のタスクにおいては、特定のニューロンは他のニューロンよりも重要である。
論文 参考訳(メタデータ) (2024-03-02T17:10:44Z) - Characterizing Truthfulness in Large Language Model Generations with
Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。
モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文 参考訳(メタデータ) (2024-02-28T04:56:21Z) - Do Large Language Models Mirror Cognitive Language Processing? [47.72734808139112]
大規模言語モデル(LLM)は、テキスト理解と論理的推論において顕著な能力を示した。
本研究では,LLM表現と人間の認知信号をブリッジして,LLMが認知言語処理をいかに効果的にシミュレートするかを評価する手法を提案する。
論文 参考訳(メタデータ) (2024-02-28T03:38:20Z) - Language-Specific Neurons: The Key to Multilingual Capabilities in Large
Language Models [122.25217086389425]
大規模言語モデル(LLM)は、特別にキュレートされた多言語並列コーパスで事前訓練されることなく、顕著な多言語機能を示す。
LLM内の言語特異的ニューロンを識別するための新しい検出手法である言語アクティベーション確率エントロピー(LAPE)を提案する。
以上の結果から,LLMが特定の言語を処理できる能力は,神経細胞のサブセットが少なすぎるためであることが示唆された。
論文 参考訳(メタデータ) (2024-02-26T09:36:05Z) - Identifying Semantic Induction Heads to Understand In-Context Learning [98.43943823238907]
自然言語に存在するトークン間の2種類の関係を,注目ヘッドが符号化するかどうかを検討する。
特定の注意ヘッドは、ヘッドトークンに出席する際、テールトークンをリコールし、テールトークンの出力ロジットを増加させるパターンを示す。
論文 参考訳(メタデータ) (2024-02-20T14:43:39Z) - Rethinking Interpretability in the Era of Large Language Models [76.1947554386879]
大規模言語モデル(LLM)は、幅広いタスクにまたがる顕著な機能を示している。
自然言語で説明できる能力により、LLMは人間に与えられるパターンのスケールと複雑さを拡大することができる。
これらの新しい機能は、幻覚的な説明や膨大な計算コストなど、新しい課題を提起する。
論文 参考訳(メタデータ) (2024-01-30T17:38:54Z) - Instruction-tuning Aligns LLMs to the Human Brain [20.86703074354748]
インストラクションチューニングにより、大きな言語モデルでは、自然言語クエリに対する人間の反応によく似た出力を生成することができる。
インストラクションチューニングが、人間の言語処理とよりよく似た大きな言語モデルを作るかどうかを考察する。
インストラクションチューニングにより、平均6%の脳アライメントが向上するが、行動アライメントにも同様の影響はない。
論文 参考訳(メタデータ) (2023-12-01T13:31:02Z) - Probing Large Language Models from A Human Behavioral Perspective [24.109080140701188]
大規模言語モデル(LLM)は、現代のNLPにおいて支配的な基礎モデルとして登場した。
フィードフォワードネットワーク (FFN) やマルチヘッド・セルフアテンション (MHSA) などの予測プロセスや内部メカニズムの理解はいまだに未解明のままである。
論文 参考訳(メタデータ) (2023-10-08T16:16:21Z) - Exploring Collaboration Mechanisms for LLM Agents: A Social Psychology
View [64.43238868957813]
本稿では,理論的洞察を用いた実用実験により,現代NLPシステム間の協調機構を解明する。
我々は, LLMエージェントからなる4つの独特な社会をつくり, それぞれのエージェントは, 特定の特性(容易性, 過信性)によって特徴づけられ, 異なる思考パターン(議論, ふりかえり)と協調する。
以上の結果から, LLMエージェントは, 社会心理学理論を反映した, 適合性やコンセンサスリーディングといった人間的な社会的行動を示すことが明らかとなった。
論文 参考訳(メタデータ) (2023-10-03T15:05:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。