論文の概要: Contextual Feature Extraction Hierarchies Converge in Large Language
Models and the Brain
- arxiv url: http://arxiv.org/abs/2401.17671v1
- Date: Wed, 31 Jan 2024 08:48:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-01 15:17:06.070697
- Title: Contextual Feature Extraction Hierarchies Converge in Large Language
Models and the Brain
- Title(参考訳): 文脈的特徴抽出階層は大規模言語モデルと脳に収束する
- Authors: Gavin Mischler, Yinghao Aaron Li, Stephan Bickel, Ashesh D. Mehta and
Nima Mesgarani
- Abstract要約: 大規模言語モデル(LLM)がベンチマークタスクで高いパフォーマンスを達成するにつれ、より脳に近いものになることを示す。
また、モデルの性能と脳の類似性を改善する上で、文脈情報の重要性を示す。
- 参考スコア(独自算出の注目度): 12.92793034617015
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent advancements in artificial intelligence have sparked interest in the
parallels between large language models (LLMs) and human neural processing,
particularly in language comprehension. While prior research has established
similarities in the representation of LLMs and the brain, the underlying
computational principles that cause this convergence, especially in the context
of evolving LLMs, remain elusive. Here, we examined a diverse selection of
high-performance LLMs with similar parameter sizes to investigate the factors
contributing to their alignment with the brain's language processing
mechanisms. We find that as LLMs achieve higher performance on benchmark tasks,
they not only become more brain-like as measured by higher performance when
predicting neural responses from LLM embeddings, but also their hierarchical
feature extraction pathways map more closely onto the brain's while using fewer
layers to do the same encoding. We also compare the feature extraction pathways
of the LLMs to each other and identify new ways in which high-performing models
have converged toward similar hierarchical processing mechanisms. Finally, we
show the importance of contextual information in improving model performance
and brain similarity. Our findings reveal the converging aspects of language
processing in the brain and LLMs and offer new directions for developing models
that align more closely with human cognitive processing.
- Abstract(参考訳): 近年の人工知能の進歩は、大きな言語モデル(LLM)と人間のニューラル処理、特に言語理解における類似性への関心を喚起している。
従来の研究は、LSMと脳の表現に類似性を確立してきたが、この収束を引き起こす基礎となる計算原理は、特にLLMの進化の文脈において、解明され続けている。
本稿では,脳の言語処理機構と協調する要因を検討するため,類似のパラメータサイズを持つ高性能llmの多種多様な選択について検討した。
LLMがベンチマークタスクで高いパフォーマンスを達成すると、LLM埋め込みから神経応答を予測する際に、より高いパフォーマンスで測定されるほど、より脳に近いものになるだけでなく、それらの階層的特徴抽出経路は、より少ないレイヤを使用して同じエンコーディングを行う。
また,LLMの特徴抽出経路を互いに比較し,ハイパフォーマンスモデルが類似の階層的処理機構に収束する新たな方法を特定する。
最後に,モデル性能と脳の類似性を改善する上で,文脈情報の重要性を示す。
以上より,脳およびllmにおける言語処理の収束的側面を明らかにし,人間の認知処理とより密接に連携するモデルの開発に向けた新たな方向性を示す。
関連論文リスト
- Brain-like Functional Organization within Large Language Models [58.93629121400745]
人間の脳は長い間人工知能(AI)の追求にインスピレーションを与えてきた
最近のニューロイメージング研究は、人工ニューラルネットワーク(ANN)の計算的表現と、人間の脳の刺激に対する神経反応との整合性の説得力のある証拠を提供する。
本研究では、人工ニューロンのサブグループと機能的脳ネットワーク(FBN)を直接結合することで、このギャップを埋める。
このフレームワークはANサブグループをFBNにリンクし、大きな言語モデル(LLM)内で脳に似た機能的組織を記述できる。
論文 参考訳(メタデータ) (2024-10-25T13:15:17Z) - Cognitive LLMs: Towards Integrating Cognitive Architectures and Large Language Models for Manufacturing Decision-making [51.737762570776006]
LLM-ACTRは、ヒトに適応し、多目的な意思決定を提供する新しいニューロシンボリックアーキテクチャである。
我々のフレームワークは、ACT-Rの内部決定過程の知識を潜在神経表現として抽出し、組み込む。
デザイン・フォー・マニュファクチャリング・タスクに関する我々の実験は、タスク性能の向上と基礎的意思決定能力の向上を両立させたものである。
論文 参考訳(メタデータ) (2024-08-17T11:49:53Z) - FactorLLM: Factorizing Knowledge via Mixture of Experts for Large Language Models [50.331708897857574]
本稿では,高度に訓練された高密度FFNを余分なサブネットワークに分解する新しいアプローチであるFacterLLMを紹介する。
FactorLLMは、最大85%のモデル性能を確保しながら、推論速度を30%以上増加させながら、ソースモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-15T16:45:16Z) - CoMMIT: Coordinated Instruction Tuning for Multimodal Large Language Models [68.64605538559312]
本稿では,MLLM命令のチューニングを理論的・経験的両面から解析する。
そこで本研究では,学習バランスを定量的に評価する尺度を提案する。
さらに,MLLMの生成分布の更新を促進する補助的損失正規化手法を提案する。
論文 参考訳(メタデータ) (2024-07-29T23:18:55Z) - Lost in Translation: The Algorithmic Gap Between LMs and the Brain [8.799971499357499]
言語モデル(LM)は、様々な言語課題において印象的な性能を達成しているが、脳内の人間の言語処理との関係は未だ不明である。
本稿では、異なるレベルの分析において、LMと脳のギャップと重複について検討する。
神経科学からの洞察(空間性、モジュール性、内部状態、インタラクティブ学習など)が、より生物学的に妥当な言語モデルの開発にどのように役立つかについて議論する。
論文 参考訳(メタデータ) (2024-07-05T17:43:16Z) - Brain-Like Language Processing via a Shallow Untrained Multihead Attention Network [16.317199232071232]
大規模言語モデル(LLM)は、人間の言語システムの効果的なモデルであることが示されている。
本研究では、未学習モデルの驚くほどのアライメントを駆動する重要なアーキテクチャコンポーネントについて検討する。
論文 参考訳(メタデータ) (2024-06-21T12:54:03Z) - What Are Large Language Models Mapping to in the Brain? A Case Against Over-Reliance on Brain Scores [1.8175282137722093]
大規模言語モデル(LLM)の内部表現は最先端の脳スコアを達成し、人間の言語処理と計算原理を共有するという憶測に繋がる。
本稿では、LLM-to-Brainマッピングに関する衝撃的な研究で使用される3つのニューラルデータセットを分析し、参加者が短いパスを読み取るfMRIデータセットに特に焦点をあてる。
このデータセット上で訓練されたLLMの脳のスコアは、文の長さ、位置、代名詞による単語の埋め込みによって大きく説明できる。
論文 参考訳(メタデータ) (2024-06-03T17:13:27Z) - Do Large Language Models Mirror Cognitive Language Processing? [43.68923267228057]
大規模言語モデル(LLM)は、テキスト理解と論理的推論において顕著な能力を示した。
認知科学において、脳認知処理信号は典型的には人間の言語処理を研究するために使用される。
我々はRepresentational similarity Analysis (RSA) を用いて、23個の主要LDMとfMRI信号のアライメントを測定する。
論文 参考訳(メタデータ) (2024-02-28T03:38:20Z) - Language-Specific Neurons: The Key to Multilingual Capabilities in Large Language Models [117.20416338476856]
大規模言語モデル(LLM)は、特別にキュレートされた多言語並列コーパスで事前訓練されることなく、顕著な多言語機能を示す。
LLM内の言語特異的ニューロンを識別するための新しい検出手法である言語アクティベーション確率エントロピー(LAPE)を提案する。
以上の結果から,LLMが特定の言語を処理できる能力は,神経細胞のサブセットが少なすぎるためであることが示唆された。
論文 参考訳(メタデータ) (2024-02-26T09:36:05Z) - Rethinking Interpretability in the Era of Large Language Models [76.1947554386879]
大規模言語モデル(LLM)は、幅広いタスクにまたがる顕著な機能を示している。
自然言語で説明できる能力により、LLMは人間に与えられるパターンのスケールと複雑さを拡大することができる。
これらの新しい機能は、幻覚的な説明や膨大な計算コストなど、新しい課題を提起する。
論文 参考訳(メタデータ) (2024-01-30T17:38:54Z) - Probing Large Language Models from A Human Behavioral Perspective [24.109080140701188]
大規模言語モデル(LLM)は、現代のNLPにおいて支配的な基礎モデルとして登場した。
フィードフォワードネットワーク (FFN) やマルチヘッド・セルフアテンション (MHSA) などの予測プロセスや内部メカニズムの理解はいまだに未解明のままである。
論文 参考訳(メタデータ) (2023-10-08T16:16:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。