Fugu-MT 論文翻訳(概要): Contextual Feature Extraction Hierarchies Converge in Large Language Models and the Brain

論文の概要: Contextual Feature Extraction Hierarchies Converge in Large Language Models and the Brain

arxiv url: http://arxiv.org/abs/2401.17671v1
Date: Wed, 31 Jan 2024 08:48:35 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-01 15:17:06.070697
Title: Contextual Feature Extraction Hierarchies Converge in Large Language Models and the Brain
Title（参考訳）: 文脈的特徴抽出階層は大規模言語モデルと脳に収束する
Authors: Gavin Mischler, Yinghao Aaron Li, Stephan Bickel, Ashesh D. Mehta and Nima Mesgarani
Abstract要約: 大規模言語モデル(LLM)がベンチマークタスクで高いパフォーマンスを達成するにつれ、より脳に近いものになることを示す。また、モデルの性能と脳の類似性を改善する上で、文脈情報の重要性を示す。
参考スコア（独自算出の注目度）: 12.92793034617015
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Recent advancements in artificial intelligence have sparked interest in the parallels between large language models (LLMs) and human neural processing, particularly in language comprehension. While prior research has established similarities in the representation of LLMs and the brain, the underlying computational principles that cause this convergence, especially in the context of evolving LLMs, remain elusive. Here, we examined a diverse selection of high-performance LLMs with similar parameter sizes to investigate the factors contributing to their alignment with the brain's language processing mechanisms. We find that as LLMs achieve higher performance on benchmark tasks, they not only become more brain-like as measured by higher performance when predicting neural responses from LLM embeddings, but also their hierarchical feature extraction pathways map more closely onto the brain's while using fewer layers to do the same encoding. We also compare the feature extraction pathways of the LLMs to each other and identify new ways in which high-performing models have converged toward similar hierarchical processing mechanisms. Finally, we show the importance of contextual information in improving model performance and brain similarity. Our findings reveal the converging aspects of language processing in the brain and LLMs and offer new directions for developing models that align more closely with human cognitive processing.
Abstract（参考訳）: 近年の人工知能の進歩は、大きな言語モデル(LLM)と人間のニューラル処理、特に言語理解における類似性への関心を喚起している。従来の研究は、LSMと脳の表現に類似性を確立してきたが、この収束を引き起こす基礎となる計算原理は、特にLLMの進化の文脈において、解明され続けている。本稿では,脳の言語処理機構と協調する要因を検討するため,類似のパラメータサイズを持つ高性能llmの多種多様な選択について検討した。 LLMがベンチマークタスクで高いパフォーマンスを達成すると、LLM埋め込みから神経応答を予測する際に、より高いパフォーマンスで測定されるほど、より脳に近いものになるだけでなく、それらの階層的特徴抽出経路は、より少ないレイヤを使用して同じエンコーディングを行う。また,LLMの特徴抽出経路を互いに比較し,ハイパフォーマンスモデルが類似の階層的処理機構に収束する新たな方法を特定する。最後に,モデル性能と脳の類似性を改善する上で,文脈情報の重要性を示す。以上より,脳およびllmにおける言語処理の収束的側面を明らかにし,人間の認知処理とより密接に連携するモデルの開発に向けた新たな方向性を示す。

関連論文リスト

Do LLMs and VLMs Share Neurons for Inference? Evidence and Mechanisms of Cross-Modal Transfer [65.72553715508691]
我々は,多段階の推論と構成決定を必要とするタスクにおいて,LVLMが強いテキストのみの大規模言語モデル(LLM)に遅れていることを示す。 LLMからLVLMへ成熟型推論回路を転送するパラメータ効率の高いフレームワークである共有ニューロン低ランク融合(SNRF)を提案する。その結果、共有ニューロンはLLMとLVLMの間の解釈可能なブリッジを形成し、低コストでマルチモーダルモデルへの推論能力の移行を可能にした。
論文参考訳（メタデータ） (2026-02-22T06:04:05Z)
Scaling and context steer LLMs along the same computational path as the human brain [6.0749974370300714]
オーディオブックを10時間聴いた被験者の時間分解脳信号について検討した。我々は,LLMと脳が同様の順序で表現を生成することを確認した。この脳-LLMアライメントは、トランスフォーマーとリカレントアーキテクチャ間で一貫性がある。
論文参考訳（メタデータ） (2025-12-01T12:05:01Z)
The Emergence of Abstract Thought in Large Language Models Beyond Any Language [95.50197866832772]
大規模言語モデル(LLM)は様々な言語で効果的に機能する。予備的研究では、LLMの隠れた活性化は、英語以外のプロンプトに反応してもしばしば英語に類似している。近年の結果は多言語のパフォーマンスが強く、他の言語での特定のタスクにおける英語のパフォーマンスを超えている。
論文参考訳（メタデータ） (2025-06-11T16:00:54Z)
Do Large Language Models Think Like the Brain? Sentence-Level Evidence from fMRI and Hierarchical Embeddings [28.210559128941593]
本研究では,大規模言語モデルにおける階層的表現が,人文理解時の動的神経応答とどのように一致しているかを検討する。その結果、モデル性能の改善は、表現アーキテクチャを脳に似た階層へと進化させることを示した。
論文参考訳（メタデータ） (2025-05-28T16:40:06Z)
From Tokens to Thoughts: How LLMs and Humans Trade Compression for Meaning [63.25540801694765]
大きな言語モデル (LLMs) は言語能力を示すが、同じバランスをとれるかどうかは不明だ。本稿では,LLMと人間を定量的に比較するために,Information Bottleneckの原理を適用した。
論文参考訳（メタデータ） (2025-05-21T16:29:00Z)
A Survey of Scaling in Large Language Model Reasoning [62.92861523305361]
大規模言語モデル(LLM)推論におけるスケーリングの総合的な検討について述べる。我々は、多段階推論と論理的整合性を改善する推論ステップにおけるスケーリングを分析する。我々は、反復モデルの改善による最適化に焦点を当て、トレーニング可能な推論のスケーリングについて論じる。
論文参考訳（メタデータ） (2025-04-02T23:51:27Z)
Brain-Inspired Exploration of Functional Networks and Key Neurons in Large Language Models [53.91412558475662]
我々は,大言語モデル(LLM)における機能的ネットワークの探索と同定のために,機能的ニューロイメージング解析の分野における機能的ニューロイメージングと類似した手法を用いる。実験の結果、人間の脳と同様、LLMは手術中に頻繁に再帰する機能的ネットワークを含んでいることが明らかとなった。主要な機能的ネットワークのマスキングはモデルの性能を著しく損なう一方、サブセットだけを保持することは効果的な操作を維持するのに十分である。
論文参考訳（メタデータ） (2025-02-13T04:42:39Z)
Brain-like Functional Organization within Large Language Models [58.93629121400745]
人間の脳は長い間人工知能(AI)の追求にインスピレーションを与えてきた最近のニューロイメージング研究は、人工ニューラルネットワーク(ANN)の計算的表現と、人間の脳の刺激に対する神経反応との整合性の説得力のある証拠を提供する。本研究では、人工ニューロンのサブグループと機能的脳ネットワーク(FBN)を直接結合することで、このギャップを埋める。このフレームワークはANサブグループをFBNにリンクし、大きな言語モデル(LLM)内で脳に似た機能的組織を記述できる。
論文参考訳（メタデータ） (2024-10-25T13:15:17Z)
Cognitive LLMs: Towards Integrating Cognitive Architectures and Large Language Models for Manufacturing Decision-making [51.737762570776006]
LLM-ACTRは、ヒトに適応し、多目的な意思決定を提供する新しいニューロシンボリックアーキテクチャである。我々のフレームワークは、ACT-Rの内部決定過程の知識を潜在神経表現として抽出し、組み込む。デザイン・フォー・マニュファクチャリング・タスクに関する我々の実験は、タスク性能の向上と基礎的意思決定能力の向上を両立させたものである。
論文参考訳（メタデータ） (2024-08-17T11:49:53Z)
FactorLLM: Factorizing Knowledge via Mixture of Experts for Large Language Models [50.331708897857574]
本稿では,高度に訓練された高密度FFNを余分なサブネットワークに分解する新しいアプローチであるFacterLLMを紹介する。 FactorLLMは、最大85%のモデル性能を確保しながら、推論速度を30%以上増加させながら、ソースモデルに匹敵するパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-08-15T16:45:16Z)
CoMMIT: Coordinated Instruction Tuning for Multimodal Large Language Models [68.64605538559312]
本稿では,MLLM命令のチューニングを理論的・経験的両面から解析する。そこで本研究では,学習バランスを定量的に評価する尺度を提案する。さらに,MLLMの生成分布の更新を促進する補助的損失正規化手法を提案する。
論文参考訳（メタデータ） (2024-07-29T23:18:55Z)
Lost in Translation: The Algorithmic Gap Between LMs and the Brain [8.799971499357499]
言語モデル(LM)は、様々な言語課題において印象的な性能を達成しているが、脳内の人間の言語処理との関係は未だ不明である。本稿では、異なるレベルの分析において、LMと脳のギャップと重複について検討する。神経科学からの洞察(空間性、モジュール性、内部状態、インタラクティブ学習など)が、より生物学的に妥当な言語モデルの開発にどのように役立つかについて議論する。
論文参考訳（メタデータ） (2024-07-05T17:43:16Z)
Brain-Like Language Processing via a Shallow Untrained Multihead Attention Network [16.317199232071232]
大規模言語モデル(LLM)は、人間の言語システムの効果的なモデルであることが示されている。本研究では、未学習モデルの驚くほどのアライメントを駆動する重要なアーキテクチャコンポーネントについて検討する。
論文参考訳（メタデータ） (2024-06-21T12:54:03Z)
What Are Large Language Models Mapping to in the Brain? A Case Against Over-Reliance on Brain Scores [1.8175282137722093]
大規模言語モデル(LLM)の内部表現は最先端の脳スコアを達成し、人間の言語処理と計算原理を共有するという憶測に繋がる。本稿では、LLM-to-Brainマッピングに関する衝撃的な研究で使用される3つのニューラルデータセットを分析し、参加者が短いパスを読み取るfMRIデータセットに特に焦点をあてる。このデータセット上で訓練されたLLMの脳のスコアは、文の長さ、位置、代名詞による単語の埋め込みによって大きく説明できる。
論文参考訳（メタデータ） (2024-06-03T17:13:27Z)
Do Large Language Models Mirror Cognitive Language Processing? [43.68923267228057]
大規模言語モデル(LLM)は、テキスト理解と論理的推論において顕著な能力を示した。認知科学において、脳認知処理信号は典型的には人間の言語処理を研究するために使用される。我々はRepresentational similarity Analysis (RSA) を用いて、23個の主要LDMとfMRI信号のアライメントを測定する。
論文参考訳（メタデータ） (2024-02-28T03:38:20Z)
Language-Specific Neurons: The Key to Multilingual Capabilities in Large Language Models [117.20416338476856]
大規模言語モデル(LLM)は、特別にキュレートされた多言語並列コーパスで事前訓練されることなく、顕著な多言語機能を示す。 LLM内の言語特異的ニューロンを識別するための新しい検出手法である言語アクティベーション確率エントロピー(LAPE)を提案する。以上の結果から,LLMが特定の言語を処理できる能力は,神経細胞のサブセットが少なすぎるためであることが示唆された。
論文参考訳（メタデータ） (2024-02-26T09:36:05Z)
Rethinking Interpretability in the Era of Large Language Models [76.1947554386879]
大規模言語モデル(LLM)は、幅広いタスクにまたがる顕著な機能を示している。自然言語で説明できる能力により、LLMは人間に与えられるパターンのスケールと複雑さを拡大することができる。これらの新しい機能は、幻覚的な説明や膨大な計算コストなど、新しい課題を提起する。
論文参考訳（メタデータ） (2024-01-30T17:38:54Z)
Probing Large Language Models from A Human Behavioral Perspective [24.109080140701188]
大規模言語モデル(LLM)は、現代のNLPにおいて支配的な基礎モデルとして登場した。フィードフォワードネットワーク (FFN) やマルチヘッド・セルフアテンション (MHSA) などの予測プロセスや内部メカニズムの理解はいまだに未解明のままである。
論文参考訳（メタデータ） (2023-10-08T16:16:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。