論文の概要: Neural Activation Patterns Across Language Model Architectures: A Comprehensive Analysis of Cognitive Task Performance
- arxiv url: http://arxiv.org/abs/2605.15436v1
- Date: Thu, 14 May 2026 21:31:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-18 21:22:26.113046
- Title: Neural Activation Patterns Across Language Model Architectures: A Comprehensive Analysis of Cognitive Task Performance
- Title(参考訳): 言語モデルアーキテクチャ全体にわたるニューラルアクティベーションパターン:認知タスク性能の包括的分析
- Authors: Mahdi Naser-Moghadasi, Faezeh Ghaderi,
- Abstract要約: 本稿では,6つの大規模言語モデル (LLM) アーキテクチャ間のニューラルアクティベーションパターンを包括的に解析する。
最終的なアクティベーション値、注意エントロピー、空間パターンを体系的に測定することで、エンコーダとデコーダアーキテクチャが多様な認知タスクをどのように処理するかの根本的な違いを明らかにする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a comprehensive analysis of neural activation patterns across six distinct large language model (LLM) architectures, examining their performance on twelve cognitive task categories. Through systematic measurement of final activation values, attention entropy, and sparsity patterns, we reveal fundamental differences in how encoder and decoder architectures process diverse cognitive tasks. Our analysis of 144 task-model combinations demonstrates that mathematical reasoning consistently produces the highest attention entropy across all architectures, while decoder models exhibit significantly higher sparsity patterns compared to encoder models. The findings provide critical insights into the computational characteristics of modern language models and their task-specific neural behaviors, with implications for model selection and optimization in big data applications.
- Abstract(参考訳): 本稿では、6つの異なる大規模言語モデル(LLM)アーキテクチャ間での神経活性化パターンの包括的分析を行い、12の認知タスクカテゴリにおけるそれらの性能について検討する。
最終的なアクティベーション値、注意エントロピー、空間パターンを体系的に測定することで、エンコーダとデコーダアーキテクチャが多様な認知タスクをどのように処理するかの根本的な違いを明らかにする。
144のタスクモデルの組み合わせを解析したところ、数学的推論は全てのアーキテクチャにおいて最も注目されるエントロピーを連続的に生み出すのに対し、デコーダモデルはエンコーダモデルよりもはるかに高い空間パターンを示すことがわかった。
この発見は、現代の言語モデルの計算特性とタスク固有の神経行動に関する重要な洞察を与え、ビッグデータアプリケーションにおけるモデル選択と最適化に影響を及ぼす。
関連論文リスト
- Corpus Considerations for Annotator Modeling and Scaling [9.263562546969695]
一般的に使われているユーザトークンモデルは、より複雑なモデルよりも一貫して優れています。
以上の結果から,コーパス統計とアノテータモデリング性能の関係が明らかになった。
論文 参考訳(メタデータ) (2024-04-02T22:27:24Z) - Robust Graph Representation Learning via Predictive Coding [46.22695915912123]
予測符号化は、当初脳の情報処理をモデル化するために開発されたメッセージパッシングフレームワークである。
本研究では,予測符号化のメッセージパス規則に依存するモデルを構築する。
提案したモデルは,帰納的タスクと帰納的タスクの両方において,標準的なモデルに匹敵する性能を示す。
論文 参考訳(メタデータ) (2022-12-09T03:58:22Z) - An Empirical Investigation of Commonsense Self-Supervision with
Knowledge Graphs [67.23285413610243]
大規模知識グラフから抽出した情報に基づく自己監督は、言語モデルの一般化を改善することが示されている。
本研究では,言語モデルに適用可能な合成データを生成するための知識サンプリング戦略とサイズの影響について検討する。
論文 参考訳(メタデータ) (2022-05-21T19:49:04Z) - Redefining Neural Architecture Search of Heterogeneous Multi-Network
Models by Characterizing Variation Operators and Model Components [71.03032589756434]
複素領域における異なる変動演算子の効果について検討する。
モデルの複雑さと性能に影響を及ぼす変化演算子と、それを構成する異なる部分の質を推定する様々な指標に依存するモデルの両方を特徴付ける。
論文 参考訳(メタデータ) (2021-06-16T17:12:26Z) - Towards a Predictive Processing Implementation of the Common Model of
Cognition [79.63867412771461]
本稿では,ニューラル生成符号化とホログラフィック連想記憶に基づく認知モデルの実装について述べる。
提案システムは,多様なタスクから継続的に学習し,大規模に人的パフォーマンスをモデル化するエージェントを開発するための基盤となる。
論文 参考訳(メタデータ) (2021-05-15T22:55:23Z) - A Systematic Assessment of Syntactic Generalization in Neural Language
Models [20.589737524626745]
本稿では,ニューラルネットワークモデルの構文的知識を体系的に評価する。
モデルアーキテクチャによる構文一般化性能には大きな違いがある。
また, この結果から, パープレキシティと構文一般化性能の解離が明らかとなった。
論文 参考訳(メタデータ) (2020-05-07T18:35:25Z) - Rethinking Generalization of Neural Models: A Named Entity Recognition
Case Study [81.11161697133095]
NERタスクをテストベッドとして、異なる視点から既存モデルの一般化挙動を分析する。
詳細な分析による実験は、既存のニューラルNERモデルのボトルネックを診断する。
本論文の副産物として,最近のNER論文の包括的要約を含むプロジェクトをオープンソース化した。
論文 参考訳(メタデータ) (2020-01-12T04:33:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。