論文の概要: Cognitive Activation and Chaotic Dynamics in Large Language Models: A Quasi-Lyapunov Analysis of Reasoning Mechanisms
- arxiv url: http://arxiv.org/abs/2503.13530v1
- Date: Sat, 15 Mar 2025 08:15:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-19 14:17:29.569182
- Title: Cognitive Activation and Chaotic Dynamics in Large Language Models: A Quasi-Lyapunov Analysis of Reasoning Mechanisms
- Title(参考訳): 大規模言語モデルにおける認知活性化とカオスダイナミクス:共振機構の準リプノフ解析
- Authors: Xiaojian Li, Yongkang Leng, Ruiqing Ding, Hangjie Mo, Shanlin Yang,
- Abstract要約: 本稿では,大規模言語モデルの推論機構の本質を明らかにする「認知活性化理論」を提案する。
実験により、モデルの情報の蓄積は非線形指数法則に従っており、Multilayer Perceptron (MLP) は最終的な出力においてより高い割合を占めることが示された。
本研究は, LLMの推論の解釈可能性に関するカオス理論の枠組みを提供し, モデル設計における創造性と信頼性のバランスをとるための潜在的経路を明らかにする。
- 参考スコア(独自算出の注目度): 6.375329734462518
- License:
- Abstract: The human-like reasoning capabilities exhibited by Large Language Models (LLMs) challenge the traditional neural network theory's understanding of the flexibility of fixed-parameter systems. This paper proposes the "Cognitive Activation" theory, revealing the essence of LLMs' reasoning mechanisms from the perspective of dynamic systems: the model's reasoning ability stems from a chaotic process of dynamic information extraction in the parameter space. By introducing the Quasi-Lyapunov Exponent (QLE), we quantitatively analyze the chaotic characteristics of the model at different layers. Experiments show that the model's information accumulation follows a nonlinear exponential law, and the Multilayer Perceptron (MLP) accounts for a higher proportion in the final output than the attention mechanism. Further experiments indicate that minor initial value perturbations will have a substantial impact on the model's reasoning ability, confirming the theoretical analysis that large language models are chaotic systems. This research provides a chaos theory framework for the interpretability of LLMs' reasoning and reveals potential pathways for balancing creativity and reliability in model design.
- Abstract(参考訳): LLM(Large Language Models)が示す人間のような推論能力は、固定パラメータシステムの柔軟性に対する従来のニューラルネットワーク理論の理解に挑戦する。
本稿では,LLMの推論機構の本質を動的システムの観点から明らかにする「認知活性化」理論を提案する。
準ルプノフ指数(QLE)を導入することにより,異なる層におけるモデルのカオス特性を定量的に解析する。
実験により、モデルの情報蓄積は非線形指数法則に従い、多層パーセプトロン(MLP)はアテンション機構よりも最終的な出力の比率が高いことが示された。
さらなる実験により、小さな初期値摂動がモデルの推論能力に重大な影響を与え、大きな言語モデルがカオスシステムであるという理論的分析が裏付けられる。
本研究は, LLMの推論の解釈可能性に関するカオス理論の枠組みを提供し, モデル設計における創造性と信頼性のバランスをとるための潜在的経路を明らかにする。
関連論文リスト
- LogiDynamics: Unraveling the Dynamics of Logical Inference in Large Language Model Reasoning [49.58786377307728]
本稿では、類似推論のための制御された評価環境を導入することにより、探索的アプローチを採用する。
帰納的,帰納的,帰納的,帰納的な推論パイプラインの比較力学を解析する。
仮説選択や検証,洗練といった高度なパラダイムを考察し,論理的推論のスケールアップの可能性を明らかにする。
論文 参考訳(メタデータ) (2025-02-16T15:54:53Z) - An Analysis for Reasoning Bias of Language Models with Small Initialization [8.380004565348619]
大規模言語モデル(LLM)は、さまざまなタスクにまたがる例外的なパフォーマンスを示すことによって、自然言語処理に革命をもたらした。
本研究では,パラメータ初期化尺度がLLMの訓練行動とタスク嗜好に及ぼす影響について検討した。
論文 参考訳(メタデータ) (2025-02-05T15:23:26Z) - On the Reasoning Capacity of AI Models and How to Quantify It [0.0]
大規模言語モデル(LLM)は、その推論能力の基本的な性質に関する議論を激化させている。
GPQAやMMLUのようなベンチマークで高い性能を達成する一方で、これらのモデルはより複雑な推論タスクにおいて制限を示す。
本稿では,モデル行動のメカニズムを解明するために,従来の精度指標を超える新しい現象論的手法を提案する。
論文 参考訳(メタデータ) (2025-01-23T16:58:18Z) - Unified Causality Analysis Based on the Degrees of Freedom [1.2289361708127877]
本稿では,システム間の因果関係を同定する統一手法を提案する。
システムの自由度を分析することで、私たちのアプローチは因果的影響と隠れた共同設立者の両方についてより包括的な理解を提供する。
この統合されたフレームワークは、理論モデルとシミュレーションを通じて検証され、その堅牢性とより広範な応用の可能性を示す。
論文 参考訳(メタデータ) (2024-10-25T10:57:35Z) - SynthTree: Co-supervised Local Model Synthesis for Explainable Prediction [15.832975722301011]
本稿では,最小限の精度で説明可能性を向上させる手法を提案する。
我々は,AI技術を利用してノードを推定する新しい手法を開発した。
我々の研究は、統計的方法論が説明可能なAIを前進させる上で重要な役割を担っている。
論文 参考訳(メタデータ) (2024-06-16T14:43:01Z) - Learning Discrete Concepts in Latent Hierarchical Models [73.01229236386148]
自然の高次元データから学習する概念は、ヒューマンアライメントと解釈可能な機械学習モデルの構築の可能性を秘めている。
我々は概念を階層的因果モデルを通して関連付けられた離散潜在因果変数として定式化する。
我々は、理論的な主張を合成データ実験で裏付ける。
論文 参考訳(メタデータ) (2024-06-01T18:01:03Z) - The Buffer Mechanism for Multi-Step Information Reasoning in Language Models [52.77133661679439]
大きな言語モデルの内部的推論メカニズムを調べることは、よりよいモデルアーキテクチャとトレーニング戦略を設計するのに役立ちます。
本研究では,トランスフォーマーモデルが垂直思考戦略を採用するメカニズムを解明するために,シンボリックデータセットを構築した。
我々は,GPT-2モデルに必要なトレーニング時間を75%削減し,モデルの推論能力を高めるために,ランダムな行列ベースアルゴリズムを提案した。
論文 参考訳(メタデータ) (2024-05-24T07:41:26Z) - Unraveling Feature Extraction Mechanisms in Neural Networks [10.13842157577026]
本稿では, ニューラルネットワークカーネル(NTK)に基づく理論的手法を提案し, そのメカニズムを解明する。
これらのモデルが勾配降下時の統計的特徴をどのように活用し、最終決定にどのように統合されるかを明らかにする。
自己注意モデルとCNNモデルはn-gramの学習の限界を示すが、乗算モデルはこの領域で優れていると考えられる。
論文 参考訳(メタデータ) (2023-10-25T04:22:40Z) - Explainability for Large Language Models: A Survey [59.67574757137078]
大規模言語モデル(LLM)は、自然言語処理における印象的な能力を示している。
本稿では,トランスフォーマーに基づく言語モデルを記述する手法について,説明可能性の分類法を紹介した。
論文 参考訳(メタデータ) (2023-09-02T22:14:26Z) - Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z) - EINNs: Epidemiologically-Informed Neural Networks [75.34199997857341]
本稿では,疫病予測のための新しい物理インフォームドニューラルネットワークEINNを紹介する。
メカニスティックモデルによって提供される理論的柔軟性と、AIモデルによって提供されるデータ駆動表現性の両方を活用する方法について検討する。
論文 参考訳(メタデータ) (2022-02-21T18:59:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。