Fugu-MT 論文翻訳(概要): Exploring Neuron Interactions and Emergence in LLMs: From the Multifractal Analysis Perspective

論文の概要: Exploring Neuron Interactions and Emergence in LLMs: From the Multifractal Analysis Perspective

arxiv url: http://arxiv.org/abs/2402.09099v4
Date: Thu, 21 Mar 2024 05:33:23 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-22 19:07:50.747489
Title: Exploring Neuron Interactions and Emergence in LLMs: From the Multifractal Analysis Perspective
Title（参考訳）: LLMにおけるニューロン相互作用と創発の探索:多フラクタル解析の観点から
Authors: Xiongye Xiao, Chenyu Zhou, Heng Ping, Defu Cao, Yaxing Li, Yizhuo Zhou, Shixuan Li, Paul Bogdan,
Abstract要約: 本研究では,大規模言語モデル(LLM)の出現を,モデルサイズと学習過程の両面から検討する。自己組織化」と「マルチフラクタル分析」の概念を導入することで、トレーニング中にニューロンの相互作用がどのように動的に進化するかを探求する。
参考スコア（独自算出の注目度）: 10.347835690479679
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Prior studies on the emergence in large models have primarily focused on how the functional capabilities of large language models (LLMs) scale with model size. Our research, however, transcends this traditional paradigm, aiming to deepen our understanding of the emergence within LLMs by placing a special emphasis not just on the model size but more significantly on the complex behavior of neuron interactions during the training process. By introducing the concepts of "self-organization" and "multifractal analysis," we explore how neuron interactions dynamically evolve during training, leading to "emergence," mirroring the phenomenon in natural systems where simple micro-level interactions give rise to complex macro-level behaviors. To quantitatively analyze the continuously evolving interactions among neurons in large models during training, we propose the Neuron-based Multifractal Analysis (NeuroMFA). Utilizing NeuroMFA, we conduct a comprehensive examination of the emergent behavior in LLMs through the lens of both model size and training process, paving new avenues for research into the emergence in large models.
Abstract（参考訳）: 大規模モデルの出現に関する以前の研究は、主に、大規模言語モデル(LLM)の機能的機能とモデルサイズとのスケール性に焦点を当てていた。しかしながら、我々の研究は従来のパラダイムを超越し、モデルのサイズだけでなく、トレーニングプロセス中のニューロン相互作用の複雑な振る舞いにも特に重点を置いて、LSMの出現に対する理解を深めることを目的としています。自己組織化」と「マルチフラクタル解析」の概念を導入することで、トレーニング中にニューロンの相互作用が動的に進化し、単純なミクロレベルの相互作用が複雑なマクロレベルの振る舞いを引き起こす自然システムにおける現象を反映する「創発」へと導くかを探る。トレーニング中の大モデルにおけるニューロン間の継続的な相互作用を定量的に解析するために,ニューロンに基づくマルチフラクタル解析(NeuroMFA)を提案する。 NeuroMFAを用いて、モデルサイズとトレーニングプロセスの両方のレンズを通してLLMの創発的挙動を包括的に検証し、大規模モデルの出現を研究するための新たな道を開く。

関連論文リスト

Beyond Benchmarks: Understanding Mixture-of-Experts Models through Internal Mechanisms [55.1784306456972]
Mixture-of-Experts (MoE)アーキテクチャは、推論中にパラメータのサブセットだけをアクティベートすることで、効率とスケーラビリティを提供する、有望な方向性として登場した。内部メトリックを用いて、ルーティング機構を明示的に取り入れ、専門家レベルの振る舞いを分析することで、MoEアーキテクチャのメカニズムを解明する。その結果,(1)モデルの発展に伴ってニューロンの利用が減少し,より高度な一般化が期待できる,(2)ベンチマークのパフォーマンスが限られた信号のみを提供するダイナミックな軌道を示す,(3)複数の専門家の協力的貢献からタスク完了が生じる,(4)ニューロンレベルでの活性化パターンがデータ多様性のきめ細かいプロキシを提供する,といった結果が得られた。
論文参考訳（メタデータ） (2025-09-28T15:13:38Z)
Models of Heavy-Tailed Mechanistic Universality [62.107333654304014]
トレーニングニューラルネットワークにおける重み付け行動を引き起こす属性を探索するために,ランダム行列モデルのファミリーを提案する。このモデルの下では、3つの独立した因子の組み合わせによって、尾翼の電力法則によるスペクトル密度が生じる。ニューラルネットワークトレーニングの5段階以上において、ニューラルネットワークのスケーリング法則、軌道、および5段階以上の位相を含む重尾の出現に対する我々のモデルの影響について論じる。
論文参考訳（メタデータ） (2025-06-04T00:55:01Z)
Cognitive Activation and Chaotic Dynamics in Large Language Models: A Quasi-Lyapunov Analysis of Reasoning Mechanisms [6.375329734462518]
本稿では,大規模言語モデルの推論機構の本質を明らかにする「認知活性化理論」を提案する。実験により、モデルの情報の蓄積は非線形指数法則に従っており、Multilayer Perceptron (MLP) は最終的な出力においてより高い割合を占めることが示された。本研究は, LLMの推論の解釈可能性に関するカオス理論の枠組みを提供し, モデル設計における創造性と信頼性のバランスをとるための潜在的経路を明らかにする。
論文参考訳（メタデータ） (2025-03-15T08:15:10Z)
GENERator: A Long-Context Generative Genomic Foundation Model [66.46537421135996]
本稿では,98k塩基対 (bp) と1.2Bパラメータからなるゲノム基盤モデル GENERator を提案する。 DNAの386Bbpからなる拡張データセットに基づいて、GENERatorは、確立されたベンチマークと新しく提案されたベンチマークの両方で最先端のパフォーマンスを実証する。また、特に特定のアクティビティプロファイルを持つエンハンサーシーケンスを即応的に生成することで、シーケンス最適化において大きな可能性を秘めている。
論文参考訳（メタデータ） (2025-02-11T05:39:49Z)
Brain-like Functional Organization within Large Language Models [58.93629121400745]
人間の脳は長い間人工知能(AI)の追求にインスピレーションを与えてきた最近のニューロイメージング研究は、人工ニューラルネットワーク(ANN)の計算的表現と、人間の脳の刺激に対する神経反応との整合性の説得力のある証拠を提供する。本研究では、人工ニューロンのサブグループと機能的脳ネットワーク(FBN)を直接結合することで、このギャップを埋める。このフレームワークはANサブグループをFBNにリンクし、大きな言語モデル(LLM)内で脳に似た機能的組織を記述できる。
論文参考訳（メタデータ） (2024-10-25T13:15:17Z)
Artificial Kuramoto Oscillatory Neurons [65.16453738828672]
しきい値単位の動的代替として人工内蔵ニューロン(AKOrN)を導入する。このアイデアは、幅広いタスクにまたがってパフォーマンス改善をもたらすことを示しています。これらの経験的結果は、神経表現の最も基本的なレベルにおいて、私たちの仮定の重要性を示していると信じている。
論文参考訳（メタデータ） (2024-10-17T17:47:54Z)
Contrastive Learning in Memristor-based Neuromorphic Systems [55.11642177631929]
スパイクニューラルネットワークは、現代のバックプロパゲーションによって訓練されたディープネットワークに直面する重要な制約の多くを横取りする、ニューロンベースのモデルの重要なファミリーとなっている。本研究では,前向き・後向き学習のニューロモルフィック形式であるコントラッシブ・シグナル依存型塑性(CSDP)の概念実証を設計し,検討する。
論文参考訳（メタデータ） (2024-09-17T04:48:45Z)
Neural Dynamics Model of Visual Decision-Making: Learning from Human Experts [28.340344705437758]
視覚入力から行動出力まで,包括的な視覚的意思決定モデルを実装した。我々のモデルは人間の行動と密接に一致し、霊長類の神経活動を反映する。ニューロイメージング・インフォームド・ファインチューニング手法を導入し、モデルに適用し、性能改善を実現した。
論文参考訳（メタデータ） (2024-09-04T02:38:52Z)
Modularity in Transformers: Investigating Neuron Separability & Specialization [0.0]
トランスフォーマーモデルは様々なアプリケーションでますます普及していますが、内部動作に対する我々の理解は限定的です。本稿では、視覚(ViT)モデルと言語(Mistral 7B)モデルの両方に着目し、トランスフォーマーアーキテクチャ内のニューロンのモジュラリティとタスクの特殊化について検討する。選択的プルーニングとMoEficationクラスタリングの組み合わせを用いて、異なるタスクやデータサブセットにわたるニューロンの重複と特殊化を分析する。
論文参考訳（メタデータ） (2024-08-30T14:35:01Z)
Leveraging Chemistry Foundation Models to Facilitate Structure Focused Retrieval Augmented Generation in Multi-Agent Workflows for Catalyst and Materials Design [0.0]
ケミカル基礎モデルは,構造に着目したセマンティックケミカル情報検索の基盤として機能することを示す。また,OpenCLIP などのマルチモーダルモデルと化学基礎モデルの併用について述べる。
論文参考訳（メタデータ） (2024-08-21T17:25:45Z)
Discovering intrinsic multi-compartment pharmacometric models using Physics Informed Neural Networks [0.0]
我々は、純粋にデータ駆動型ニューラルネットワークモデルであるPKINNを紹介する。 PKINNは、本質的なマルチコンパートメントベースの薬理学構造を効率的に発見し、モデル化する。得られたモデルは、シンボリック回帰法によって解釈可能であり、説明可能である。
論文参考訳（メタデータ） (2024-04-30T19:31:31Z)
Probing Biological and Artificial Neural Networks with Task-dependent Neural Manifolds [12.037840490243603]
本稿では,ニューラルネットワークの内部機構について,ニューラル集団幾何学のレンズを用いて検討する。学習目的の違いが,これらのモデルの組織戦略の違いにどのように影響するかを定量的に評価する。これらの分析は、ニューラルネットワークにおける機械的および規範的理論を神経集団幾何学を通してブリッジする強力な方向を示す。
論文参考訳（メタデータ） (2023-12-21T20:40:51Z)
Unraveling Feature Extraction Mechanisms in Neural Networks [10.13842157577026]
本稿では, ニューラルネットワークカーネル(NTK)に基づく理論的手法を提案し, そのメカニズムを解明する。これらのモデルが勾配降下時の統計的特徴をどのように活用し、最終決定にどのように統合されるかを明らかにする。自己注意モデルとCNNモデルはn-gramの学習の限界を示すが、乗算モデルはこの領域で優れていると考えられる。
論文参考訳（メタデータ） (2023-10-25T04:22:40Z)
A Neuro-mimetic Realization of the Common Model of Cognition via Hebbian Learning and Free Energy Minimization [55.11642177631929]
大規模なニューラル生成モデルは、意味的に豊富なテキストのパスを合成したり、複雑な画像を生成することができる。我々はコモン・モデル・オブ・コグニティブ・ニューラル・ジェネレーティブ・システムについて論じる。
論文参考訳（メタデータ） (2023-10-14T23:28:48Z)
Spatiotemporal Patterns in Neurobiology: An Overview for Future Artificial Intelligence [0.0]
我々は,ネットワーク相互作用から生じる機能を明らかにする上で,計算モデルが重要なツールであると主張している。ここでは、スパイキングニューロン、統合ニューロン、発火ニューロンを含むいくつかのモデルのクラスについてレビューする。これらの研究は、人工知能アルゴリズムの今後の発展と、脳のプロセスの理解の検証に役立つことを願っている。
論文参考訳（メタデータ） (2022-03-29T10:28:01Z)
Ranking of Communities in Multiplex Spatiotemporal Models of Brain Dynamics [0.0]
隠れマルコフグラフモデル(HMs)と呼ぶ多重脳状態グラフモデルとして、ニューラルHMMの解釈を提案する。この解釈により、ネットワーク分析技術の完全なレパートリーを使用して、動的脳活動を分析することができる。ランダムウォークに基づく手法を用いて,脳領域の重要なコミュニティを決定するための新しいツールを開発した。
論文参考訳（メタデータ） (2022-03-17T12:14:09Z)
EINNs: Epidemiologically-Informed Neural Networks [75.34199997857341]
本稿では,疫病予測のための新しい物理インフォームドニューラルネットワークEINNを紹介する。メカニスティックモデルによって提供される理論的柔軟性と、AIモデルによって提供されるデータ駆動表現性の両方を活用する方法について検討する。
論文参考訳（メタデータ） (2022-02-21T18:59:03Z)
Leveraging the structure of dynamical systems for data-driven modeling [111.45324708884813]
トレーニングセットとその構造が長期予測の品質に与える影響を考察する。トレーニングセットのインフォームドデザインは,システムの不変性と基盤となるアトラクションの構造に基づいて,結果のモデルを大幅に改善することを示す。
論文参考訳（メタデータ） (2021-12-15T20:09:20Z)
Neuron-level Interpretation of Deep NLP Models: A Survey [22.035813865470956]
ディープニューラルネットワークモデルのコンポーネントを分析し、理解するために、数多くの研究がなされている。最近の研究は、より粒度の細かいレベルでの解釈可能性に集中し、大きなモデルでニューロンとニューロンのグループを分析している。
論文参考訳（メタデータ） (2021-08-30T11:54:21Z)
Continuous Learning and Adaptation with Membrane Potential and Activation Threshold Homeostasis [91.3755431537592]
本稿では,MPATH(Membrane Potential and Activation Threshold Homeostasis)ニューロンモデルを提案する。このモデルにより、ニューロンは入力が提示されたときに自動的に活性を調節することで動的平衡の形式を維持することができる。実験は、モデルがその入力から適応し、継続的に学習する能力を示す。
論文参考訳（メタデータ） (2021-04-22T04:01:32Z)
Measuring Model Complexity of Neural Networks with Curve Activation Functions [100.98319505253797]
本稿では,線形近似ニューラルネットワーク(LANN)を提案する。ニューラルネットワークのトレーニングプロセスを実験的に検討し、オーバーフィッティングを検出する。我々は、$L1$と$L2$正規化がモデルの複雑さの増加を抑制することを発見した。
論文参考訳（メタデータ） (2020-06-16T07:38:06Z)
Rethinking Generalization of Neural Models: A Named Entity Recognition Case Study [81.11161697133095]
NERタスクをテストベッドとして、異なる視点から既存モデルの一般化挙動を分析する。詳細な分析による実験は、既存のニューラルNERモデルのボトルネックを診断する。本論文の副産物として,最近のNER論文の包括的要約を含むプロジェクトをオープンソース化した。
論文参考訳（メタデータ） (2020-01-12T04:33:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。