論文の概要: The Dragon Hatchling: The Missing Link between the Transformer and Models of the Brain
- arxiv url: http://arxiv.org/abs/2509.26507v1
- Date: Tue, 30 Sep 2025 16:49:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.625292
- Title: The Dragon Hatchling: The Missing Link between the Transformer and Models of the Brain
- Title(参考訳): ドラゴン・ハッチリング:トランスフォーマーと脳のモデルとのミスリンク
- Authors: Adrian Kosowski, Przemysław Uznański, Jan Chorowski, Zuzanna Stamirowska, Michał Bartoszkiewicz,
- Abstract要約: 我々はDragon Hatchling(BDH)を紹介した。これは、局所的に相互作用するニューロン粒子のスケールフリーな生物学的インスパイアされたネットワークに基づく、新しい大規模言語モデルアーキテクチャである。
BDHは、トランスフォーマーのような性能を犠牲にすることなく、強力な理論的基礎と固有の解釈性を結合する。
- 参考スコア(独自算出の注目度): 1.7859415411112103
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The relationship between computing systems and the brain has served as motivation for pioneering theoreticians since John von Neumann and Alan Turing. Uniform, scale-free biological networks, such as the brain, have powerful properties, including generalizing over time, which is the main barrier for Machine Learning on the path to Universal Reasoning Models. We introduce `Dragon Hatchling' (BDH), a new Large Language Model architecture based on a scale-free biologically inspired network of \$n\$ locally-interacting neuron particles. BDH couples strong theoretical foundations and inherent interpretability without sacrificing Transformer-like performance. BDH is a practical, performant state-of-the-art attention-based state space sequence learning architecture. In addition to being a graph model, BDH admits a GPU-friendly formulation. It exhibits Transformer-like scaling laws: empirically BDH rivals GPT2 performance on language and translation tasks, at the same number of parameters (10M to 1B), for the same training data. BDH can be represented as a brain model. The working memory of BDH during inference entirely relies on synaptic plasticity with Hebbian learning using spiking neurons. We confirm empirically that specific, individual synapses strengthen connection whenever BDH hears or reasons about a specific concept while processing language inputs. The neuron interaction network of BDH is a graph of high modularity with heavy-tailed degree distribution. The BDH model is biologically plausible, explaining one possible mechanism which human neurons could use to achieve speech. BDH is designed for interpretability. Activation vectors of BDH are sparse and positive. We demonstrate monosemanticity in BDH on language tasks. Interpretability of state, which goes beyond interpretability of neurons and model parameters, is an inherent feature of the BDH architecture.
- Abstract(参考訳): 計算システムと脳の関係は、ジョン・フォン・ノイマンとアラン・チューリング以来、理論学者の先駆者となった。
脳のような一様でスケールのない生物学的ネットワークは、時間の経過とともに一般化するなど、強力な特性を持つ。
我々は,局所的に相互作用するニューロン粒子のスケールフリーな生物学的インスパイアされたネットワークをベースとした,新しい大規模言語モデルアーキテクチャであるDragon Hatchling (BDH)を紹介した。
BDHは、トランスフォーマーのような性能を犠牲にすることなく、強力な理論的基礎と固有の解釈性を結合する。
BDHは実用的で、最先端の注意力に基づく状態空間シーケンス学習アーキテクチャである。
グラフモデルであることに加えて、BDHはGPUフレンドリな定式化を認めている。
BDHは、言語や翻訳タスクにおけるGPT2のパフォーマンスを、同じトレーニングデータに対して、同じ数のパラメータ(10Mから1B)で比較する。
BDHは脳モデルとして表現できる。
推論中のBDHの動作記憶は、スパイキングニューロンを用いたヘビアン学習とシナプス可塑性に完全に依存している。
言語入力処理中にBDHが特定の概念や理由を聴くと、特定の個々のシナプスが接続を強化することを実証的に確認する。
BDHのニューロン相互作用ネットワークは、重み付き次数分布を持つ高モジュラリティグラフである。
BDHモデルは生物学的に解明可能であり、人間のニューロンが音声を達成するのに使える1つのメカニズムを説明する。
BDHは解釈可能性のために設計されている。
BDHの活性化ベクトルはスパースで正である。
言語タスクにおけるBDHの独占性を示す。
状態の解釈可能性は、ニューロンとモデルパラメータの解釈可能性を超えたものであり、BDHアーキテクチャの固有の特徴である。
関連論文リスト
- CodeBrain: Towards Decoupled Interpretability and Multi-Scale Architecture for EEG Foundation Model [52.466542039411515]
EEGファウンデーションモデル(EFM)は、タスク固有のモデルのスケーラビリティ問題に対処するために登場した。
このギャップを埋めるために設計された2段階のEMFであるCodeBrainを紹介します。
第1段階では、異種時間・周波数の脳波信号を離散トークンに分解するTFDual-Tokenizerを導入する。
第2段階では、構造化されたグローバル畳み込みとスライディングウインドウの注意を結合したマルチスケールEEGSSMアーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-06-10T17:20:39Z) - BriLLM: Brain-inspired Large Language Model [40.47939901030644]
BriLLMは、機械学習の基礎を再定義する、脳にインスパイアされた大きな言語モデルである。
BriLLMは2つの重要な神経認知原理を取り入れている。(1) 静的な意味マッピング、(2) トークンは皮質領域に類似した特定のノードにマッピングされ、(2) 脳活動で観察される電気生理学的情報ダイナミクスをシミュレートする動的信号伝達である。
このアーキテクチャは、自然なマルチモーダル互換性、ノードレベルでの完全なモデル解釈可能性、コンテキスト長の独立スケーリング、言語タスクのための脳に似た情報処理のグローバルなシミュレーションなど、複数の革新的なブレークスルーを可能にする。
論文 参考訳(メタデータ) (2025-03-14T11:08:30Z) - Range, not Independence, Drives Modularity in Biologically Inspired Representations [52.48094670415497]
我々は、生物学的にインスピレーションを受けたネットワークが、ソース変数(ソース)の表現をモジュール化する理論を開発する。
我々は、最適な線形オートエンコーダのニューロンがモジュラー化するかどうかを決定するソースのサンプルに対して、必要かつ十分な条件を導出する。
我々の理論はどんなデータセットにも当てはまり、以前の研究で研究された統計的な独立性よりもはるかに長い。
論文 参考訳(メタデータ) (2024-10-08T17:41:37Z) - Temporal Spiking Neural Networks with Synaptic Delay for Graph Reasoning [91.29876772547348]
スパイキングニューラルネットワーク(SNN)は、生物学的にインスパイアされたニューラルネットワークモデルとして研究されている。
本稿では,SNNがシナプス遅延と時間符号化とを併用すると,グラフ推論の実行(知識)に長けていることを明らかにする。
論文 参考訳(メタデータ) (2024-05-27T05:53:30Z) - Neural Sampling in Hierarchical Exponential-family Energy-based Models [7.359253637105765]
本稿では,推論と学習のダイナミクスを捉える階層的指数族エネルギーベース(HEE)モデルを提案する。
我々は、神経適応が運動量項として機能し、推論過程を著しく加速することを示した。
機械学習のコミュニティにとって、我々のモデルは共同生成や限界生成によって観察を生成できる。
論文 参考訳(メタデータ) (2023-10-12T15:56:02Z) - Language Knowledge-Assisted Representation Learning for Skeleton-Based
Action Recognition [71.35205097460124]
人間が他人の行動を理解して認識する方法は、複雑な神経科学の問題である。
LA-GCNは、大規模言語モデル(LLM)知識アシストを用いたグラフ畳み込みネットワークを提案する。
論文 参考訳(メタデータ) (2023-05-21T08:29:16Z) - DBGDGM: Dynamic Brain Graph Deep Generative Model [63.23390833353625]
グラフは機能的磁気画像(fMRI)データから得られる脳活動の自然な表現である。
機能的接続ネットワーク(FCN)として知られる解剖学的脳領域のクラスターは、脳の機能や機能不全を理解するのに有用なバイオマーカーとなる時間的関係を符号化することが知られている。
しかし、以前の研究は脳の時間的ダイナミクスを無視し、静的グラフに焦点を当てていた。
本稿では,脳の領域を時間的に進化するコミュニティにクラスタリングし,非教師なしノードの動的埋め込みを学習する動的脳グラフ深部生成モデル(DBGDGM)を提案する。
論文 参考訳(メタデータ) (2023-01-26T20:45:30Z) - DynDepNet: Learning Time-Varying Dependency Structures from fMRI Data
via Dynamic Graph Structure Learning [58.94034282469377]
下流予測タスクによって誘導されるfMRIデータの最適時間変化依存性構造を学習する新しい手法であるDynDepNetを提案する。
実世界のfMRIデータセットの実験は、性別分類のタスクにおいて、DynDepNetが最先端の結果を達成することを実証している。
論文 参考訳(メタデータ) (2022-09-27T16:32:11Z) - An Adaptive Contrastive Learning Model for Spike Sorting [12.043679000694258]
神経科学研究においては、個々のニューロンの活動を分離することが重要である。
大規模なシリコン技術の発展に伴い、スパイクの人工的解釈とラベル付けはますます非現実的になりつつある。
対照的な学習を通してスパイクから表現を学習する新しいモデリングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-24T09:18:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。