論文の概要: BriLLM: Brain-inspired Large Language Model
- arxiv url: http://arxiv.org/abs/2503.11299v8
- Date: Mon, 08 Sep 2025 14:06:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:02.966295
- Title: BriLLM: Brain-inspired Large Language Model
- Title(参考訳): BriLLM: 脳にインスパイアされた大規模言語モデル
- Authors: Hai Zhao, Hongqiu Wu, Dongjie Yang, Anni Zou, Jiale Hong,
- Abstract要約: BriLLMは、機械学習の基礎を再定義する、脳にインスパイアされた大きな言語モデルである。
BriLLMは2つの重要な神経認知原理を取り入れている。(1) 静的な意味マッピング、(2) トークンは皮質領域に類似した特定のノードにマッピングされ、(2) 脳活動で観察される電気生理学的情報ダイナミクスをシミュレートする動的信号伝達である。
このアーキテクチャは、自然なマルチモーダル互換性、ノードレベルでの完全なモデル解釈可能性、コンテキスト長の独立スケーリング、言語タスクのための脳に似た情報処理のグローバルなシミュレーションなど、複数の革新的なブレークスルーを可能にする。
- 参考スコア(独自算出の注目度): 40.47939901030644
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce BriLLM, a brain-inspired large language model that fundamentally redefines the foundations of machine learning through its implementation of Signal Fully-connected flowing (SiFu) learning. This work addresses the critical bottleneck hindering AI's progression toward Artificial General Intelligence (AGI)--the disconnect between language models and "world models"--as well as the fundamental limitations of Transformer-based architectures rooted in the conventional representation learning paradigm. BriLLM incorporates two pivotal neurocognitive principles: (1) static semantic mapping, where tokens are mapped to specialized nodes analogous to cortical areas, and (2) dynamic signal propagation, which simulates electrophysiological information dynamics observed in brain activity. This architecture enables multiple transformative breakthroughs: natural multi-modal compatibility, full model interpretability at the node level, context-length independent scaling, and the first global-scale simulation of brain-like information processing for language tasks. Our initial 1-2B parameter models successfully replicate GPT-1-level generative capabilities while demonstrating stable perplexity reduction. Scalability analyses confirm the feasibility of 100-200B parameter variants capable of processing 40,000-token vocabularies. The paradigm is reinforced by both Occam's Razor--evidenced in the simplicity of direct semantic mapping--and natural evolution--given the brain's empirically validated AGI architecture. BriLLM establishes a novel, biologically grounded framework for AGI advancement that addresses fundamental limitations of current approaches.
- Abstract(参考訳): 我々は,脳にインスパイアされた大規模言語モデルであるBriLLMを紹介した。このモデルは,Signal Fully- connected flowing (SiFu)学習の実装を通じて,機械学習の基礎を根本的に再定義する。
言語モデルと"世界モデル"の切り離し、および従来の表現学習パラダイムに根ざしたトランスフォーマーベースのアーキテクチャの基本的限界である。
BriLLMは2つの重要な神経認知原理を取り入れている。(1) 静的な意味マッピング、(2) トークンは皮質領域に類似した特定のノードにマッピングされ、(2) 脳活動で観察される電気生理学的情報ダイナミクスをシミュレートする動的信号伝達である。
このアーキテクチャは、自然なマルチモーダル互換性、ノードレベルでの完全なモデル解釈可能性、コンテキスト長の独立スケーリング、言語タスクのための脳に似た情報処理のグローバルなシミュレーションなど、複数の革新的なブレークスルーを可能にする。
最初の1-2BパラメーターモデルではGPT-1レベルの生成能力を再現できたが、安定なパープレキシティの低下を示した。
拡張性解析により,4万の語彙を処理可能な100-200Bパラメータバリアントの実現可能性が確認された。
このパラダイムは、直接意味マッピングの単純さと、脳の実験的に検証されたAGIアーキテクチャーによって強化されている。
BriLLMは、現在のアプローチの基本的限界に対処する、AGIの進歩のための、生物学的に基盤付けられた新しいフレームワークを確立している。
関連論文リスト
- Synergy: End-to-end Concept Model [0.0]
エンド・ツー・エンドの方法で異なるレベルの抽象化をブリッジする言語モデルであるSynergyを紹介します。
我々のモデルは自然にバイトをトークン化することを学び、バイトレベルのByte Pairトークンよりも少ない概念トークンを生成します。
論文 参考訳(メタデータ) (2025-07-17T04:01:28Z) - Token Communication in the Era of Large Models: An Information Bottleneck-Based Approach [55.861432910722186]
UniToComは、トークンを処理と無線通信の両方の基本的な単位として扱う統一トークン通信パラダイムである。
本稿では,重要な情報を保持するトークンの学習を容易にする生成情報ボトルネック(GenIB)の原理を提案する。
我々は、離散トークンと連続トークンの両方の処理を統合するために、因果変換器に基づくマルチモーダル言語モデル(MLLM)を受信機に採用する。
論文 参考訳(メタデータ) (2025-07-02T14:03:01Z) - Neural Networks as Universal Finite-State Machines: A Constructive Feedforward Simulation Framework for NFAs [0.0]
この研究は、象徴的オートマトン理論と現代のニューラルアーキテクチャの新たなブリッジを確立する。
フィードフォワードネットワークは正確で、解釈可能で、訓練可能なシンボル計算を行うことができることを示す。
論文 参考訳(メタデータ) (2025-05-30T01:18:35Z) - Reviving Any-Subset Autoregressive Models with Principled Parallel Sampling and Speculative Decoding [55.2480439325792]
任意の順序言語モデルでは、正しい関節分布からトークンを並列にサンプリングする方法がオープンな問題である。
我々は,任意のサブセット自動回帰モデル (AS-ARM) という,異なるモデルのクラスが解を持っていることを発見した。
我々は,AS-ARMがベンチマークタスクを埋め込んだ200M未満のパラメータモデル間で最先端の性能を実現し,コード生成における50倍のモデルの性能とほぼ一致していることを示す。
論文 参考訳(メタデータ) (2025-04-29T06:33:13Z) - Token-Shuffle: Towards High-Resolution Image Generation with Autoregressive Models [92.18057318458528]
Token-ShuffleはTransformerにおける画像トークンの数を減らす新しい方法である。
我々の戦略は、事前訓練されたテキストエンコーダを必要とせず、MLLMが超高解像度画像合成をサポートできるようにする。
GenAIベンチマークでは、2.7Bモデルがハードプロンプトで0.77点、ARモデルLlamaGenが0.18点、拡散モデルLDMが0.15点である。
論文 参考訳(メタデータ) (2025-04-24T17:59:56Z) - Bigram Subnetworks: Mapping to Next Tokens in Transformer Language Models [4.7936447642295406]
Transformer言語モデルでは、アクティベーションベクトルは現在のトークン埋め込みから次のトークン予測へと変換される。
この変換の最小形態を分離するために、ビッグラム予測を行う言語モデルワークを同定し、現在のトークンのみに基づいて次のトークン予測を行う。
Bigramworksはトレーニング済みの言語モデルで10Bパラメータまで見つけることができ、モデルパラメータの0.2%未満である場合でも、モデルパフォーマンスにとって非常に重要です。
論文 参考訳(メタデータ) (2025-04-21T22:41:00Z) - Recurrent Diffusion for Large-Scale Parameter Generation [52.98888368644455]
リカレント拡散(Recurrent Diffusion for Large Scale Generation)は、単一のGPU上で最大数億のニューラルネットワークパラメータを生成する新しいフレームワークである。
RPGはAI生成において重要な進歩であり、以前は不可能と考えられていたスケールでの効率的な重量生成を可能にする可能性がある。
論文 参考訳(メタデータ) (2025-01-20T16:46:26Z) - Concept Bottleneck Language Models For protein design [33.62561223760279]
概念ボトルネックタンパク質言語モデル(CB-pLM)を紹介する。
CB-pLMは、各ニューロンが解釈可能な概念に対応する層を持つ生成マスク言語モデルである。
CB-pLMを2400万から30億のパラメータに拡張し、これらをトレーニングされた最大の概念ボトルネックモデルとし、生成言語モデリングを初めて実現しました。
論文 参考訳(メタデータ) (2024-11-09T06:46:16Z) - Interpretable Language Modeling via Induction-head Ngram Models [74.26720927767398]
誘導ヘッドngramモデル(Induction-Gram)を提案する。
この誘導ヘッドは、カスタムのニューラル類似度メトリックを使用して、モデルの入力コンテキストを効率的に検索し、潜在的に次の単語補完を行う。
実験により,本手法はベースラインの解釈可能なモデルよりも,単語の次単語予測を大幅に改善することが示された。
論文 参考訳(メタデータ) (2024-10-31T12:33:26Z) - Promises and Pitfalls of Generative Masked Language Modeling: Theoretical Framework and Practical Guidelines [74.42485647685272]
GMLM(Generative Masked Language Models)に焦点を当てる。
我々は,マルコフ連鎖の入力として使用されるマスキングにより,データ分布の条件付き確率に適合するモデルを訓練し,モデルからサンプルを抽出する。
我々は,T5モデルを並列デコーディングに適応させ,最小品質の犠牲を伴って機械翻訳における2~3倍の高速化を実現した。
論文 参考訳(メタデータ) (2024-07-22T18:00:00Z) - This Probably Looks Exactly Like That: An Invertible Prototypical Network [8.957872207471311]
プロトタイプニューラルネットワークは、概念アノテーションなしで人間に理解可能な機械学習を実現するための、エキサイティングな方法だ。
原型的説明に対する間接的解釈関数への依存は、プロトタイプの情報的力に厳しい制限を課すことが判明した。
本稿では,ガウス混合モデルを用いて正規化フローを構成することにより,ProtoFlowと呼ばれるモデルを提案する。
論文 参考訳(メタデータ) (2024-07-16T21:51:02Z) - Power Failure Cascade Prediction using Graph Neural Networks [4.667031410586657]
本稿では,初期コンテンジェンシーと電力注入値が与えられたカスケードプロセスの各世代におけるグリッド状態を予測するフローフリーモデルを提案する。
提案モデルにより,計算時間をほぼ2桁に短縮できることを示す。
論文 参考訳(メタデータ) (2024-04-24T18:45:50Z) - Unveiling Multilinguality in Transformer Models: Exploring Language
Specificity in Feed-Forward Networks [12.7259425362286]
多言語モデルがキー値記憶をどのように活用するかを検討する。
2つ以上の言語で訓練された自己回帰モデルに対して、すべてのニューロン(層全体)は全ての言語に等しく反応するのか?
その結果,ネットワークの入力や出力に最も近い層は,中間層に比べて言語固有の振る舞いを示す傾向があることがわかった。
論文 参考訳(メタデータ) (2023-10-24T06:45:00Z) - Towards A Unified View of Sparse Feed-Forward Network in Pretraining
Large Language Model [58.9100867327305]
大規模かつスパースなフィードフォワード層(S-FFN)は、大きな言語モデルをテキスト処理するためにTransformersモデルのサイズをスケールアップするのに有効であることが証明されている。
我々は,S-FFNの2つの主要な設計選択,すなわち,メモリブロックのサイズとメモリブロックの選択方法について分析した。
言語モデルの事前学習において,より単純な選択方法である textbftextttAvg-K が得られた。
論文 参考訳(メタデータ) (2023-05-23T12:28:37Z) - Residual Learning of Neural Text Generation with $n$-gram Language Model [41.26228768053928]
我々は、$n$-gramのLMと実データ分布の間の残差に適合するニューラルネットワークLMを学習する。
当社のアプローチは、一般的なスタンドアロンニューラルネットワークモデルに対して、継続的にパフォーマンスの向上を実現しています。
論文 参考訳(メタデータ) (2022-10-26T02:42:53Z) - Augmenting Interpretable Models with LLMs during Training [73.40079895413861]
本稿では,効率よく解釈可能なモデルを構築するための拡張解釈モデル (Aug-imodels) を提案する。
Aug-imodel は、フィッティング時に LLM を使用するが、推論中に使用せず、完全な透明性を実現する。
自然言語処理におけるAug-imodelのインスタンス化について検討する: (i) Aug-GAM, (ii) Aug-Tree, (ii) LLM機能拡張による決定木の拡大。
論文 参考訳(メタデータ) (2022-09-23T18:36:01Z) - Hidden Schema Networks [3.4123736336071864]
帰納的バイアスや明示的関係構造を通じて、新しいニューラルネットワークモデルを導入する。
このモデルは文を記号列にエンコードするが、これは偏りのあるランダム・ウォーカーが訪れたノードに対応する。
このモデルにより,ランダムなトークン列のデータセットから基底構造グラフを抽出できることを示す。
論文 参考訳(メタデータ) (2022-07-08T09:26:19Z) - GN-Transformer: Fusing Sequence and Graph Representation for Improved
Code Summarization [0.0]
融合シーケンスとグラフのモダリティに基づいてエンドツーエンドの学習を行う新しい手法であるGN-Transformerを提案する。
提案手法は,2つのコード要約データセットと3つの自動コード要約メトリクスにおいて,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-11-17T02:51:37Z) - Lattice-BERT: Leveraging Multi-Granularity Representations in Chinese
Pre-trained Language Models [62.41139712595334]
中国語のための新しい事前学習パラダイムであるLattice-BERTを提案する。
文中の文字や単語から格子グラフを構築し、これらすべてのテキスト単位をトランスフォーマーに供給します。
本モデルが12層設定で平均1.5%の増加をもたらすことを示した。
論文 参考訳(メタデータ) (2021-04-15T02:36:49Z) - Read Like Humans: Autonomous, Bidirectional and Iterative Language
Modeling for Scene Text Recognition [80.446770909975]
言語知識はシーンのテキスト認識に非常に有益である。
エンドツーエンドのディープネットワークで言語規則を効果的にモデル化する方法はまだ研究の課題です。
シーンテキスト認識のための自律的双方向反復型ABINetを提案する。
論文 参考訳(メタデータ) (2021-03-11T06:47:45Z) - Multi-timescale Representation Learning in LSTM Language Models [69.98840820213937]
言語モデルは、非常に短いから非常に長いまでの時間スケールで単語間の統計的依存関係を捉えなければならない。
我々は、長期記憶言語モデルにおけるメモリゲーティング機構が、パワーローの減衰を捉えることができるかの理論を導出した。
実験の結果,自然言語で学習したLSTM言語モデルは,この理論分布を近似することがわかった。
論文 参考訳(メタデータ) (2020-09-27T02:13:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。