論文の概要: BriLLM: Brain-inspired Large Language Model
- arxiv url: http://arxiv.org/abs/2503.11299v6
- Date: Tue, 05 Aug 2025 11:19:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 15:23:33.860494
- Title: BriLLM: Brain-inspired Large Language Model
- Title(参考訳): BriLLM: 脳にインスパイアされた大規模言語モデル
- Authors: Hai Zhao, Hongqiu Wu, Dongjie Yang, Anni Zou, Jiale Hong,
- Abstract要約: BriLLMは脳にインスパイアされた大きな言語モデルであり、生成言語モデリングの基礎を再定義する。
2B と 1B のパラメータを持つ中国語と英語の BriLLM バージョンをそれぞれリリースし,GPT-1 に匹敵する性能を実現した。
- 参考スコア(独自算出の注目度): 51.849486186292914
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce BriLLM, a brain-inspired large language model that redefines the foundations of generative language modeling. Departing from Transformer architectures, GPT frameworks, and traditional input-output constrained paradigms, BriLLM is built on the Signal Fully-connected flowing (SiFu) mechanism - a directed graph-based neural network design that enables full interpretability across all nodes, in contrast to conventional models limited to input-output interpretability. In this framework, tokens are represented as graph nodes, with signal flows - either randomly initialized or user-defined - propagating along paths following a "least resistance" principle. The next token to be generated emerges as the target of this signal flow. Theoretically, BriLLM supports infinitely long n-gram modeling, with model size decoupled from input and prediction length. Its signal propagation dynamics mimic human-like cognitive patterns, enabling recall activation and inherent multi-modal compatibility. We release initial Chinese and English BriLLM versions (4000 tokens, 32-dimensional nodes, 32-token sequence prediction capacity) with sizes ~2B and ~1B parameters, respectively, achieving performance comparable to GPT-1.
- Abstract(参考訳): 生成言語モデリングの基礎を再定義する,脳にインスパイアされた大規模言語モデルである BriLLM を紹介する。
TransformerアーキテクチャやGPTフレームワーク、従来の入出力制約パラダイムとは別に、BriLLMはSignal Fully-connected Flowing (SiFu)メカニズムに基づいて構築されている。
このフレームワークでは、トークンはグラフノードとして表現され、信号フロー - ランダムに初期化されるか、あるいはユーザ定義される - は、"Last resistance"原則に従って経路に沿って伝搬する。
次のトークンは、この信号の流れのターゲットとして現れる。
理論的には、BriLLMは無限に長いn-gramモデリングをサポートし、モデルのサイズは入力と予測長から切り離されている。
その信号伝達ダイナミクスは人間のような認知パターンを模倣し、リコールアクティベーションと固有のマルチモーダル互換を可能にする。
初期中国語と英語の BriLLM バージョン (4000トークン,32次元ノード,32トークンシーケンス予測能力) をそれぞれ2B と 1B のパラメータでリリースし,GPT-1 に匹敵する性能を実現した。
関連論文リスト
- Synergy: End-to-end Concept Model [0.0]
エンド・ツー・エンドの方法で異なるレベルの抽象化をブリッジする言語モデルであるSynergyを紹介します。
我々のモデルは自然にバイトをトークン化することを学び、バイトレベルのByte Pairトークンよりも少ない概念トークンを生成します。
論文 参考訳(メタデータ) (2025-07-17T04:01:28Z) - Token Communication in the Era of Large Models: An Information Bottleneck-Based Approach [55.861432910722186]
UniToComは、トークンを処理と無線通信の両方の基本的な単位として扱う統一トークン通信パラダイムである。
本稿では,重要な情報を保持するトークンの学習を容易にする生成情報ボトルネック(GenIB)の原理を提案する。
我々は、離散トークンと連続トークンの両方の処理を統合するために、因果変換器に基づくマルチモーダル言語モデル(MLLM)を受信機に採用する。
論文 参考訳(メタデータ) (2025-07-02T14:03:01Z) - Neural Networks as Universal Finite-State Machines: A Constructive Feedforward Simulation Framework for NFAs [0.0]
この研究は、象徴的オートマトン理論と現代のニューラルアーキテクチャの新たなブリッジを確立する。
フィードフォワードネットワークは正確で、解釈可能で、訓練可能なシンボル計算を行うことができることを示す。
論文 参考訳(メタデータ) (2025-05-30T01:18:35Z) - Reviving Any-Subset Autoregressive Models with Principled Parallel Sampling and Speculative Decoding [55.2480439325792]
任意の順序言語モデルでは、正しい関節分布からトークンを並列にサンプリングする方法がオープンな問題である。
我々は,任意のサブセット自動回帰モデル (AS-ARM) という,異なるモデルのクラスが解を持っていることを発見した。
我々は,AS-ARMがベンチマークタスクを埋め込んだ200M未満のパラメータモデル間で最先端の性能を実現し,コード生成における50倍のモデルの性能とほぼ一致していることを示す。
論文 参考訳(メタデータ) (2025-04-29T06:33:13Z) - Token-Shuffle: Towards High-Resolution Image Generation with Autoregressive Models [92.18057318458528]
Token-ShuffleはTransformerにおける画像トークンの数を減らす新しい方法である。
我々の戦略は、事前訓練されたテキストエンコーダを必要とせず、MLLMが超高解像度画像合成をサポートできるようにする。
GenAIベンチマークでは、2.7Bモデルがハードプロンプトで0.77点、ARモデルLlamaGenが0.18点、拡散モデルLDMが0.15点である。
論文 参考訳(メタデータ) (2025-04-24T17:59:56Z) - Bigram Subnetworks: Mapping to Next Tokens in Transformer Language Models [4.7936447642295406]
Transformer言語モデルでは、アクティベーションベクトルは現在のトークン埋め込みから次のトークン予測へと変換される。
この変換の最小形態を分離するために、ビッグラム予測を行う言語モデルワークを同定し、現在のトークンのみに基づいて次のトークン予測を行う。
Bigramworksはトレーニング済みの言語モデルで10Bパラメータまで見つけることができ、モデルパラメータの0.2%未満である場合でも、モデルパフォーマンスにとって非常に重要です。
論文 参考訳(メタデータ) (2025-04-21T22:41:00Z) - Recurrent Diffusion for Large-Scale Parameter Generation [52.98888368644455]
リカレント拡散(Recurrent Diffusion for Large Scale Generation)は、単一のGPU上で最大数億のニューラルネットワークパラメータを生成する新しいフレームワークである。
RPGはAI生成において重要な進歩であり、以前は不可能と考えられていたスケールでの効率的な重量生成を可能にする可能性がある。
論文 参考訳(メタデータ) (2025-01-20T16:46:26Z) - Concept Bottleneck Language Models For protein design [33.62561223760279]
概念ボトルネックタンパク質言語モデル(CB-pLM)を紹介する。
CB-pLMは、各ニューロンが解釈可能な概念に対応する層を持つ生成マスク言語モデルである。
CB-pLMを2400万から30億のパラメータに拡張し、これらをトレーニングされた最大の概念ボトルネックモデルとし、生成言語モデリングを初めて実現しました。
論文 参考訳(メタデータ) (2024-11-09T06:46:16Z) - Interpretable Language Modeling via Induction-head Ngram Models [74.26720927767398]
誘導ヘッドngramモデル(Induction-Gram)を提案する。
この誘導ヘッドは、カスタムのニューラル類似度メトリックを使用して、モデルの入力コンテキストを効率的に検索し、潜在的に次の単語補完を行う。
実験により,本手法はベースラインの解釈可能なモデルよりも,単語の次単語予測を大幅に改善することが示された。
論文 参考訳(メタデータ) (2024-10-31T12:33:26Z) - Promises and Pitfalls of Generative Masked Language Modeling: Theoretical Framework and Practical Guidelines [74.42485647685272]
GMLM(Generative Masked Language Models)に焦点を当てる。
我々は,マルコフ連鎖の入力として使用されるマスキングにより,データ分布の条件付き確率に適合するモデルを訓練し,モデルからサンプルを抽出する。
我々は,T5モデルを並列デコーディングに適応させ,最小品質の犠牲を伴って機械翻訳における2~3倍の高速化を実現した。
論文 参考訳(メタデータ) (2024-07-22T18:00:00Z) - This Probably Looks Exactly Like That: An Invertible Prototypical Network [8.957872207471311]
プロトタイプニューラルネットワークは、概念アノテーションなしで人間に理解可能な機械学習を実現するための、エキサイティングな方法だ。
原型的説明に対する間接的解釈関数への依存は、プロトタイプの情報的力に厳しい制限を課すことが判明した。
本稿では,ガウス混合モデルを用いて正規化フローを構成することにより,ProtoFlowと呼ばれるモデルを提案する。
論文 参考訳(メタデータ) (2024-07-16T21:51:02Z) - Power Failure Cascade Prediction using Graph Neural Networks [4.667031410586657]
本稿では,初期コンテンジェンシーと電力注入値が与えられたカスケードプロセスの各世代におけるグリッド状態を予測するフローフリーモデルを提案する。
提案モデルにより,計算時間をほぼ2桁に短縮できることを示す。
論文 参考訳(メタデータ) (2024-04-24T18:45:50Z) - Unveiling Multilinguality in Transformer Models: Exploring Language
Specificity in Feed-Forward Networks [12.7259425362286]
多言語モデルがキー値記憶をどのように活用するかを検討する。
2つ以上の言語で訓練された自己回帰モデルに対して、すべてのニューロン(層全体)は全ての言語に等しく反応するのか?
その結果,ネットワークの入力や出力に最も近い層は,中間層に比べて言語固有の振る舞いを示す傾向があることがわかった。
論文 参考訳(メタデータ) (2023-10-24T06:45:00Z) - Towards A Unified View of Sparse Feed-Forward Network in Pretraining
Large Language Model [58.9100867327305]
大規模かつスパースなフィードフォワード層(S-FFN)は、大きな言語モデルをテキスト処理するためにTransformersモデルのサイズをスケールアップするのに有効であることが証明されている。
我々は,S-FFNの2つの主要な設計選択,すなわち,メモリブロックのサイズとメモリブロックの選択方法について分析した。
言語モデルの事前学習において,より単純な選択方法である textbftextttAvg-K が得られた。
論文 参考訳(メタデータ) (2023-05-23T12:28:37Z) - Residual Learning of Neural Text Generation with $n$-gram Language Model [41.26228768053928]
我々は、$n$-gramのLMと実データ分布の間の残差に適合するニューラルネットワークLMを学習する。
当社のアプローチは、一般的なスタンドアロンニューラルネットワークモデルに対して、継続的にパフォーマンスの向上を実現しています。
論文 参考訳(メタデータ) (2022-10-26T02:42:53Z) - Augmenting Interpretable Models with LLMs during Training [73.40079895413861]
本稿では,効率よく解釈可能なモデルを構築するための拡張解釈モデル (Aug-imodels) を提案する。
Aug-imodel は、フィッティング時に LLM を使用するが、推論中に使用せず、完全な透明性を実現する。
自然言語処理におけるAug-imodelのインスタンス化について検討する: (i) Aug-GAM, (ii) Aug-Tree, (ii) LLM機能拡張による決定木の拡大。
論文 参考訳(メタデータ) (2022-09-23T18:36:01Z) - Hidden Schema Networks [3.4123736336071864]
帰納的バイアスや明示的関係構造を通じて、新しいニューラルネットワークモデルを導入する。
このモデルは文を記号列にエンコードするが、これは偏りのあるランダム・ウォーカーが訪れたノードに対応する。
このモデルにより,ランダムなトークン列のデータセットから基底構造グラフを抽出できることを示す。
論文 参考訳(メタデータ) (2022-07-08T09:26:19Z) - GN-Transformer: Fusing Sequence and Graph Representation for Improved
Code Summarization [0.0]
融合シーケンスとグラフのモダリティに基づいてエンドツーエンドの学習を行う新しい手法であるGN-Transformerを提案する。
提案手法は,2つのコード要約データセットと3つの自動コード要約メトリクスにおいて,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-11-17T02:51:37Z) - Lattice-BERT: Leveraging Multi-Granularity Representations in Chinese
Pre-trained Language Models [62.41139712595334]
中国語のための新しい事前学習パラダイムであるLattice-BERTを提案する。
文中の文字や単語から格子グラフを構築し、これらすべてのテキスト単位をトランスフォーマーに供給します。
本モデルが12層設定で平均1.5%の増加をもたらすことを示した。
論文 参考訳(メタデータ) (2021-04-15T02:36:49Z) - Read Like Humans: Autonomous, Bidirectional and Iterative Language
Modeling for Scene Text Recognition [80.446770909975]
言語知識はシーンのテキスト認識に非常に有益である。
エンドツーエンドのディープネットワークで言語規則を効果的にモデル化する方法はまだ研究の課題です。
シーンテキスト認識のための自律的双方向反復型ABINetを提案する。
論文 参考訳(メタデータ) (2021-03-11T06:47:45Z) - Multi-timescale Representation Learning in LSTM Language Models [69.98840820213937]
言語モデルは、非常に短いから非常に長いまでの時間スケールで単語間の統計的依存関係を捉えなければならない。
我々は、長期記憶言語モデルにおけるメモリゲーティング機構が、パワーローの減衰を捉えることができるかの理論を導出した。
実験の結果,自然言語で学習したLSTM言語モデルは,この理論分布を近似することがわかった。
論文 参考訳(メタデータ) (2020-09-27T02:13:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。