論文の概要: BriLLM: Brain-inspired Large Language Model
- arxiv url: http://arxiv.org/abs/2503.11299v2
- Date: Mon, 07 Apr 2025 11:09:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 16:00:11.13227
- Title: BriLLM: Brain-inspired Large Language Model
- Title(参考訳): BriLLM: 脳にインスパイアされた大規模言語モデル
- Authors: Hai Zhao, Hongqiu Wu, Dongjie Yang, Anni Zou, Jiale Hong,
- Abstract要約: BriLLMは非トランスフォーマー、非GPT、非伝統的な機械学習入出力制御型生成言語モデルである。
4000トークン,32次元ノード幅,16token長列予測機能,GPT-1に匹敵する言語モデル予測性能を備えた,中国語の最初の BriLLM バージョンをリリースする。
- 参考スコア(独自算出の注目度): 51.849486186292914
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper reports the first brain-inspired large language model (BriLLM). This is a non-Transformer, non-GPT, non-traditional machine learning input-output controlled generative language model. The model is based on the Signal Fully-connected flowing (SiFu) definition on the directed graph in terms of the neural network, and has the interpretability of all nodes on the graph of the whole model, instead of the traditional machine learning model that only has limited interpretability at the input and output ends. In the language model scenario, the token is defined as a node in the graph. A randomly shaped or user-defined signal flow flows between nodes on the principle of "least resistance" along paths. The next token or node to be predicted or generated is the target of the signal flow. As a language model, BriLLM theoretically supports infinitely long $n$-gram models when the model size is independent of the input and predicted length of the model. The model's working signal flow provides the possibility of recall activation and innate multi-modal support similar to the cognitive patterns of the human brain. At present, we released the first BriLLM version in Chinese, with 4000 tokens, 32-dimensional node width, 16-token long sequence prediction ability, and language model prediction performance comparable to GPT-1. More computing power will help us explore the infinite possibilities depicted above.
- Abstract(参考訳): 本稿では,脳に触発された最初の大言語モデル(BriLLM)について報告する。
これは非トランスフォーマー、非GPT、非伝統的な機械学習入出力制御型生成言語モデルである。
このモデルは、ニューラルネットワークの観点からは有向グラフ上のSiFu(Signal Fully- connected flowing)の定義に基づいており、入力と出力の端でしか解釈できない従来の機械学習モデルの代わりに、モデル全体のグラフ上のすべてのノードの解釈可能性を持つ。
言語モデルでは、トークンはグラフのノードとして定義される。
ランダムな形状またはユーザ定義の信号フローは、経路に沿って「最小抵抗」の原理に基づいてノード間を流れる。
次に予測または生成されるトークンまたはノードは、信号フローのターゲットである。
言語モデルとして、BriLLMはモデルのサイズが入力長と予測長に依存しない場合、理論的には無限に長い$n$-gramモデルをサポートする。
モデルの動作信号の流れは、人間の脳の認知パターンと同様、リコール活性化と自然的マルチモーダルサポートの可能性を提供する。
現在,中国初の BriLLM バージョンを公開しており,4000 個のトークン,32次元ノード幅,16-token長列予測機能,GPT-1 に匹敵する言語モデル予測性能を備えている。
コンピューティングのパワーは、上述した無限の可能性を探求するのに役立ちます。
関連論文リスト
- Bigram Subnetworks: Mapping to Next Tokens in Transformer Language Models [4.7936447642295406]
Transformer言語モデルでは、アクティベーションベクトルは現在のトークン埋め込みから次のトークン予測へと変換される。
この変換の最小形態を分離するために、ビッグラム予測を行う言語モデルワークを同定し、現在のトークンのみに基づいて次のトークン予測を行う。
Bigramworksはトレーニング済みの言語モデルで10Bパラメータまで見つけることができ、モデルパラメータの0.2%未満である場合でも、モデルパフォーマンスにとって非常に重要です。
論文 参考訳(メタデータ) (2025-04-21T22:41:00Z) - Interpretable Language Modeling via Induction-head Ngram Models [74.26720927767398]
誘導ヘッドngramモデル(Induction-Gram)を提案する。
この誘導ヘッドは、カスタムのニューラル類似度メトリックを使用して、モデルの入力コンテキストを効率的に検索し、潜在的に次の単語補完を行う。
実験により,本手法はベースラインの解釈可能なモデルよりも,単語の次単語予測を大幅に改善することが示された。
論文 参考訳(メタデータ) (2024-10-31T12:33:26Z) - Promises and Pitfalls of Generative Masked Language Modeling: Theoretical Framework and Practical Guidelines [74.42485647685272]
GMLM(Generative Masked Language Models)に焦点を当てる。
我々は,マルコフ連鎖の入力として使用されるマスキングにより,データ分布の条件付き確率に適合するモデルを訓練し,モデルからサンプルを抽出する。
我々は,T5モデルを並列デコーディングに適応させ,最小品質の犠牲を伴って機械翻訳における2~3倍の高速化を実現した。
論文 参考訳(メタデータ) (2024-07-22T18:00:00Z) - This Probably Looks Exactly Like That: An Invertible Prototypical Network [8.957872207471311]
プロトタイプニューラルネットワークは、概念アノテーションなしで人間に理解可能な機械学習を実現するための、エキサイティングな方法だ。
原型的説明に対する間接的解釈関数への依存は、プロトタイプの情報的力に厳しい制限を課すことが判明した。
本稿では,ガウス混合モデルを用いて正規化フローを構成することにより,ProtoFlowと呼ばれるモデルを提案する。
論文 参考訳(メタデータ) (2024-07-16T21:51:02Z) - Power Failure Cascade Prediction using Graph Neural Networks [4.667031410586657]
本稿では,初期コンテンジェンシーと電力注入値が与えられたカスケードプロセスの各世代におけるグリッド状態を予測するフローフリーモデルを提案する。
提案モデルにより,計算時間をほぼ2桁に短縮できることを示す。
論文 参考訳(メタデータ) (2024-04-24T18:45:50Z) - Unveiling Multilinguality in Transformer Models: Exploring Language
Specificity in Feed-Forward Networks [12.7259425362286]
多言語モデルがキー値記憶をどのように活用するかを検討する。
2つ以上の言語で訓練された自己回帰モデルに対して、すべてのニューロン(層全体)は全ての言語に等しく反応するのか?
その結果,ネットワークの入力や出力に最も近い層は,中間層に比べて言語固有の振る舞いを示す傾向があることがわかった。
論文 参考訳(メタデータ) (2023-10-24T06:45:00Z) - Residual Learning of Neural Text Generation with $n$-gram Language Model [41.26228768053928]
我々は、$n$-gramのLMと実データ分布の間の残差に適合するニューラルネットワークLMを学習する。
当社のアプローチは、一般的なスタンドアロンニューラルネットワークモデルに対して、継続的にパフォーマンスの向上を実現しています。
論文 参考訳(メタデータ) (2022-10-26T02:42:53Z) - Augmenting Interpretable Models with LLMs during Training [73.40079895413861]
本稿では,効率よく解釈可能なモデルを構築するための拡張解釈モデル (Aug-imodels) を提案する。
Aug-imodel は、フィッティング時に LLM を使用するが、推論中に使用せず、完全な透明性を実現する。
自然言語処理におけるAug-imodelのインスタンス化について検討する: (i) Aug-GAM, (ii) Aug-Tree, (ii) LLM機能拡張による決定木の拡大。
論文 参考訳(メタデータ) (2022-09-23T18:36:01Z) - Hidden Schema Networks [3.4123736336071864]
帰納的バイアスや明示的関係構造を通じて、新しいニューラルネットワークモデルを導入する。
このモデルは文を記号列にエンコードするが、これは偏りのあるランダム・ウォーカーが訪れたノードに対応する。
このモデルにより,ランダムなトークン列のデータセットから基底構造グラフを抽出できることを示す。
論文 参考訳(メタデータ) (2022-07-08T09:26:19Z) - Lattice-BERT: Leveraging Multi-Granularity Representations in Chinese
Pre-trained Language Models [62.41139712595334]
中国語のための新しい事前学習パラダイムであるLattice-BERTを提案する。
文中の文字や単語から格子グラフを構築し、これらすべてのテキスト単位をトランスフォーマーに供給します。
本モデルが12層設定で平均1.5%の増加をもたらすことを示した。
論文 参考訳(メタデータ) (2021-04-15T02:36:49Z) - Read Like Humans: Autonomous, Bidirectional and Iterative Language
Modeling for Scene Text Recognition [80.446770909975]
言語知識はシーンのテキスト認識に非常に有益である。
エンドツーエンドのディープネットワークで言語規則を効果的にモデル化する方法はまだ研究の課題です。
シーンテキスト認識のための自律的双方向反復型ABINetを提案する。
論文 参考訳(メタデータ) (2021-03-11T06:47:45Z) - Multi-timescale Representation Learning in LSTM Language Models [69.98840820213937]
言語モデルは、非常に短いから非常に長いまでの時間スケールで単語間の統計的依存関係を捉えなければならない。
我々は、長期記憶言語モデルにおけるメモリゲーティング機構が、パワーローの減衰を捉えることができるかの理論を導出した。
実験の結果,自然言語で学習したLSTM言語モデルは,この理論分布を近似することがわかった。
論文 参考訳(メタデータ) (2020-09-27T02:13:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。