論文の概要: BriLLM: Brain-inspired Large Language Model
- arxiv url: http://arxiv.org/abs/2503.11299v1
- Date: Fri, 14 Mar 2025 11:08:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 13:04:36.486524
- Title: BriLLM: Brain-inspired Large Language Model
- Title(参考訳): BriLLM: 脳にインスパイアされた大規模言語モデル
- Authors: Hai Zhao, Hongqiu Wu, Dongjie Yang, Anni Zou, Jiale Hong,
- Abstract要約: BriLLMは非トランスフォーマー、非GPT、非伝統的な機械学習入出力制御型生成言語モデルである。
4000トークン,32次元ノード幅,16token長列予測機能,GPT-1に匹敵する言語モデル予測性能を備えた,中国語の最初の BriLLM バージョンをリリースする。
- 参考スコア(独自算出の注目度): 51.849486186292914
- License:
- Abstract: This paper reports the first brain-inspired large language model (BriLLM). This is a non-Transformer, non-GPT, non-traditional machine learning input-output controlled generative language model. The model is based on the Signal Fully-connected flowing (SiFu) definition on the directed graph in terms of the neural network, and has the interpretability of all nodes on the graph of the whole model, instead of the traditional machine learning model that only has limited interpretability at the input and output ends. In the language model scenario, the token is defined as a node in the graph. A randomly shaped or user-defined signal flow flows between nodes on the principle of "least resistance" along paths. The next token or node to be predicted or generated is the target of the signal flow. As a language model, BriLLM theoretically supports infinitely long $n$-gram models when the model size is independent of the input and predicted length of the model. The model's working signal flow provides the possibility of recall activation and innate multi-modal support similar to the cognitive patterns of the human brain. At present, we released the first BriLLM version in Chinese, with 4000 tokens, 32-dimensional node width, 16-token long sequence prediction ability, and language model prediction performance comparable to GPT-1. More computing power will help us explore the infinite possibilities depicted above.
- Abstract(参考訳): 本稿では,脳に触発された最初の大言語モデル(BriLLM)について報告する。
これは非トランスフォーマー、非GPT、非伝統的な機械学習入出力制御型生成言語モデルである。
このモデルは、ニューラルネットワークの観点からは有向グラフ上のSiFu(Signal Fully- connected flowing)の定義に基づいており、入力と出力の端でしか解釈できない従来の機械学習モデルの代わりに、モデル全体のグラフ上のすべてのノードの解釈可能性を持つ。
言語モデルでは、トークンはグラフのノードとして定義される。
ランダムな形状またはユーザ定義の信号フローは、経路に沿って「最小抵抗」の原理に基づいてノード間を流れる。
次に予測または生成されるトークンまたはノードは、信号フローのターゲットである。
言語モデルとして、BriLLMはモデルのサイズが入力長と予測長に依存しない場合、理論的には無限に長い$n$-gramモデルをサポートする。
モデルの動作信号の流れは、人間の脳の認知パターンと同様、リコール活性化と自然的マルチモーダルサポートの可能性を提供する。
現在,中国初の BriLLM バージョンを公開しており,4000 個のトークン,32次元ノード幅,16-token長列予測機能,GPT-1 に匹敵する言語モデル予測性能を備えている。
コンピューティングのパワーは、上述した無限の可能性を探求するのに役立ちます。
関連論文リスト
- Language Models Can Predict Their Own Behavior [28.80639362933004]
入力トークンの内部表現だけでは、次のトークンだけでなく、出力シーケンス全体に対する最終的な振る舞いを正確に予測できることがよく示されます。
この能力を活用して、内部状態のプローブを学習して、早期警告(および終了)システムを作成します。
具体的には、探査機がLMの振る舞いを確実に見積もることができれば、システムはトークンを全く生成せず、代わりに推定された振る舞いを返す。
論文 参考訳(メタデータ) (2025-02-18T23:13:16Z) - Interpretable Language Modeling via Induction-head Ngram Models [74.26720927767398]
誘導ヘッドngramモデル(Induction-Gram)を提案する。
この誘導ヘッドは、カスタムのニューラル類似度メトリックを使用して、モデルの入力コンテキストを効率的に検索し、潜在的に次の単語補完を行う。
実験により,本手法はベースラインの解釈可能なモデルよりも,単語の次単語予測を大幅に改善することが示された。
論文 参考訳(メタデータ) (2024-10-31T12:33:26Z) - Promises and Pitfalls of Generative Masked Language Modeling: Theoretical Framework and Practical Guidelines [74.42485647685272]
GMLM(Generative Masked Language Models)に焦点を当てる。
我々は,マルコフ連鎖の入力として使用されるマスキングにより,データ分布の条件付き確率に適合するモデルを訓練し,モデルからサンプルを抽出する。
我々は,T5モデルを並列デコーディングに適応させ,最小品質の犠牲を伴って機械翻訳における2~3倍の高速化を実現した。
論文 参考訳(メタデータ) (2024-07-22T18:00:00Z) - This Probably Looks Exactly Like That: An Invertible Prototypical Network [8.957872207471311]
プロトタイプニューラルネットワークは、概念アノテーションなしで人間に理解可能な機械学習を実現するための、エキサイティングな方法だ。
原型的説明に対する間接的解釈関数への依存は、プロトタイプの情報的力に厳しい制限を課すことが判明した。
本稿では,ガウス混合モデルを用いて正規化フローを構成することにより,ProtoFlowと呼ばれるモデルを提案する。
論文 参考訳(メタデータ) (2024-07-16T21:51:02Z) - Power Failure Cascade Prediction using Graph Neural Networks [4.667031410586657]
本稿では,初期コンテンジェンシーと電力注入値が与えられたカスケードプロセスの各世代におけるグリッド状態を予測するフローフリーモデルを提案する。
提案モデルにより,計算時間をほぼ2桁に短縮できることを示す。
論文 参考訳(メタデータ) (2024-04-24T18:45:50Z) - Unveiling Multilinguality in Transformer Models: Exploring Language
Specificity in Feed-Forward Networks [12.7259425362286]
多言語モデルがキー値記憶をどのように活用するかを検討する。
2つ以上の言語で訓練された自己回帰モデルに対して、すべてのニューロン(層全体)は全ての言語に等しく反応するのか?
その結果,ネットワークの入力や出力に最も近い層は,中間層に比べて言語固有の振る舞いを示す傾向があることがわかった。
論文 参考訳(メタデータ) (2023-10-24T06:45:00Z) - Residual Learning of Neural Text Generation with $n$-gram Language Model [41.26228768053928]
我々は、$n$-gramのLMと実データ分布の間の残差に適合するニューラルネットワークLMを学習する。
当社のアプローチは、一般的なスタンドアロンニューラルネットワークモデルに対して、継続的にパフォーマンスの向上を実現しています。
論文 参考訳(メタデータ) (2022-10-26T02:42:53Z) - Lattice-BERT: Leveraging Multi-Granularity Representations in Chinese
Pre-trained Language Models [62.41139712595334]
中国語のための新しい事前学習パラダイムであるLattice-BERTを提案する。
文中の文字や単語から格子グラフを構築し、これらすべてのテキスト単位をトランスフォーマーに供給します。
本モデルが12層設定で平均1.5%の増加をもたらすことを示した。
論文 参考訳(メタデータ) (2021-04-15T02:36:49Z) - Read Like Humans: Autonomous, Bidirectional and Iterative Language
Modeling for Scene Text Recognition [80.446770909975]
言語知識はシーンのテキスト認識に非常に有益である。
エンドツーエンドのディープネットワークで言語規則を効果的にモデル化する方法はまだ研究の課題です。
シーンテキスト認識のための自律的双方向反復型ABINetを提案する。
論文 参考訳(メタデータ) (2021-03-11T06:47:45Z) - Multi-timescale Representation Learning in LSTM Language Models [69.98840820213937]
言語モデルは、非常に短いから非常に長いまでの時間スケールで単語間の統計的依存関係を捉えなければならない。
我々は、長期記憶言語モデルにおけるメモリゲーティング機構が、パワーローの減衰を捉えることができるかの理論を導出した。
実験の結果,自然言語で学習したLSTM言語モデルは,この理論分布を近似することがわかった。
論文 参考訳(メタデータ) (2020-09-27T02:13:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。