Fugu-MT 論文翻訳(概要): BriLLM: Brain-inspired Large Language Model

論文の概要: BriLLM: Brain-inspired Large Language Model

arxiv url: http://arxiv.org/abs/2503.11299v2
Date: Mon, 07 Apr 2025 11:09:39 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-08 16:00:11.13227
Title: BriLLM: Brain-inspired Large Language Model
Title（参考訳）: BriLLM: 脳にインスパイアされた大規模言語モデル
Authors: Hai Zhao, Hongqiu Wu, Dongjie Yang, Anni Zou, Jiale Hong,
Abstract要約: BriLLMは非トランスフォーマー、非GPT、非伝統的な機械学習入出力制御型生成言語モデルである。 4000トークン,32次元ノード幅,16token長列予測機能,GPT-1に匹敵する言語モデル予測性能を備えた,中国語の最初の BriLLM バージョンをリリースする。
参考スコア（独自算出の注目度）: 51.849486186292914
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper reports the first brain-inspired large language model (BriLLM). This is a non-Transformer, non-GPT, non-traditional machine learning input-output controlled generative language model. The model is based on the Signal Fully-connected flowing (SiFu) definition on the directed graph in terms of the neural network, and has the interpretability of all nodes on the graph of the whole model, instead of the traditional machine learning model that only has limited interpretability at the input and output ends. In the language model scenario, the token is defined as a node in the graph. A randomly shaped or user-defined signal flow flows between nodes on the principle of "least resistance" along paths. The next token or node to be predicted or generated is the target of the signal flow. As a language model, BriLLM theoretically supports infinitely long $n$-gram models when the model size is independent of the input and predicted length of the model. The model's working signal flow provides the possibility of recall activation and innate multi-modal support similar to the cognitive patterns of the human brain. At present, we released the first BriLLM version in Chinese, with 4000 tokens, 32-dimensional node width, 16-token long sequence prediction ability, and language model prediction performance comparable to GPT-1. More computing power will help us explore the infinite possibilities depicted above.
Abstract（参考訳）: 本稿では,脳に触発された最初の大言語モデル(BriLLM)について報告する。これは非トランスフォーマー、非GPT、非伝統的な機械学習入出力制御型生成言語モデルである。このモデルは、ニューラルネットワークの観点からは有向グラフ上のSiFu(Signal Fully- connected flowing)の定義に基づいており、入力と出力の端でしか解釈できない従来の機械学習モデルの代わりに、モデル全体のグラフ上のすべてのノードの解釈可能性を持つ。言語モデルでは、トークンはグラフのノードとして定義される。ランダムな形状またはユーザ定義の信号フローは、経路に沿って「最小抵抗」の原理に基づいてノード間を流れる。次に予測または生成されるトークンまたはノードは、信号フローのターゲットである。言語モデルとして、BriLLMはモデルのサイズが入力長と予測長に依存しない場合、理論的には無限に長い$n$-gramモデルをサポートする。モデルの動作信号の流れは、人間の脳の認知パターンと同様、リコール活性化と自然的マルチモーダルサポートの可能性を提供する。現在,中国初の BriLLM バージョンを公開しており,4000 個のトークン,32次元ノード幅,16-token長列予測機能,GPT-1 に匹敵する言語モデル予測性能を備えている。コンピューティングのパワーは、上述した無限の可能性を探求するのに役立ちます。

関連論文リスト

Synergy: End-to-end Concept Model [0.0]
エンド・ツー・エンドの方法で異なるレベルの抽象化をブリッジする言語モデルであるSynergyを紹介します。我々のモデルは自然にバイトをトークン化することを学び、バイトレベルのByte Pairトークンよりも少ない概念トークンを生成します。
論文参考訳（メタデータ） (2025-07-17T04:01:28Z)
Token Communication in the Era of Large Models: An Information Bottleneck-Based Approach [55.861432910722186]
UniToComは、トークンを処理と無線通信の両方の基本的な単位として扱う統一トークン通信パラダイムである。本稿では,重要な情報を保持するトークンの学習を容易にする生成情報ボトルネック(GenIB)の原理を提案する。我々は、離散トークンと連続トークンの両方の処理を統合するために、因果変換器に基づくマルチモーダル言語モデル(MLLM)を受信機に採用する。
論文参考訳（メタデータ） (2025-07-02T14:03:01Z)
Neural Networks as Universal Finite-State Machines: A Constructive Feedforward Simulation Framework for NFAs [0.0]
この研究は、象徴的オートマトン理論と現代のニューラルアーキテクチャの新たなブリッジを確立する。フィードフォワードネットワークは正確で、解釈可能で、訓練可能なシンボル計算を行うことができることを示す。
論文参考訳（メタデータ） (2025-05-30T01:18:35Z)
Reviving Any-Subset Autoregressive Models with Principled Parallel Sampling and Speculative Decoding [55.2480439325792]
任意の順序言語モデルでは、正しい関節分布からトークンを並列にサンプリングする方法がオープンな問題である。我々は,任意のサブセット自動回帰モデル (AS-ARM) という,異なるモデルのクラスが解を持っていることを発見した。我々は,AS-ARMがベンチマークタスクを埋め込んだ200M未満のパラメータモデル間で最先端の性能を実現し,コード生成における50倍のモデルの性能とほぼ一致していることを示す。
論文参考訳（メタデータ） (2025-04-29T06:33:13Z)
Token-Shuffle: Towards High-Resolution Image Generation with Autoregressive Models [92.18057318458528]
Token-ShuffleはTransformerにおける画像トークンの数を減らす新しい方法である。我々の戦略は、事前訓練されたテキストエンコーダを必要とせず、MLLMが超高解像度画像合成をサポートできるようにする。 GenAIベンチマークでは、2.7Bモデルがハードプロンプトで0.77点、ARモデルLlamaGenが0.18点、拡散モデルLDMが0.15点である。
論文参考訳（メタデータ） (2025-04-24T17:59:56Z)
Bigram Subnetworks: Mapping to Next Tokens in Transformer Language Models [4.7936447642295406]
Transformer言語モデルでは、アクティベーションベクトルは現在のトークン埋め込みから次のトークン予測へと変換される。この変換の最小形態を分離するために、ビッグラム予測を行う言語モデルワークを同定し、現在のトークンのみに基づいて次のトークン予測を行う。 Bigramworksはトレーニング済みの言語モデルで10Bパラメータまで見つけることができ、モデルパラメータの0.2%未満である場合でも、モデルパフォーマンスにとって非常に重要です。
論文参考訳（メタデータ） (2025-04-21T22:41:00Z)
Recurrent Diffusion for Large-Scale Parameter Generation [52.98888368644455]
リカレント拡散(Recurrent Diffusion for Large Scale Generation)は、単一のGPU上で最大数億のニューラルネットワークパラメータを生成する新しいフレームワークである。 RPGはAI生成において重要な進歩であり、以前は不可能と考えられていたスケールでの効率的な重量生成を可能にする可能性がある。
論文参考訳（メタデータ） (2025-01-20T16:46:26Z)
Concept Bottleneck Language Models For protein design [33.62561223760279]
概念ボトルネックタンパク質言語モデル(CB-pLM)を紹介する。 CB-pLMは、各ニューロンが解釈可能な概念に対応する層を持つ生成マスク言語モデルである。 CB-pLMを2400万から30億のパラメータに拡張し、これらをトレーニングされた最大の概念ボトルネックモデルとし、生成言語モデリングを初めて実現しました。
論文参考訳（メタデータ） (2024-11-09T06:46:16Z)
Interpretable Language Modeling via Induction-head Ngram Models [74.26720927767398]
誘導ヘッドngramモデル(Induction-Gram)を提案する。この誘導ヘッドは、カスタムのニューラル類似度メトリックを使用して、モデルの入力コンテキストを効率的に検索し、潜在的に次の単語補完を行う。実験により,本手法はベースラインの解釈可能なモデルよりも,単語の次単語予測を大幅に改善することが示された。
論文参考訳（メタデータ） (2024-10-31T12:33:26Z)
Promises and Pitfalls of Generative Masked Language Modeling: Theoretical Framework and Practical Guidelines [74.42485647685272]
GMLM(Generative Masked Language Models)に焦点を当てる。我々は,マルコフ連鎖の入力として使用されるマスキングにより,データ分布の条件付き確率に適合するモデルを訓練し,モデルからサンプルを抽出する。我々は,T5モデルを並列デコーディングに適応させ,最小品質の犠牲を伴って機械翻訳における2～3倍の高速化を実現した。
論文参考訳（メタデータ） (2024-07-22T18:00:00Z)
This Probably Looks Exactly Like That: An Invertible Prototypical Network [8.957872207471311]
プロトタイプニューラルネットワークは、概念アノテーションなしで人間に理解可能な機械学習を実現するための、エキサイティングな方法だ。原型的説明に対する間接的解釈関数への依存は、プロトタイプの情報的力に厳しい制限を課すことが判明した。本稿では,ガウス混合モデルを用いて正規化フローを構成することにより,ProtoFlowと呼ばれるモデルを提案する。
論文参考訳（メタデータ） (2024-07-16T21:51:02Z)
Power Failure Cascade Prediction using Graph Neural Networks [4.667031410586657]
本稿では,初期コンテンジェンシーと電力注入値が与えられたカスケードプロセスの各世代におけるグリッド状態を予測するフローフリーモデルを提案する。提案モデルにより,計算時間をほぼ2桁に短縮できることを示す。
論文参考訳（メタデータ） (2024-04-24T18:45:50Z)
Unveiling Multilinguality in Transformer Models: Exploring Language Specificity in Feed-Forward Networks [12.7259425362286]
多言語モデルがキー値記憶をどのように活用するかを検討する。 2つ以上の言語で訓練された自己回帰モデルに対して、すべてのニューロン(層全体)は全ての言語に等しく反応するのか? その結果,ネットワークの入力や出力に最も近い層は,中間層に比べて言語固有の振る舞いを示す傾向があることがわかった。
論文参考訳（メタデータ） (2023-10-24T06:45:00Z)
Towards A Unified View of Sparse Feed-Forward Network in Pretraining Large Language Model [58.9100867327305]
大規模かつスパースなフィードフォワード層(S-FFN)は、大きな言語モデルをテキスト処理するためにTransformersモデルのサイズをスケールアップするのに有効であることが証明されている。我々は,S-FFNの2つの主要な設計選択,すなわち,メモリブロックのサイズとメモリブロックの選択方法について分析した。言語モデルの事前学習において,より単純な選択方法である textbftextttAvg-K が得られた。
論文参考訳（メタデータ） (2023-05-23T12:28:37Z)
Residual Learning of Neural Text Generation with $n$-gram Language Model [41.26228768053928]
我々は、$n$-gramのLMと実データ分布の間の残差に適合するニューラルネットワークLMを学習する。当社のアプローチは、一般的なスタンドアロンニューラルネットワークモデルに対して、継続的にパフォーマンスの向上を実現しています。
論文参考訳（メタデータ） (2022-10-26T02:42:53Z)
Augmenting Interpretable Models with LLMs during Training [73.40079895413861]
本稿では,効率よく解釈可能なモデルを構築するための拡張解釈モデル (Aug-imodels) を提案する。 Aug-imodel は、フィッティング時に LLM を使用するが、推論中に使用せず、完全な透明性を実現する。自然言語処理におけるAug-imodelのインスタンス化について検討する: (i) Aug-GAM, (ii) Aug-Tree, (ii) LLM機能拡張による決定木の拡大。
論文参考訳（メタデータ） (2022-09-23T18:36:01Z)
Hidden Schema Networks [3.4123736336071864]
帰納的バイアスや明示的関係構造を通じて、新しいニューラルネットワークモデルを導入する。このモデルは文を記号列にエンコードするが、これは偏りのあるランダム・ウォーカーが訪れたノードに対応する。このモデルにより,ランダムなトークン列のデータセットから基底構造グラフを抽出できることを示す。
論文参考訳（メタデータ） (2022-07-08T09:26:19Z)
GN-Transformer: Fusing Sequence and Graph Representation for Improved Code Summarization [0.0]
融合シーケンスとグラフのモダリティに基づいてエンドツーエンドの学習を行う新しい手法であるGN-Transformerを提案する。提案手法は,2つのコード要約データセットと3つの自動コード要約メトリクスにおいて,最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2021-11-17T02:51:37Z)
Lattice-BERT: Leveraging Multi-Granularity Representations in Chinese Pre-trained Language Models [62.41139712595334]
中国語のための新しい事前学習パラダイムであるLattice-BERTを提案する。文中の文字や単語から格子グラフを構築し、これらすべてのテキスト単位をトランスフォーマーに供給します。本モデルが12層設定で平均1.5%の増加をもたらすことを示した。
論文参考訳（メタデータ） (2021-04-15T02:36:49Z)
Read Like Humans: Autonomous, Bidirectional and Iterative Language Modeling for Scene Text Recognition [80.446770909975]
言語知識はシーンのテキスト認識に非常に有益である。エンドツーエンドのディープネットワークで言語規則を効果的にモデル化する方法はまだ研究の課題です。シーンテキスト認識のための自律的双方向反復型ABINetを提案する。
論文参考訳（メタデータ） (2021-03-11T06:47:45Z)
Multi-timescale Representation Learning in LSTM Language Models [69.98840820213937]
言語モデルは、非常に短いから非常に長いまでの時間スケールで単語間の統計的依存関係を捉えなければならない。我々は、長期記憶言語モデルにおけるメモリゲーティング機構が、パワーローの減衰を捉えることができるかの理論を導出した。実験の結果,自然言語で学習したLSTM言語モデルは,この理論分布を近似することがわかった。
論文参考訳（メタデータ） (2020-09-27T02:13:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。