論文の概要: A Single-Layer Model Can Do Language Modeling
- arxiv url: http://arxiv.org/abs/2605.10643v1
- Date: Mon, 11 May 2026 14:31:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.89895
- Title: A Single-Layer Model Can Do Language Modeling
- Title(参考訳): 単一層モデルで言語モデリングができる
- Authors: Zanmin Wang,
- Abstract要約: 私たちは、その形が言語モデリングにどこまで達するかを尋ねます。
本研究では,各ステップ毎に1つの状態ベクトルを1つの再帰ブロックで再帰するグラウンドド予測ネットワーク(GPN)を提案する。
130Mパラメータにおいて、1層GPN+Mは、12層トランスフォーマー++の13%(16.05)、10層GPNの18%(15.34)の範囲で、FineWeb-Eduパープレキシティ18.06に達する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern language models scale depth by stacking layers, each holding its own state - a per-layer KV cache in transformers, a per-layer matrix in Mamba, Gated DeltaNet (GDN), RWKV, and xLSTM. Biological systems lean heavily on recurrence rather than on stacking. We ask how far that shape can go on language modeling. We propose Grounded Prediction Networks (GPN): one state vector revisited at every step through a single recurrent block - one FFN, one shared matrix memory. At 130M parameters, a 1-layer GPN+M reaches FineWeb-Edu perplexity 18.06, within 13% of a 12-layer Transformer++ (16.05) and 18% of a 10-layer GDN (15.34); a 2-layer variant closes the gap to 6%/11%. We do not match the deep baselines. Because the working context is a single vector, we can directly inspect its geometry: a persistent default-token direction, a content-bearing horizon of tens of tokens, and memory heads that split spontaneously into fast and slow retention pools.
- Abstract(参考訳): トランスフォーマーの層ごとのKVキャッシュ、Mambaの層ごとのマトリックス、Gated DeltaNet(GDN)、RWKV、xLSTMである。
生物学的システムは積み重ねよりも再発に大きく依存する。
私たちは、その形が言語モデリングにどこまで達するかを尋ねます。
1つの状態ベクトルを1つの繰り返しブロック(1つのFFN、1つの共有行列メモリ)を通して各ステップで再検討する。
130Mパラメータにおいて、1層GPN+Mは、12層トランスフォーマー++の13%(16.05)、10層GDNの18%(15.34)の範囲でFineWeb-Eduパープレキシティ18.06に達する。
私たちはその深い基準線に合わない。
動作コンテキストは単一のベクトルであるため、その幾何を直接検査することができる: 永続的なデフォルトトークン方向、数十のトークンのコンテンツを含む水平線、そして、自発的に高速で遅い保持プールに分割するメモリヘッド。
関連論文リスト
- Graph Memory Transformer (GMT) [0.0]
Graph Memory Transformer (GMT)は、学習された有向遷移行列で接続されたセントロイドのバンク上にトークン表現をルーティングする。
ベースv7モデルは安定してトレーニングし、セントロイドの使用、遷移構造、ソース・ツー・ターゲット運動を公開する。
結果は最先端のクレームではなく、グラフ経由のメモリナビゲーションで高密度なイントラトーケン変換を置き換えることの可視性と構造的解釈性をサポートする。
論文 参考訳(メタデータ) (2026-04-26T20:09:25Z) - Ouroboros: Dynamic Weight Generation for Recursive Transformers via Input-Conditioned LoRA Modulation [0.0]
Ouroborosは、コンパクトなコントローラハイパーネットワークを再帰変換ブロックにアタッチするシステムである。
コントローラは現在の隠れ状態を観察し、ステップごとの対角変調ベクトルを生成し、凍ったSVD-d LoRAベースに適用する。
Qwen2.5-3BはPrelude/Recurrent/Codaアーキテクチャに分割され、Ouroborosは修正されていない17層ベースラインのトレーニング損失を43.4%削減した。
完全なシステムでは、9.2Mのトレーニング可能なパラメータ(コントローラ、ゲート、ステップごとのノルム)しか追加されていないが、同等の大きさの静的LORAを1.44ロスで上回っている。
論文 参考訳(メタデータ) (2026-04-02T13:52:32Z) - Privacy-Aware Split Inference with Speculative Decoding for Large Language Models over Wide-Area Networks [0.0]
本稿では、信頼性のあるローカルGPUとクラウドGPUのトランスフォーマーを分割する、プライバシーに配慮した大規模言語モデル(LLM)の実用的なシステムを提案する。
我々のシステムは、高速広帯域ネットワーク(WAN)上での自己回帰LDM復号化の独特な課題に対処する。
システムは4.9GBのローカルVRAMと7Bのスループットしか持たない大型モデルに一般化される。
論文 参考訳(メタデータ) (2026-02-18T14:13:08Z) - MVGGT: Multimodal Visual Geometry Grounded Transformer for Multiview 3D Referring Expression Segmentation [59.75554954111619]
マルチビュー3D参照表現(MV-3DRES)を導入し、モデルがシーン構造を復元し、参照対象をスパースなマルチビュー画像から直接セグメント化する必要がある。
本稿では,言語情報をスパースビュー幾何学的推論に組み込む,効率的なエンドツーエンドフレームワークであるMultimodal Visual Geometry Grounded Transformer (MVGGT)を提案する。
実験により、MVGGTは最初の強力なベースラインを確立し、高精度かつ高速な推論を達成し、既存の選択肢よりも優れていることが示された。
論文 参考訳(メタデータ) (2026-01-11T11:44:07Z) - Attention Is Not What You Need [0.0]
標準的なマルチヘッドアテンションはテンソルリフトの一形態と見なされる。
本稿では,グラスマンフローに基づく無注意アーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-12-22T14:29:18Z) - MoSa: Motion Generation with Scalable Autoregressive Modeling [41.75643989500953]
テキスト駆動型3次元モーション生成のための新しい階層型モーション生成フレームワークであるMoSaを紹介する。
MoSaは最先端の生成品質と効率を達成し、忠実さとスピードの両方で先行手法より優れています。
MoSaはモーション編集などの下流タスクを一般化し、追加の微調整を必要としない。
論文 参考訳(メタデータ) (2025-11-03T03:47:58Z) - Parameter-Efficient Masking Networks [61.43995077575439]
先進的なネットワーク設計は、しばしば多数の繰り返し構造を含む(例: Transformer)。
本研究では,マスクの学習により,一意値に制限された固定ランダムウェイトの代表的ポテンシャルについて検討する。
これはモデル圧縮のための新しいパラダイムをもたらし、モデルサイズを減少させます。
論文 参考訳(メタデータ) (2022-10-13T03:39:03Z) - Rethinking Semantic Segmentation: A Prototype View [126.59244185849838]
学習不可能なプロトタイプをベースとした非パラメトリックセマンティックセマンティックセマンティクスモデルを提案する。
我々のフレームワークは、いくつかのデータセットに対して魅力的な結果をもたらす。
この作業が、現在のデファクトセマンティックセグメンテーションモデル設計を再考することを期待しています。
論文 参考訳(メタデータ) (2022-03-28T21:15:32Z) - Compressing 1D Time-Channel Separable Convolutions using Sparse Random
Ternary Matrices [65.4388266814055]
1次元時間チャネル分離可能な畳み込みの1x1-畳み込みを、定数でスパースな乱数三元行列で-1,0,+1$の重みで置き換える。
Google Speech Commands v1のコマンド認識のために、最新の精度を同じネットワークサイズで97.21%$から97.41%$に改善します。
librispeech上での音声認識では、トレーニングすべき重みの数は半分になり、浮動小数点ベースラインの単語誤り率の約1%を犠牲にします。
論文 参考訳(メタデータ) (2021-03-31T15:09:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。