論文の概要: LPC-SM: Local Predictive Coding and Sparse Memory for Long-Context Language Modeling
- arxiv url: http://arxiv.org/abs/2604.03263v1
- Date: Thu, 12 Mar 2026 21:21:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-12 18:41:08.568474
- Title: LPC-SM: Local Predictive Coding and Sparse Memory for Long-Context Language Modeling
- Title(参考訳): LPC-SM:長期言語モデリングのための局所予測符号化とスパースメモリ
- Authors: Keqin Xie,
- Abstract要約: LPC-SMは、ローカルアテンション、永続メモリ、予測補正、実行時制御を分離するハイブリッド自動回帰アーキテクチャである。
我々は、単独でではなく、より広い範囲の労働部門で組織化できることを示します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Most current long-context language models still rely on attention to handle both local interaction and long-range state, which leaves relatively little room to test alternative decompositions of sequence modeling. We propose LPC-SM, a hybrid autoregressive architecture that separates local attention, persistent memory, predictive correction, and run-time control within the same block, and we use Orthogonal Novelty Transport (ONT) to govern slow-memory writes. We evaluate a 158M-parameter model in three stages spanning base language modeling, mathematical continuation, and 4096-token continuation. Removing mHC raises the Stage-A final LM loss from 12.630 to 15.127, while adaptive sparse control improves the Stage-B final LM loss from 12.137 to 10.787 relative to a matched fixed-ratio continuation. The full route remains stable at sequence length 4096, where Stage C ends with final LM loss 11.582 and improves the delayed-identifier diagnostic from 14.396 to 12.031 in key cross-entropy. Taken together, these results show that long-context autoregressive modeling can be organized around a broader division of labor than attention alone.
- Abstract(参考訳): 現在の長いコンテキスト言語モデルの多くは、局所的な相互作用と長距離状態の両方を扱うために注意を頼りにしており、シーケンスモデリングの代替的な分解をテストする余地は比較的少ない。
我々は,ローカルアテンション,永続メモリ,予測補正,実行時制御を同一ブロック内で分離するハイブリッド自動回帰アーキテクチャであるLPC-SMを提案し,低メモリ書き込みの制御にOrthogonal Novelty Transport (ONT) を用いる。
基本言語モデリング,数学的継続,4096-token継続の3段階にまたがる158Mパラメータモデルの評価を行った。
除去mHCはステージAの最終LM損失を12.630から15.127に引き上げ、アダプティブスパース制御によりステージBの最終LM損失を12.137から10.787に改善する。
完全な経路はシークエンス4096で安定しており、ステージCは最後のLM損失11.582で終了し、キークロスエントロピーでは14.396から12.031まで遅延識別の診断を改善している。
これらの結果から,長期的文脈の自己回帰モデリングは,単独の注意よりも広い範囲の労働を軸として組織化可能であることが示唆された。
関連論文リスト
- CAWN: Continuous Acoustic Wave Networks for Autoregressive Language Modeling [46.16066322190728]
完全連続配列混合アーキテクチャであるCAWN(Continuous Acoustic Wave Network)を導入する。
CAWNは離散行列ベースの注意を代わりに、多面体複素ドメインファサーに隠された状態を計画している。
超長コンテキスト上での信号劣化を防止するため,デュアルゲート選択位相共振機構を導入する。
論文 参考訳(メタデータ) (2026-04-05T20:13:22Z) - Global Prior Meets Local Consistency: Dual-Memory Augmented Vision-Language-Action Model for Efficient Robotic Manipulation [95.89924101984566]
GPM(Global Prior Memory)とLCM(Local Consistency Memory)を備えたデュアルメモリVLAフレームワークOptimusVLAを紹介する。
GPMはガウスノイズを意味論的に類似した軌道から取得したタスクレベルの先行値に置き換える。
LCMは、時間的コヒーレンスと軌道の滑らかさを強制する学習された一貫性制約を注入する。
論文 参考訳(メタデータ) (2026-02-22T15:39:34Z) - Towards Infinite Length Extrapolation: A Unified Approach [0.0]
大規模言語モデル(LLM)は自然言語処理に革命をもたらしたが、長いシーケンスを処理する能力は、訓練中のコンテキストウィンドウサイズによって根本的に制限されている。
我々は、注目スコアを乗法変換と加法バイアスに分解するものとして、位置符号化手法を再解釈する統一的なフレームワークを使用する。
我々の理論的解析は、無限コンテキスト外挿条件を確立し、ソフトマックスハンドリングが、長距離相関、エントロピー境界性、勾配位置感度を保ちながら、非有界列に対して適切に定義されていることを保証している。
論文 参考訳(メタデータ) (2026-01-03T14:10:23Z) - Breaking the Memory Wall: Exact Analytical Differentiation via Tiled Operator-Space Evolution [3.551701030393209]
位相勾配流(PGF)は、状態空間多様体で直接操作することで正確な解析微分を計算するフレームワークである。
提案手法は,最大VRAMの94%削減,スループットの23倍のO(1)メモリの複雑性を実現する。
我々の研究は1つのGPU上で染色体スケールの感度解析を可能にし、理論的な無限コンテキストモデルと実用的なハードウェアの限界のギャップを埋める。
論文 参考訳(メタデータ) (2025-12-28T20:27:58Z) - EDIT: Early Diffusion Inference Termination for dLLMs Based on Dynamics of Training Gradients [6.736735746633275]
拡散に基づく大規模言語モデル (dLLMs) は反復的妄想を通じてトークン生成を洗練させるが、全てのステップが完了する前に答えは安定することが多い。
本稿では,トレーニング時推論に対する十分な推論安定性が検出された場合に,適応的にデノイングを停止する推論時基準であるEDITを提案する。
論文 参考訳(メタデータ) (2025-11-29T23:47:47Z) - Transition Models: Rethinking the Generative Learning Objective [68.16330673177207]
有限時間間隔で状態遷移を解析的に定義する連続時間力学方程式を導入する。
これは、任意のステップ遷移に適応する新しい生成パラダイムである遷移モデル(TiM)をもたらす。
TiMは最先端のパフォーマンスを達成し、SD3.5 (8Bパラメータ)やFLUX.1 (12Bパラメータ)といった主要なモデルを超える。
論文 参考訳(メタデータ) (2025-09-04T17:05:59Z) - Beyond Fixed: Training-Free Variable-Length Denoising for Diffusion Large Language Models [74.15250326312179]
拡散大言語モデルは効率的な並列生成とグローバルモデリングを提供する。
DLLMの主流の応用は、静的に事前定義された生成長の必要性によって妨げられている。
DAEDALは,動的適応長拡張を可能にする新しい学習自由化戦略である。
論文 参考訳(メタデータ) (2025-08-01T17:56:07Z) - Oscillatory State-Space Models [61.923849241099184]
長いシーケンスを効率的に学習するための線形状態空間モデル(LinOSS)を提案する。
高速な連想並列スキャンを用いて時間とともに統合された安定な離散化により、提案した状態空間モデルが得られる。
我々はLinOSSが普遍であること、すなわち時間変化関数間の連続および因果作用素写像を近似できることを示す。
論文 参考訳(メタデータ) (2024-10-04T22:00:13Z) - Efficiently Modeling Long Sequences with Structured State Spaces [15.456254157293836]
本稿では,基本状態空間モデルに対する新しいパラメータ化に基づく新しいシーケンスモデルを提案する。
S4は、(i)データ拡張や補助損失を伴わないシーケンシャルCIFAR-10での91%の精度を含む、より大規模な2次元ResNetと同等の、さまざまな確立されたベンチマークで強力な実験結果を得る。
論文 参考訳(メタデータ) (2021-10-31T03:32:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。