論文の概要: Structured Token Retention and Computational Memory Paths in Large Language Models
- arxiv url: http://arxiv.org/abs/2502.03102v2
- Date: Tue, 25 Mar 2025 13:12:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-26 16:50:22.862119
- Title: Structured Token Retention and Computational Memory Paths in Large Language Models
- Title(参考訳): 大規模言語モデルにおける構造化トークン保持と計算記憶経路
- Authors: Jonathan Delena, Augustin Moreau, Dominic Ravensdale, Frederick Chatterton,
- Abstract要約: 本稿では,文脈的重要性に基づいてトークンの永続化を動的に調整する確率的選択フレームワークを提案する。
階層的なメモリ割り当てによって拡張され、トークン埋め込みの構造化された再配置によって保持効率を向上する。
STRとCMPのオープンソースモデルへの統合は、構造化メモリ保持手法の適応性を示している。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Memory retention mechanisms play a central role in determining the efficiency of computational architectures designed for processing extended sequences. Conventional methods for token management often impose fixed retention thresholds or rely on uniform attention weight distributions, leading to inefficient memory utilization and premature information loss in extended sequence modeling. Structured Token Retention (STR) introduces a probabilistic selection framework that dynamically adjusts token persistence based on contextual significance, ensuring that computational resources are allocated to semantically relevant elements. Computational Memory Paths (CMP) extend this framework through hierarchical memory allocation, refining retention efficiency through structured reallocation of token embeddings. Comparative assessments against baseline models demonstrate that STR and CMP improve token survival rates across long input sequences while reducing cumulative error propagation across processing layers. Experimental results further indicate reductions in computational overhead, improving inference speed without degrading contextual coherence. Token distribution analyses reveal that structured memory allocation prevents excessive redundancy in attention weight calculations, optimizing information retrieval efficiency in large-scale generative architectures. The integration of STR and CMP into an open-source model illustrates the adaptability of structured memory retention methodologies, highlighting their applicability in generative text processing, long-context comprehension, and scalable sequence modeling.
- Abstract(参考訳): メモリ保持機構は、拡張シーケンスを処理するために設計された計算アーキテクチャの効率を決定する上で中心的な役割を果たす。
トークン管理の従来の手法では、固定保持閾値を課したり、均一な注意重み分布に依存することが多く、拡張シーケンスモデリングにおける非効率なメモリ利用と早めの情報損失につながる。
構造化トークン保持(STR)は、文脈的重要性に基づいてトークンの永続化を動的に調整し、計算資源が意味的に関連する要素に割り当てられることを保証する確率的選択フレームワークを導入する。
Computational Memory Paths (CMP) はこのフレームワークを階層的なメモリ割り当てによって拡張し、トークン埋め込みの構造化現実配置を通じて保持効率を改善している。
ベースラインモデルとの比較評価により、STRとCMPは、処理層間の累積誤差伝搬を低減しつつ、長い入力シーケンス間のトークン生存率を改善することを示した。
実験結果はさらに計算オーバーヘッドの低減を示し、文脈コヒーレンスを劣化させることなく推論速度を向上させる。
トークン分布解析により、構造化メモリ割り当ては、注意重み計算における過剰な冗長性を防止し、大規模生成アーキテクチャにおける情報検索効率を最適化することを明らかにした。
STRとCMPのオープンソースモデルへの統合は、構造化メモリ保持手法の適応性を示し、生成テキスト処理、長文理解、スケーラブルなシーケンスモデリングにおけるそれらの適用性を強調している。
関連論文リスト
- Structured Convergence in Large Language Model Representations via Hierarchical Latent Space Folding [0.0]
高次元潜在空間におけるトークン表現は、しばしば冗長性を示し、計算効率を制限し、モデル層全体の構造的コヒーレンスを低減する。
本稿では,学習した埋め込みにおいて,マルチスケールの組織を強制する構造的変換機構を提案する。
経験的評価は、層間の表現分散の減少を示し、より安定したパープレキシティ分布に寄与し、テキスト生成における予測信頼性を高める。
論文 参考訳(メタデータ) (2025-02-13T04:01:54Z) - Contextual Compression Encoding for Large Language Models: A Novel Framework for Multi-Layered Parameter Space Pruning [0.0]
文脈圧縮。
(CCE)はパラメータ分布を動的に再構成する多段符号化機構を導入した。
CCEは言語表現力とコヒーレンスを維持し、テキスト生成や分類タスクの精度を維持した。
論文 参考訳(メタデータ) (2025-02-12T11:44:19Z) - Contextual Memory Reweaving in Large Language Models Using Layered Latent State Reconstruction [0.0]
シーケンスの長さが増加するにつれて、トークン依存は低下し、一貫性と事実整合性が低下する。
異なる処理層でキャプチャされた潜伏状態の再織り直しを通じてこの問題を軽減するための構造化されたアプローチが導入された。
提案されたContextual Memory Reweavingフレームワークには、Lambed Latent State Restructationメカニズムが組み込まれている。
論文 参考訳(メタデータ) (2025-02-04T06:25:20Z) - Structured Context Recomposition for Large Language Models Using Probabilistic Layer Realignment [0.0]
本稿では,トランス層内の学習表現を動的に調整する確率的層配向戦略を提案する。
急激なトピックシフトと論理的不整合を軽減し、特にシークエンスが標準の注意窓の制約を超えるシナリオにおいて。
SCRは処理時間を適度に増加させるが、メモリオーバーヘッドは実現可能な限界内に留まり、自動回帰生成アプリケーションへの実用的なデプロイに適している。
論文 参考訳(メタデータ) (2025-01-29T12:46:42Z) - Autonomous Structural Memory Manipulation for Large Language Models Using Hierarchical Embedding Augmentation [0.0]
本研究では,マルチレベルセマンティック構造を通じてトークンの表現を再定義する手段として,階層的な埋め込み拡張を導入する。
その結果、より長い入力シーケンスに対して処理オーバーヘッドが大幅に削減され、計算効率が大幅に向上した。
トークン表現とメモリ構成を動的に調整する能力は、様々な予測不可能な入力条件下でモデルの堅牢性に寄与した。
論文 参考訳(メタデータ) (2025-01-23T22:20:36Z) - CSR:Achieving 1 Bit Key-Value Cache via Sparse Representation [63.65323577445951]
キャッシュスパース表現(CSR)と呼ばれる新しい手法を提案する。
CSRは、密度の高いKey-Valueキャッシュテンソルをスパースインデックスとウェイトに変換し、LLM推論中によりメモリ効率のよい表現を提供する。
我々の実験は、CSRが最先端KVキャッシュ量子化アルゴリズムに匹敵する性能を達成することを示した。
論文 参考訳(メタデータ) (2024-12-16T13:01:53Z) - Structural Entropy Guided Probabilistic Coding [52.01765333755793]
構造エントロピー誘導型確率的符号化モデルSEPCを提案する。
我々は、構造エントロピー正規化損失を提案することにより、潜在変数間の関係を最適化に組み込む。
分類タスクと回帰タスクの両方を含む12の自然言語理解タスクに対する実験結果は、SEPCの優れた性能を示す。
論文 参考訳(メタデータ) (2024-12-12T00:37:53Z) - Sparser is Faster and Less is More: Efficient Sparse Attention for Long-Range Transformers [58.5711048151424]
SPARSEK Attention(SPARSEK Attention)は、計算およびメモリ障害を克服するために設計された、新しいスパースアテンション機構である。
提案手法では,各クエリに対して一定数のKVペアを選択するために,スコアリングネットワークと差別化可能なトップkマスク演算子であるSPARSEKを統合する。
実験結果から,SPARSEK注意は従来のスパースアテンション法よりも優れていた。
論文 参考訳(メタデータ) (2024-06-24T15:55:59Z) - Training-Free Exponential Context Extension via Cascading KV Cache [49.608367376911694]
カスケードサブキャッシュバッファを利用して,最も関連性の高いトークンを選択的に保持する機構を導入する。
本手法は,1Mトークンのフラッシュアテンションと比較して,プリフィルステージ遅延を6.8倍削減する。
論文 参考訳(メタデータ) (2024-06-24T03:59:17Z) - Analysis of the Memorization and Generalization Capabilities of AI
Agents: Are Continual Learners Robust? [91.682459306359]
連続学習(CL)では、AIエージェントが動的環境下で非定常データストリームから学習する。
本稿では,過去の知識を維持しつつ,動的環境への堅牢な一般化を実現するための新しいCLフレームワークを提案する。
提案フレームワークの一般化と記憶性能を理論的に解析した。
論文 参考訳(メタデータ) (2023-09-18T21:00:01Z) - Efficient Micro-Structured Weight Unification and Pruning for Neural
Network Compression [56.83861738731913]
ディープニューラルネットワーク(DNN)モデルは、特にリソース制限されたデバイスにおいて、実用的なアプリケーションに不可欠である。
既往の非構造的あるいは構造化された重量刈り法は、推論を真に加速することはほとんど不可能である。
ハードウェア互換のマイクロ構造レベルでの一般化された重み統一フレームワークを提案し,高い圧縮と加速度を実現する。
論文 参考訳(メタデータ) (2021-06-15T17:22:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。