論文の概要: Structured Token Retention and Computational Memory Paths in Large Language Models
- arxiv url: http://arxiv.org/abs/2502.03102v1
- Date: Wed, 05 Feb 2025 11:59:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-06 14:27:40.914043
- Title: Structured Token Retention and Computational Memory Paths in Large Language Models
- Title(参考訳): 大規模言語モデルにおける構造化トークン保持と計算記憶経路
- Authors: Jonathan Delena, Augustin Moreau, Dominic Ravensdale, Frederick Chatterton,
- Abstract要約: 本稿では,文脈的重要性に基づいてトークンの永続化を動的に調整する確率的選択フレームワークを提案する。
階層的なメモリ割り当てによって拡張され、トークン埋め込みの構造化された再配置によって保持効率を向上する。
STRとCMPのオープンソースモデルへの統合は、構造化メモリ保持手法の適応性を示している。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Memory retention mechanisms play a central role in determining the efficiency of computational architectures designed for processing extended sequences. Conventional methods for token management often impose fixed retention thresholds or rely on uniform attention weight distributions, leading to inefficient memory utilization and premature information loss in extended sequence modeling. Structured Token Retention (STR) introduces a probabilistic selection framework that dynamically adjusts token persistence based on contextual significance, ensuring that computational resources are allocated to semantically relevant elements. Computational Memory Paths (CMP) extend this framework through hierarchical memory allocation, refining retention efficiency through structured reallocation of token embeddings. Comparative assessments against baseline models demonstrate that STR and CMP improve token survival rates across long input sequences while reducing cumulative error propagation across processing layers. Experimental results further indicate reductions in computational overhead, improving inference speed without degrading contextual coherence. Token distribution analyses reveal that structured memory allocation prevents excessive redundancy in attention weight calculations, optimizing information retrieval efficiency in large-scale generative architectures. The integration of STR and CMP into an open-source model illustrates the adaptability of structured memory retention methodologies, highlighting their applicability in generative text processing, long-context comprehension, and scalable sequence modeling.
- Abstract(参考訳): メモリ保持機構は、拡張シーケンスを処理するために設計された計算アーキテクチャの効率を決定する上で中心的な役割を果たす。
トークン管理の従来の手法では、固定保持閾値を課したり、均一な注意重み分布に依存することが多く、拡張シーケンスモデリングにおける非効率なメモリ利用と早めの情報損失につながる。
構造化トークン保持(STR)は、文脈的重要性に基づいてトークンの永続化を動的に調整し、計算資源が意味的に関連する要素に割り当てられることを保証する確率的選択フレームワークを導入する。
Computational Memory Paths (CMP) はこのフレームワークを階層的なメモリ割り当てによって拡張し、トークン埋め込みの構造化現実配置を通じて保持効率を改善している。
ベースラインモデルとの比較評価により、STRとCMPは、処理層間の累積誤差伝搬を低減しつつ、長い入力シーケンス間のトークン生存率を改善することを示した。
実験結果はさらに計算オーバーヘッドの低減を示し、文脈コヒーレンスを劣化させることなく推論速度を向上させる。
トークン分布解析により、構造化メモリ割り当ては、注意重み計算における過剰な冗長性を防止し、大規模生成アーキテクチャにおける情報検索効率を最適化することを明らかにした。
STRとCMPのオープンソースモデルへの統合は、構造化メモリ保持手法の適応性を示し、生成テキスト処理、長文理解、スケーラブルなシーケンスモデリングにおけるそれらの適用性を強調している。
関連論文リスト
- Mathematical Formalism for Memory Compression in Selective State Space Models [0.0]
状態空間モデル(SSM)は、シーケンスデータの長距離依存性をモデル化するための強力なフレームワークとして登場した。
我々は、選択状態空間モデルにおけるメモリ圧縮を理解するための厳密な数学的枠組みを開発する。
選択型SSMは従来のRNNモデルと比較してメモリ効率と処理速度を大幅に向上することを示した。
論文 参考訳(メタデータ) (2024-10-04T05:45:48Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - Sparser is Faster and Less is More: Efficient Sparse Attention for Long-Range Transformers [58.5711048151424]
SPARSEK Attention(SPARSEK Attention)は、計算およびメモリ障害を克服するために設計された、新しいスパースアテンション機構である。
提案手法では,各クエリに対して一定数のKVペアを選択するために,スコアリングネットワークと差別化可能なトップkマスク演算子であるSPARSEKを統合する。
実験結果から,SPARSEK注意は従来のスパースアテンション法よりも優れていた。
論文 参考訳(メタデータ) (2024-06-24T15:55:59Z) - Training-Free Exponential Context Extension via Cascading KV Cache [49.608367376911694]
カスケードサブキャッシュバッファを利用して,最も関連性の高いトークンを選択的に保持する機構を導入する。
本手法は,1Mトークンのフラッシュアテンションと比較して,プリフィルステージ遅延を6.8倍削減する。
論文 参考訳(メタデータ) (2024-06-24T03:59:17Z) - Faster Learned Sparse Retrieval with Block-Max Pruning [11.080810272211906]
本稿では,学習されたスパース検索環境に出現するインデックスに適した,革新的な動的プルーニング戦略であるBlock-Max Pruning(BMP)を紹介する。
BMPは既存の動的プルーニング戦略を大幅に上回り、安全な検索コンテキストにおいて非並列効率を提供する。
論文 参考訳(メタデータ) (2024-05-02T09:26:30Z) - Structured Probabilistic Coding [28.46046583495838]
本稿では、新しい教師付き表現学習フレームワーク、すなわち構造化確率符号化(SPC)を提案する。
SPCはエンコーダのみの確率的符号化技術であり、ターゲット空間から構造化された正規化を持つ。
事前訓練された言語モデルの一般化能力を高め、言語理解を向上させることができる。
論文 参考訳(メタデータ) (2023-12-21T15:28:02Z) - Analysis of the Memorization and Generalization Capabilities of AI
Agents: Are Continual Learners Robust? [91.682459306359]
連続学習(CL)では、AIエージェントが動的環境下で非定常データストリームから学習する。
本稿では,過去の知識を維持しつつ,動的環境への堅牢な一般化を実現するための新しいCLフレームワークを提案する。
提案フレームワークの一般化と記憶性能を理論的に解析した。
論文 参考訳(メタデータ) (2023-09-18T21:00:01Z) - Memory-Efficient Differentiable Programming for Quantum Optimal Control
of Discrete Lattices [1.5012666537539614]
量子最適制御問題は通常、GRAPEのような勾配に基づくアルゴリズムによって解決される。
QOCは、メモリ要件が大きなモデルや長時間のスパンをシミュレートする障壁であることを明らかにした。
我々は、適切な再計算コストでメモリ要求を大幅に削減する、非標準微分可能プログラミングアプローチを採用している。
論文 参考訳(メタデータ) (2022-10-15T20:59:23Z) - Design Space Exploration of Dense and Sparse Mapping Schemes for RRAM
Architectures [2.788414791586367]
本稿では,高密度かつスパースなマッピング方式の利点と限界を定量化するために,拡張された設計空間探索手法を提案する。
また, 1-Transistor-1-Resistor (1T1R) に導入される典型的な非イデアルのトレードオフを定量化し, 定式化するケーススタディを提案する。
論文 参考訳(メタデータ) (2022-01-18T02:16:10Z) - Efficient Micro-Structured Weight Unification and Pruning for Neural
Network Compression [56.83861738731913]
ディープニューラルネットワーク(DNN)モデルは、特にリソース制限されたデバイスにおいて、実用的なアプリケーションに不可欠である。
既往の非構造的あるいは構造化された重量刈り法は、推論を真に加速することはほとんど不可能である。
ハードウェア互換のマイクロ構造レベルでの一般化された重み統一フレームワークを提案し,高い圧縮と加速度を実現する。
論文 参考訳(メタデータ) (2021-06-15T17:22:59Z) - Target-Embedding Autoencoders for Supervised Representation Learning [111.07204912245841]
本稿では,対象空間が高次元な純粋教師付き環境における一般化の枠組みを解析する。
我々は、教師付き予測のための目標埋め込みオートエンコーダ(TEA)の一般的なフレームワークのモチベーションと形式化を行い、特徴とターゲットの予測の両方から予測可能なように最適化された中間潜在表現を学習する。
論文 参考訳(メタデータ) (2020-01-23T02:37:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。