論文の概要: Contextual Memory Reweaving in Large Language Models Using Layered Latent State Reconstruction
- arxiv url: http://arxiv.org/abs/2502.02046v2
- Date: Tue, 25 Mar 2025 13:10:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-26 16:50:23.501881
- Title: Contextual Memory Reweaving in Large Language Models Using Layered Latent State Reconstruction
- Title(参考訳): 階層化潜在状態再構成を用いた大規模言語モデルの文脈記憶再構成
- Authors: Frederick Dillon, Gregor Halvorsen, Simon Tattershall, Magnus Rowntree, Gareth Vanderpool,
- Abstract要約: シーケンスの長さが増加するにつれて、トークン依存は低下し、一貫性と事実整合性が低下する。
異なる処理層でキャプチャされた潜伏状態の再織り直しを通じてこの問題を軽減するための構造化されたアプローチが導入された。
提案されたContextual Memory Reweavingフレームワークには、Lambed Latent State Restructationメカニズムが組み込まれている。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Memory retention challenges in deep neural architectures have ongoing limitations in the ability to process and recall extended contextual information. Token dependencies degrade as sequence length increases, leading to a decline in coherence and factual consistency across longer outputs. A structured approach is introduced to mitigate this issue through the reweaving of latent states captured at different processing layers, reinforcing token representations over extended sequences. The proposed Contextual Memory Reweaving framework incorporates a Layered Latent State Reconstruction mechanism to systematically integrate past contextual embeddings without introducing external memory modules. Experimental results demonstrate improvements in recall accuracy across a range of sequence lengths, with notable gains in the retention of rarely occurring tokens and numerical reasoning consistency. Further analysis of computational efficiency indicates that the additional processing overhead remains within acceptable thresholds, enabling scalability across different model sizes. Evaluations in long-form text generation and ambiguous query resolution highlight the capacity of memory reweaving to enhance continuity and reduce inconsistencies over extended outputs. Attention weight distributions reveal more structured allocation patterns, suggesting that reweaved latent states contribute to improved contextual awareness. The findings establish a framework for refining memory retention mechanisms in language models, addressing long-standing challenges in handling complex, multi-step reasoning tasks.
- Abstract(参考訳): ディープニューラルアーキテクチャにおけるメモリ保持の課題は、拡張されたコンテキスト情報を処理し、リコールする能力において、継続的な制限がある。
シークエンスの長さが増加するにつれて、トーケン依存は低下し、より長いアウトプットのコヒーレンスと事実整合性が低下する。
異なる処理層でキャプチャされた潜在状態の再織り直し、拡張シーケンス上でトークン表現を補強することで、この問題を軽減するための構造化されたアプローチが導入された。
提案されたContextual Memory ReweavingフレームワークにはLayered Latent State Restructionメカニズムが組み込まれており、外部メモリモジュールを導入することなく、過去のコンテキスト埋め込みを体系的に統合する。
実験結果から,稀に発生するトークンの保持と数値的推論一貫性が顕著に向上し,列長の範囲でのリコール精度の向上が示された。
計算効率のさらなる分析は、追加の処理オーバーヘッドが許容範囲内に留まることを示し、異なるモデルサイズにわたるスケーラビリティを実現する。
長文テキスト生成とあいまいなクエリ解決の評価は、連続性を高め、拡張出力に対する不整合を低減するために、メモリリウィービングの能力を強調している。
注意重み分布は、より構造化された割り当てパターンを示し、再織り込まれた潜在状態が文脈認識の改善に寄与することを示唆している。
本研究は,言語モデルにおける記憶保持機構を改良する枠組みを確立し,複雑な多段階推論タスクの処理における長年の課題に対処する。
関連論文リスト
- Exploring Synaptic Resonance in Large Language Models: A Novel Approach to Contextual Memory Integration [0.0]
新しいメカニズム、Synaptic Resonanceは、トレーニングと推論中に関連する記憶経路を動的に強化するために導入された。
オープンソースの言語モデルを用いて行った評価は、パープレキシティの低減、文脈的コヒーレンスの向上、入力雑音に対するロバスト性の向上を示す。
論文 参考訳(メタデータ) (2025-02-15T07:06:10Z) - Structured Token Retention and Computational Memory Paths in Large Language Models [0.0]
本稿では,文脈的重要性に基づいてトークンの永続化を動的に調整する確率的選択フレームワークを提案する。
階層的なメモリ割り当てによって拡張され、トークン埋め込みの構造化された再配置によって保持効率を向上する。
STRとCMPのオープンソースモデルへの統合は、構造化メモリ保持手法の適応性を示している。
論文 参考訳(メタデータ) (2025-02-05T11:59:22Z) - Contextually Structured Token Dependency Encoding for Large Language Models [0.0]
自己注意機構は動的文脈依存を捉えるが、学習した重み分布への依存は、生成配列における長距離階層構造の保存を制限する。
依存性を意識したトークンエンコーディングでは,トークン表現内にリレーショナル制約を埋め込むという,構造化されたアプローチが導入されている。
経験的評価は、多種多様な言語ベンチマークにおけるパープレキシティの低下を示し、自己回帰テキスト生成における文脈的一貫性と予測一貫性の改善を示唆している。
論文 参考訳(メタデータ) (2025-01-30T08:51:48Z) - Structured Context Recomposition for Large Language Models Using Probabilistic Layer Realignment [0.0]
本稿では,トランス層内の学習表現を動的に調整する確率的層配向戦略を提案する。
急激なトピックシフトと論理的不整合を軽減し、特にシークエンスが標準の注意窓の制約を超えるシナリオにおいて。
SCRは処理時間を適度に増加させるが、メモリオーバーヘッドは実現可能な限界内に留まり、自動回帰生成アプリケーションへの実用的なデプロイに適している。
論文 参考訳(メタデータ) (2025-01-29T12:46:42Z) - Autonomous Structural Memory Manipulation for Large Language Models Using Hierarchical Embedding Augmentation [0.0]
本研究では,マルチレベルセマンティック構造を通じてトークンの表現を再定義する手段として,階層的な埋め込み拡張を導入する。
その結果、より長い入力シーケンスに対して処理オーバーヘッドが大幅に削減され、計算効率が大幅に向上した。
トークン表現とメモリ構成を動的に調整する能力は、様々な予測不可能な入力条件下でモデルの堅牢性に寄与した。
論文 参考訳(メタデータ) (2025-01-23T22:20:36Z) - Improving Factuality with Explicit Working Memory [68.39261790277615]
大規模な言語モデルは、幻覚として知られる、事実的に不正確なコンテンツを生成することができる。
EWE(Explicit Working Memory)は、外部リソースからのリアルタイムフィードバックを受信するワーキングメモリを統合することで、長文テキスト生成における事実性を高める新しい手法である。
論文 参考訳(メタデータ) (2024-12-24T00:55:59Z) - Stable Hadamard Memory: Revitalizing Memory-Augmented Agents for Reinforcement Learning [64.93848182403116]
現在のディープラーニングメモリモデルは、部分的に観察可能で長期にわたる強化学習環境で苦労している。
本稿では,強化学習エージェントのための新しい記憶モデルであるStable Hadamard Memoryを紹介する。
我々の手法は、部分的に観測可能なベンチマークに挑戦する上で、最先端のメモリベースの手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2024-10-14T03:50:17Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - CItruS: Chunked Instruction-aware State Eviction for Long Sequence Modeling [52.404072802235234]
本稿では,下流タスクに有用な注目度を隠蔽状態の消去プロセスに統合する新しいモデリング手法であるChunked Instruction-Aware State Eviction(CItruS)を紹介する。
トレーニング不要な手法は,メモリ予算が同じ条件下で,複数の強いベースライン上での長いシーケンス理解および検索タスクにおいて,優れた性能を示す。
論文 参考訳(メタデータ) (2024-06-17T18:34:58Z) - Untangling tradeoffs between recurrence and self-attention in neural
networks [81.30894993852813]
本稿では,再帰的ネットワークにおける自己注意が勾配伝播に与える影響を公式に分析する。
長期的な依存関係を捉えようとするとき、勾配をなくすことの問題を緩和することを証明する。
本稿では,スパース自己アテンションを反復的にスケーラブルに利用するための関連性スクリーニング機構を提案する。
論文 参考訳(メタデータ) (2020-06-16T19:24:25Z) - Discrete Variational Attention Models for Language Generation [51.88612022940496]
本稿では,言語における離散性に起因する注意機構のカテゴリー分布を考慮した離散的変動注意モデルを提案する。
離散性の特質により,提案手法の訓練は後部崩壊に支障を来さない。
論文 参考訳(メタデータ) (2020-04-21T05:49:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。