論文の概要: Unlocking the Working Memory of Large Language Models for Latent Reasoning
- arxiv url: http://arxiv.org/abs/2605.30343v1
- Date: Thu, 28 May 2026 17:59:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:56.756189
- Title: Unlocking the Working Memory of Large Language Models for Latent Reasoning
- Title(参考訳): 遅延推論のための大規模言語モデルのワーキングメモリのロック解除
- Authors: Lukas Aichberger, Sepp Hochreiter,
- Abstract要約: Reasoning in Memory (RiM) は、自己回帰的な推論ステップをメモリブロックに置き換える遅延推論手法である。
RiMは、自己回帰的な思考の生成を避けながら、既存の潜在推論手法に適合または超越する。
- 参考スコア(独自算出の注目度): 21.924207996049407
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To improve the reasoning capabilities of large language models, test-time compute is typically scaled by generating intermediate tokens before the final answer. However, this couples reasoning to autoregressive generation and thereby conflates internal computation with external communication. In contrast, human cognition can use working memory to hold and manipulate information internally without the need to externalize intermediate thoughts. Drawing on this principle, we introduce Reasoning in Memory (RiM), a latent reasoning method that replaces the autoregressive generation of reasoning steps with memory blocks. These memory blocks are fixed sequences of special tokens that unlock the working-memory capacity of large language models. Since they are fixed rather than generated, they can be processed in a single forward pass, enabling compute-efficient latent reasoning. To operationalize these memory blocks, we employ a two-stage curriculum. First, we ground them by predicting explicit reasoning steps after each memory block. Second, we discard this step-level supervision and iteratively refine the final answer after each memory block. Our experiments on reasoning benchmarks show that, across language models of different families and sizes, RiM matches or exceeds existing latent reasoning methods while avoiding the autoregressive generation of thoughts. These results demonstrate that large language models can be trained to use working memory as an effective mechanism for latent reasoning.
- Abstract(参考訳): 大規模言語モデルの推論能力を改善するために、テストタイム計算は最終回答の前に中間トークンを生成することで、通常スケールする。
しかし、これは自己回帰生成の理由となり、内部計算と外部通信を融合させる。
対照的に、人間の認知は、中間思考の外部化を必要とせずに、作業記憶を用いて情報を内部で保持し、操作することができる。
この原理に基づいて,自己回帰的な推論ステップをメモリブロックに置き換える遅延推論手法であるReasoning in Memory (RiM)を導入する。
これらのメモリブロックは、大きな言語モデルのワーキングメモリ容量を解放する特別なトークンの固定シーケンスである。
それらは生成ではなく固定されているため、単一のフォワードパスで処理することができ、計算効率の低い推論を可能にする。
これらのメモリブロックを運用するには、2段階のカリキュラムを用いる。
まず、各メモリブロックの後に、明示的な推論ステップを予測することで、それらをグラウンド化する。
第2に、ステップレベルの監視を廃止し、各メモリブロックの後に最終回答を反復的に洗練します。
推論ベンチマーク実験により、RIMは、異なる家族や大きさの言語モデル間で、自己回帰的思考を回避しつつ、既存の潜在推論手法と一致または超えていることが示された。
これらの結果から,大規模言語モデルでは動作記憶を潜在推論の効果的なメカニズムとして用いることができることが示された。
関連論文リスト
- MemGuard: Preventing Memory Contamination in Long-Term Memory-Augmented Large Language Models [56.31411457917676]
本稿では,メモリ構築と検索において,機能的メモリ境界を保存するタイプアウェアメモリフレームワークであるMemGuardを紹介する。
幻覚と長期会話のベンチマーク全体で、MemGuardはメモリの信頼性を最大28.27%向上し、メモリトークンは以前の方法より5.8倍少ない。
論文 参考訳(メタデータ) (2026-05-27T06:04:19Z) - Evaluating Long-Term Memory for Long-Context Question Answering [100.1267054069757]
質問応答タスクにアノテートした合成長文対話のベンチマークであるLoCoMoを用いて,メモリ拡張手法の体系的評価を行う。
以上の結果から,メモリ拡張アプローチによりトークン使用率が90%以上削減され,競争精度が向上した。
論文 参考訳(メタデータ) (2025-10-27T18:03:50Z) - Pre-Storage Reasoning for Episodic Memory: Shifting Inference Burden to Memory for Personalized Dialogue [13.558061425427688]
PreMemは、複雑な推論プロセスを推論からメモリ構築に移行する新しいアプローチである。
これは、相互作用中の計算要求を減らしながら、リッチな表現を生成する。
実験では、すべてのモデルサイズで大幅にパフォーマンスが向上した。
論文 参考訳(メタデータ) (2025-09-13T15:18:08Z) - Human-like fleeting memory improves language learning but impairs reading time prediction in transformer language models [0.0]
本稿では,トランスフォーマー言語モデルを用いた実験において,言語学習におけるフラッキングメモリの利点について検討する。
フラッキングメモリは、言語学習を継続的に改善するが、意外なことに、人間の読解時間の前提に基づく予測を損なう。
論文 参考訳(メタデータ) (2025-08-07T19:17:53Z) - HMT: Hierarchical Memory Transformer for Efficient Long Context Language Processing [33.720656946186885]
Hierarchical Memory Transformer (HMT) はモデル長文処理を容易にする新しいフレームワークである。
HMTは、既存のモデルの長文処理能力を一貫して改善する。
論文 参考訳(メタデータ) (2024-05-09T19:32:49Z) - MoT: Memory-of-Thought Enables ChatGPT to Self-Improve [73.90376920653507]
我々は,注釈付きデータセットやパラメータ更新を使わずに,大規模言語モデルによる自己改善を実現するためのフレームワークであるMemory-of-Thoughtを提案する。
実験結果から,算術的推論,常識推論,事実推論,自然言語推論において,ChatGPTの能力向上に寄与することが示唆された。
論文 参考訳(メタデータ) (2023-05-09T05:25:05Z) - Lift Yourself Up: Retrieval-augmented Text Generation with Self Memory [72.36736686941671]
本稿では,検索拡張生成モデルを改善するための新しいフレームワーク,Selfmemを提案する。
Selfmemは、検索拡張ジェネレータを反復的に使用して、無制限のメモリプールを生成し、メモリセレクタを使用して、続く生成ラウンドの1つの出力をメモリとして選択する。
我々は,3つの異なるテキスト生成タスクにおける自己メモの有効性を評価する。
論文 参考訳(メタデータ) (2023-05-03T21:40:54Z) - LaMemo: Language Modeling with Look-Ahead Memory [50.6248714811912]
右側トークンへの漸進的参加により再帰記憶を向上させるLook-Ahead Memory(LaMemo)を提案する。
LaMemoは、メモリ長に比例した追加のオーバーヘッドで、双方向の注意とセグメントの再発を受け入れる。
広く使われている言語モデリングベンチマークの実験は、異なる種類のメモリを備えたベースラインよりも優れていることを示した。
論文 参考訳(メタデータ) (2022-04-15T06:11:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。