論文の概要: MEMENTO: Teaching LLMs to Manage Their Own Context
- arxiv url: http://arxiv.org/abs/2604.09852v1
- Date: Fri, 10 Apr 2026 19:30:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:15.709498
- Title: MEMENTO: Teaching LLMs to Manage Their Own Context
- Title(参考訳): Memento: LLMに独自のコンテキスト管理を教える
- Authors: Vasilis Kontonis, Yuchen Zeng, Shivam Garg, Lingjiao Chen, Hao Tang, Ziyan Wang, Ahmed Awadallah, Eric Horvitz, John Langford, Dimitris Papailiopoulos,
- Abstract要約: 推論モデルは、自身の中間状態を圧縮または整理するメカニズムのない、長い、構造化されていないストリームを思い浮かべる。
MementO: ブロックに推論を分割し、各ブロックをメメントに圧縮し、メメントにのみ参加して推論を行う方法をモデルに教える手法を紹介する。
OpenMementos上の2段階のSFTレシピは、異なるモデルファミリやスケールで有効であることを示す。
- 参考スコア(独自算出の注目度): 50.3558738319336
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reasoning models think in long, unstructured streams with no mechanism for compressing or organizing their own intermediate state. We introduce MEMENTO: a method that teaches models to segment reasoning into blocks, compress each block into a memento, i.e., a dense state summary, and reason forward by attending only to mementos, reducing context, KV cache, and compute. To train MEMENTO models, we release OpenMementos, a public dataset of 228K reasoning traces derived from OpenThoughts-v3, segmented and annotated with intermediate summaries. We show that a two-stage SFT recipe on OpenMementos is effective across different model families (Qwen3, Phi-4, Olmo 3) and scales (8B--32B parameters). Trained models maintain strong accuracy on math, science, and coding benchmarks while achieving ${\sim}2.5\times$ peak KV cache reduction. We extend vLLM to support our inference method, achieving ${\sim}1.75\times$ throughput improvement while also enabling us to perform RL and further improve accuracy. Finally, we identify a dual information stream: information from each reasoning block is carried both by the memento text and by the corresponding KV states, which retain implicit information from the original block. Removing this channel drops accuracy by 15\,pp on AIME24.
- Abstract(参考訳): 推論モデルは、自身の中間状態を圧縮または整理するメカニズムのない、長い、構造化されていないストリームを思い浮かべる。
MementO は,メメントースにのみ参加し,コンテキストの削減,KVキャッシュ,計算を行うことで,各ブロックをブロックに分割し,メメントーに圧縮する手法である。
MementOモデルをトレーニングするために、OpenThoughts-v3から派生した228Kの推論トレースの公開データセットであるOpenMementosをリリースした。
OpenMementos上の2段階のSFTレシピは、異なるモデルファミリー(Qwen3, Phi-4, Olmo3)とスケール(8B-32Bパラメータ)で有効であることを示す。
トレーニングされたモデルは、数学、科学、およびコーディングベンチマークにおいて強力な精度を維持しながら、${\sim}2.5\times$ peak KVキャッシュ削減を達成する。
我々はvLLMを拡張して推論方法をサポートし、${\sim}1.75\times$スループットの改善を実現し、RLの実行と精度の向上を可能にした。
最後に,2つの情報ストリームを識別する。各推論ブロックからの情報は,メメントテキストと対応するKV状態の両方で搬送され,元のブロックからの暗黙の情報を保持する。
このチャンネルを除去すると、AIME24で15\,ppの精度が低下する。
関連論文リスト
- Probing to Refine: Reinforcement Distillation of LLMs via Explanatory Inversion [84.20493238687187]
単純な模倣を超えて、より深い概念的理解を具現化する新しい枠組みを導入する。
underlinetextitFirst, to address pattern memorization, Explanatory Inversion (EI) generated target explanatory probes'
underlinetextitSecondは、一般化を改善するために、Explainatory GRPO (texttEXGRPO) は、新しいダイアログ構造ユーティリティーボーナスを用いた強化学習アルゴリズムを使用する。
論文 参考訳(メタデータ) (2026-02-26T23:01:46Z) - Going Down Memory Lane: Scaling Tokens for Video Stream Understanding with Dynamic KV-Cache Memory [50.30283773196725]
既存のアプローチは、時間とともにフレームレベルの詳細を蓄積するためにキーバリューキャッシングに依存していますが、フレーム毎に限られた数のトークンを使用します。
より詳細な時間的理解と推論を可能にするためにトークン予算のスケーリングを提案する。
論文 参考訳(メタデータ) (2026-02-20T18:59:50Z) - d3LLM: Ultra-Fast Diffusion LLM using Pseudo-Trajectory Distillation [31.922313594074925]
拡散大言語モデル (dLLM) は自己回帰 (AR) LLM 以上の機能を提供する。
現行の手法では、通常はコインの片面のみに焦点を合わせ、効率性や性能を目標としている。
本稿では,d3LLM (Pseudo-Distilled Diffusion Large Language Model) を提案する。
論文 参考訳(メタデータ) (2026-01-12T14:25:36Z) - Striking the Right Balance between Compute and Copy: Improving LLM Inferencing Under Speculative Decoding [12.302511322703852]
本稿では,Balancing Memory and Compute (BMC) と呼ばれる新しいKVキャッシュ割り当て機構を提案する。
BMCは、rイテレーション毎に、r冗長な行を持つKVテンソルを割り当て、それらのイテレーションのオーバーヘッドをコピーすることなく、インプレース更新を可能にする。
BMCは、最先端の推論サーバvLLMとDeepSpeedで最大1.36倍と2.29倍のスループットを達成している。
論文 参考訳(メタデータ) (2025-11-15T04:49:23Z) - S2-Attention: Hardware-Aware Context Sharding Among Attention Heads [49.1454481007861]
スパースアテンションは、コンテキスト内のトークンのサブセットに選択的に出席する。
スパース・アテンションが今日の大規模言語モデルでモデルの品質を維持することができるかどうかは不明だ。
本稿では,Sparsely-Sharded(S2) attention, a Triton library that provide kernel optimization for sparse attention for sparse attention to customizable per-head and per-context-range levels。
論文 参考訳(メタデータ) (2024-07-25T00:27:07Z) - EVEREST: Efficient Masked Video Autoencoder by Removing Redundant Spatiotemporal Tokens [57.354304637367555]
ビデオ表現学習のための驚くほど効率的なMVAアプローチであるEVERESTを提案する。
リッチなモーション特徴を含むトークンを発見し、事前トレーニングと微調整の両方の間、非形式的なトークンを破棄する。
提案手法は,MVAの計算とメモリ要求を大幅に低減する。
論文 参考訳(メタデータ) (2022-11-19T09:57:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。