論文の概要: MemoSight: Unifying Context Compression and Multi Token Prediction for Reasoning Acceleration
- arxiv url: http://arxiv.org/abs/2604.14889v1
- Date: Thu, 16 Apr 2026 11:29:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 21:29:31.870091
- Title: MemoSight: Unifying Context Compression and Multi Token Prediction for Reasoning Acceleration
- Title(参考訳): MemoSight:Reasoning Accelerationのためのコンテキスト圧縮とマルチトークン予測の統合
- Authors: Xinyu Liu, Xin Liu, Bo Jin, Runsong Zhao, Pengcheng Huang, Junhao Ruan, Bei Li, Chunyang Xiao, Tong Xiao, Jingbo Zhu,
- Abstract要約: CoT推論(Chain-of-Thought reasoning)は、LCMが難解な推論問題を解くことを可能にする。
CoT推論は、スピードとメモリ使用量の観点からスケーリングの問題に直面します。
我々は,コンテキスト圧縮とマルチトークン予測を統合した統合フレームワークであるMemoSight (Memory-Foresight-based reasoning)を提案する。
- 参考スコア(独自算出の注目度): 43.3663361769054
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Chain-of-thought (CoT) reasoning enables LLMs to solve challenging reasoning problems, as KV cache grows linearly with the number of generated tokens, CoT reasoning faces scaling issues in terms of speed and memory usage. In this work, we propose MemoSight (Memory-Foresight-based reasoning), a unified framework that integrates both context compression and multi-token prediction to mitigate the efficiency issues while maintaining CoT reasoning performance. Our framework adopts the same minimalist design for both context compression and multi-token prediction via special tokens and their corresponding position layout tailored to each token type. Comprehensive experiments on four reasoning benchmarks demonstrate that MemoSight reduces the KV cache footprint by up to 66% and accelerates inference by 1.56x, while outperforming existing CoT compression methods.
- Abstract(参考訳): チェーン・オブ・シークレット(CoT)推論では,KVキャッシュが生成トークン数とともに線形に増大するにつれて,LCMが困難な推論問題を解くことができるが,CoT推論は速度とメモリ使用量の観点からスケーリングの問題に直面している。
本研究では,コンテキスト圧縮とマルチトークン予測を統合し,CoT推論性能を維持しながら効率問題を緩和する統合フレームワークであるMemoSight (Memory-Foresight-based reasoning)を提案する。
本フレームワークでは,コンテクスト圧縮と特殊トークンによるマルチトークン予測と,それぞれのトークンタイプに合わせて対応する位置レイアウトの両方に,同じミニマリスト設計を採用する。
4つの推論ベンチマークに関する総合的な実験により、MemoSightはKVキャッシュのフットプリントを最大66%削減し、推論を1.56倍加速し、既存のCoT圧縮手法より優れていることを示した。
関連論文リスト
- Towards Efficient Large Language Reasoning Models via Extreme-Ratio Chain-of-Thought Compression [55.63153956934198]
Chain-of-Thought (CoT)推論はLarge Language Models (LLMs)の推論能力をうまく向上させる
既存のCoT圧縮法は、しばしば高い圧縮比で論理的忠実度が著しく低下する。
本稿では,Extra-CoTと呼ばれる新しいEXTreme-RAtio Chain-of-Thought Compressionフレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-09T06:57:15Z) - CtrlCoT: Dual-Granularity Chain-of-Thought Compression for Controllable Reasoning [29.057579417751203]
チェーン・オブ・シント(CoT)はLCM推論を改善するが、冗長なトレースによって高いレイテンシとメモリコストを発生させる。
セマンティック抽象化とトークンレベルのプルーニングを調和させるデュアルグラニュラリティCoT圧縮フレームワークである textbfCtrlCoT を提案する。
論文 参考訳(メタデータ) (2026-01-28T10:38:49Z) - TokenSqueeze: Performance-Preserving Compression for Reasoning LLMs [57.217593337454026]
TokenSqueezeは、パフォーマンスを保ち、自己生成データにのみ依存しながら推論パスを凝縮する新しいLong2Shortメソッドである。
TokenSqueeze は MATH500 ベンチマークの精度を維持しながらトークンの使用量を削減できることを示す。
論文 参考訳(メタデータ) (2025-11-17T10:38:56Z) - ThinKV: Thought-Adaptive KV Cache Compression for Efficient Reasoning Models [13.284627477293322]
ThinKVは思考適応型KVキャッシュ圧縮フレームワークである。
これはハイブリッド量子化消去戦略を適用し、思考重要度によるトークンの精度を割り当てる。
DeepSeek-R1-Distill、GPT-OSS、NVIDIA AceReasonの実験では、ThinKVは元のKVキャッシュの5%未満の精度でほぼロスレスな精度を実現している。
論文 参考訳(メタデータ) (2025-10-01T04:09:02Z) - Think Silently, Think Fast: Dynamic Latent Compression of LLM Reasoning Chains [24.805434364781306]
潜在空間における推論過程を動的に圧縮する新しいフレームワークであるCompressed Latent Reasoning (CoLaR)を紹介する。
CoLaRは、同等の圧縮比で遅延ベースのベースライン法よりも14.1%高い精度を達成する。
我々のRL強化CoLaRは、最大5.4%の性能向上を示しながら、遅延推論チェーン長を82.8%劇的に減少させる。
論文 参考訳(メタデータ) (2025-05-22T11:40:26Z) - LightThinker: Thinking Step-by-Step Compression [74.34839026338342]
提案するLightThinkerは,大規模言語モデルを用いて推論中の中間的思考を動的に圧縮する手法である。
人間の認知プロセスにインスパイアされたLightThinkerは、思考ステップをコンパクトな表現に圧縮し、元の推論チェーンを捨てる。
実験によると、LightThinkerは競合精度を維持しながら、ピークメモリ使用量と推論時間を短縮する。
論文 参考訳(メタデータ) (2025-02-21T16:57:22Z) - ChunkKV: Semantic-Preserving KV Cache Compression for Efficient Long-Context LLM Inference [61.412894960600205]
大きな言語モデル(LLM)は、長いテキストを処理する際に大きなGPUメモリを必要とする。
ChunkKVは、セマンティックチャンクを基本的な圧縮単位として扱うことで、KVキャッシュ圧縮を再定義する。
結果: ChunkKVは最先端の手法を最大8.7%精度で上回る。
論文 参考訳(メタデータ) (2025-02-01T03:49:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。