論文の概要: Clustering-driven Memory Compression for On-device Large Language Models
- arxiv url: http://arxiv.org/abs/2601.17443v1
- Date: Sat, 24 Jan 2026 12:31:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:07.736748
- Title: Clustering-driven Memory Compression for On-device Large Language Models
- Title(参考訳): オンデバイス大規模言語モデルのためのクラスタリング駆動型メモリ圧縮
- Authors: Ondrej Bohdal, Pramit Saha, Umberto Michieli, Mete Ozay, Taha Ceritli,
- Abstract要約: 文脈効率とパーソナライズ品質のバランスをとるメモリ圧縮戦略を導入する。
我々の手法は、類似性によって記憶をグループ化し、結合前にそれらをクラスタ内にマージする。
実験により,本手法はメモリトークン数を大幅に削減し,ベースライン戦略より優れていることが示された。
- 参考スコア(独自算出の注目度): 36.84681161552071
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) often rely on user-specific memories distilled from past interactions to enable personalized generation. A common practice is to concatenate these memories with the input prompt, but this approach quickly exhausts the limited context available in on-device LLMs. Compressing memories by averaging can mitigate context growth, yet it frequently harms performance due to semantic conflicts across heterogeneous memories. In this work, we introduce a clustering-based memory compression strategy that balances context efficiency and personalization quality. Our method groups memories by similarity and merges them within clusters prior to concatenation, thereby preserving coherence while reducing redundancy. Experiments demonstrate that our approach substantially lowers the number of memory tokens while outperforming baseline strategies such as naive averaging or direct concatenation. Furthermore, for a fixed context budget, clustering-driven merging yields more compact memory representations and consistently enhances generation quality.
- Abstract(参考訳): 大規模言語モデル(LLM)は、パーソナライズされた生成を可能にするために、過去のインタラクションから抽出されたユーザ固有の記憶に依存していることが多い。
一般的には、これらの記憶を入力プロンプトと結合するが、このアプローチはオンデバイスLSMで利用可能な限られたコンテキストをすぐに消し去る。
平均記憶による記憶の圧縮は、文脈成長を緩和するが、不均一な記憶間の意味的衝突により、しばしばパフォーマンスを損なう。
本研究では、コンテキスト効率とパーソナライズ品質のバランスをとるクラスタリングベースのメモリ圧縮戦略を導入する。
本手法は, 類似性によって記憶をグループ化し, 結合前にクラスタ内にマージし, 冗長性を低減しつつコヒーレンスを保ちながら保存する。
実験により,本手法はメモリトークンの数を大幅に減らし,単純平均化や直接結合といったベースライン戦略より優れていることが示された。
さらに、固定されたコンテキスト予算では、クラスタリング駆動のマージにより、よりコンパクトなメモリ表現が得られ、生成品質が一貫して向上する。
関連論文リスト
- LLM-MemCluster: Empowering Large Language Models with Dynamic Memory for Text Clustering [52.41664454251679]
大規模言語モデル(LLM)は、テキストクラスタリングを行う前例のない能力を提供することで、教師なしの学習を再構築している。
既存のメソッドは、しばしば外部モジュールを持つ複雑なパイプラインに依存し、真にエンドツーエンドのアプローチを犠牲にする。
LLM-MemClusterは,クラスタリングをLLMネイティブタスクとして再認識する新しいフレームワークである。
論文 参考訳(メタデータ) (2025-11-19T13:22:08Z) - CCF: A Context Compression Framework for Efficient Long-Sequence Language Modeling [52.05149789178508]
CCFは、効率的な長期コンテキストモデリングを可能にするように設計された、新しいコンテキスト圧縮フレームワークである。
CCFはセグメントワイドなセマンティックアグリゲーションとキー-値メモリエンコーディングを統合し、コンパクトな表現を形成する。
複数の長文言語モデリングベンチマークによる実験結果から,CCFは高い圧縮比下での競合パープレキシティを実現することが示された。
論文 参考訳(メタデータ) (2025-09-11T07:13:49Z) - From Single to Multi-Granularity: Toward Long-Term Memory Association and Selection of Conversational Agents [79.87304940020256]
大言語モデル(LLM)は会話エージェントで広く採用されている。
MemGASは、多粒度アソシエーション、適応選択、検索を構築することにより、メモリ統合を強化するフレームワークである。
4つの長期メモリベンチマークの実験により、MemGASは質問応答と検索タスクの両方において最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2025-05-26T06:13:07Z) - Cognitive Memory in Large Language Models [8.059261857307881]
本稿では,Large Language Models (LLMs) における記憶機構について検討し,文脈に富む応答の重要性,幻覚の減少,効率の向上などを強調した。
メモリは、インプットプロンプト、短期記憶処理の即時コンテキスト、外部データベースや構造を介して実装された長期記憶に対応して、インプットプロンプト、短期記憶、長期記憶に分類する。
論文 参考訳(メタデータ) (2025-04-03T09:58:19Z) - CAMELoT: Towards Large Language Models with Training-Free Consolidated
Associative Memory [38.429707659685974]
大規模言語モデル(LLM)は、メモリとランタイムのコストが高いため、長い入力シーケンスを扱うのに苦労する。
本稿では,事前学習した(凍結した)注意に基づくLCMに再学習せずに結合可能な連想記憶モジュールを提案する。
CAMELoTと呼ばれるこのアーキテクチャは、128トークンの小さなコンテキストウィンドウでも優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-02-21T01:00:17Z) - Dual Cluster Contrastive learning for Person Re-Identification [78.42770787790532]
私たちはDual Cluster Contrastive Learning(DCC)という統合クラスタコントラストフレームワークを定式化します。
DCCは、個々のメモリバンクとセントロイドクラスタメモリバンクの2種類のメモリバンクを維持している。
教師なしまたは監督されていない人物のReIDに容易に適用できる。
論文 参考訳(メタデータ) (2021-12-09T02:43:25Z) - Semantically Constrained Memory Allocation (SCMA) for Embedding in
Efficient Recommendation Systems [27.419109620575313]
ディープラーニングモデルの重要な課題は、数百万のカテゴリクラスやトークンを扱うことだ。
本稿では,記憶の共有を意味情報の重なりに比例して共有する,新しいメモリ共有埋め込み方式を提案する。
性能を維持しながらメモリフットプリントの大幅な削減を示す。
論文 参考訳(メタデータ) (2021-02-24T19:55:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。