論文の概要: MemBoost: A Memory-Boosted Framework for Cost-Aware LLM Inference
- arxiv url: http://arxiv.org/abs/2603.26557v1
- Date: Fri, 27 Mar 2026 16:16:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-30 21:49:48.586688
- Title: MemBoost: A Memory-Boosted Framework for Cost-Aware LLM Inference
- Title(参考訳): MemBoost: コストを意識したLLM推論のためのメモリブーストフレームワーク
- Authors: Joris Köster, Zixuan Liu, Siavash Khajavi, Zizhan Zheng,
- Abstract要約: 大規模言語モデル(LLM)は、現実世界のサービスにおいて強力なパフォーマンスを提供するが、高い推論コストをもたらす。
MemBoostはメモリブートされたLLMサービスフレームワークで、軽量モデルで以前生成された回答を再利用することができる。
- 参考スコア(独自算出の注目度): 5.7579997337758035
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large Language Models (LLMs) deliver strong performance but incur high inference cost in real-world services, especially under workloads with repeated or near-duplicate queries across users and sessions. In this work, we propose MemBoost, a memory-boosted LLM serving framework that enables a lightweight model to reuse previously generated answers and retrieve relevant supporting information for cheap inference, while selectively escalating difficult or uncertain queries to a stronger model. Unlike standard retrieval-augmented generation, which primarily grounds a single response, MemBoost is designed for interactive settings by supporting answer reuse, continual memory growth, and cost-aware routing. Experiments across multiple models under simulated workloads show that MemBoost substantially reduces expensive large-model invocations and overall inference cost, while maintaining high answer quality comparable to the strong model baseline.
- Abstract(参考訳): 大規模言語モデル(LLM)は、特にユーザとセッションをまたいだ、あるいはほぼ重複したクエリを伴うワークロードにおいて、実世界のサービスにおいて、強力なパフォーマンスを提供するが、高い推論コストをもたらす。
本稿では,メモリブート方式のLCMサービスフレームワークであるMemBoostを提案する。このフレームワークにより,より強力なモデルに対して,難解なクエリや不確実なクエリを選択的にエスカレートしつつ,軽量モデルで事前生成した回答を再利用し,適切なサポート情報を安価な推論のために取得することができる。
MemBoostは、単一の応答を基盤とする標準的な検索拡張生成とは異なり、回答の再利用、連続的なメモリ成長、コスト対応ルーティングをサポートすることで、インタラクティブな設定のために設計されている。
シミュレーションワークロード下での複数のモデルに対する実験によると、MemBoostは、強力なモデルベースラインに匹敵する高い応答品質を維持しながら、高価な大モデル呼び出しと全体的な推論コストを大幅に削減する。
関連論文リスト
- MemSifter: Offloading LLM Memory Retrieval via Outcome-Driven Proxy Reasoning [78.46301394559903]
大きな言語モデル(LLM)は、長期化タスクにますます使われています。
現在の手法はコストと精度のトレードオフに直面している。
MemSifterは、メモリ検索プロセスを小さなプロキシモデルにオフロードする新しいフレームワークである。
論文 参考訳(メタデータ) (2026-03-03T02:57:38Z) - NextMem: Towards Latent Factual Memory for LLM-based Agents [58.35585202907478]
NextMemは、自動回帰型オートエンコーダを使用して、潜時メモリを効率的に構築する、潜時ファクトメモリフレームワークである。
大規模な実験は、NextMemが優れたパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2026-02-26T14:35:27Z) - MemR$^3$: Memory Retrieval via Reflective Reasoning for LLM Agents [29.652985606497882]
私たちは、自律的で正確で互換性のあるエージェントシステムとして、メモリ検索を構築します。
MemR$3$は、2つの中核的なメカニズムを持つ: 1) 解答品質を最適化するために検索、反映、回答のアクションを選択するルータ; 2) 解答プロセスを透過的に描画し、証拠収集プロセスを追跡するグローバルエビデンスギャップトラッカー。
論文 参考訳(メタデータ) (2025-12-23T10:49:42Z) - Memory-R1: Enhancing Large Language Model Agents to Manage and Utilize Memories via Reinforcement Learning [89.55738101744657]
大規模言語モデル(LLM)は、幅広いNLPタスクで印象的な機能を示しているが、基本的にはステートレスである。
本稿では,LLMに外部メモリを積極的に管理・活用する機能を備えた強化学習フレームワークであるMemory-R1を提案する。
論文 参考訳(メタデータ) (2025-08-27T12:26:55Z) - From Single to Multi-Granularity: Toward Long-Term Memory Association and Selection of Conversational Agents [79.87304940020256]
大言語モデル(LLM)は会話エージェントで広く採用されている。
MemGASは、多粒度アソシエーション、適応選択、検索を構築することにより、メモリ統合を強化するフレームワークである。
4つの長期メモリベンチマークの実験により、MemGASは質問応答と検索タスクの両方において最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2025-05-26T06:13:07Z) - $\text{Memory}^3$: Language Modeling with Explicit Memory [22.572376536612015]
我々は、大言語モデル(LLM)に明示的なメモリ、モデルパラメータよりも安いメモリフォーマット、テキスト検索拡張生成(RAG)を装備する。
予備的な概念実証として, 2.4B LLM をゼロからトレーニングし, より大きな LLM モデルやRAG モデルよりも優れた性能を実現する。
本稿では,知識の外部化を支援するメモリ回路理論を導入し,記憶をトラクタブルにするメモリスペーサー化機構を含む新しい手法を提案する。
論文 参考訳(メタデータ) (2024-07-01T11:07:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。