論文の概要: MemoryBench: A Benchmark for Memory and Continual Learning in LLM Systems
- arxiv url: http://arxiv.org/abs/2510.17281v2
- Date: Tue, 28 Oct 2025 04:01:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 13:20:32.849778
- Title: MemoryBench: A Benchmark for Memory and Continual Learning in LLM Systems
- Title(参考訳): MemoryBench: LLMシステムにおけるメモリと継続的な学習のためのベンチマーク
- Authors: Qingyao Ai, Yichen Tang, Changyue Wang, Jianming Long, Weihang Su, Yiqun Liu,
- Abstract要約: LLMsysの継続的な学習能力を評価するために,ユーザフィードバックシミュレーションフレームワークとベンチマークを提案する。
実験により、最先端のベースラインの有効性と効率は、満足には程遠いことが示された。
- 参考スコア(独自算出の注目度): 29.473672174276743
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scaling up data, parameters, and test-time computation has been the mainstream methods to improve LLM systems (LLMsys), but their upper bounds are almost reached due to the gradual depletion of high-quality data and marginal gains obtained from larger computational resource consumption. Inspired by the abilities of human and traditional AI systems in learning from practice, constructing memory and continual learning frameworks for LLMsys has become an important and popular research direction in recent literature. Yet, existing benchmarks for LLM memory often focus on evaluating the system on homogeneous reading comprehension tasks with long-form inputs rather than testing their abilities to learn from accumulated user feedback in service time. Therefore, we propose a user feedback simulation framework and a comprehensive benchmark covering multiple domains, languages, and types of tasks to evaluate the continual learning abilities of LLMsys. Experiments show that the effectiveness and efficiency of state-of-the-art baselines are far from satisfying, and we hope this benchmark could pave the way for future studies on LLM memory and optimization algorithms.
- Abstract(参考訳): LLMシステム(LLMsys)を改善するために、データ、パラメータ、テスト時間計算をスケールアップする手法が主流となっているが、その上限は、高品質なデータの段階的な減少と、より大きな計算資源消費から得られる限界ゲインによってほぼ達成されている。
LLMsysの記憶と継続的な学習フレームワークの構築は、人間や伝統的なAIシステムの実践から学ぶ能力に触発され、近年では重要で人気のある研究方向となっている。
しかし、LLMメモリの既存のベンチマークでは、サービス時間内に蓄積されたユーザフィードバックから学習する能力をテストするのではなく、長い形式の入力で同種読解タスクのシステム評価に重点を置いていることが多い。
そこで本研究では,LLMsysの継続的な学習能力を評価するために,複数のドメイン,言語,タスクの種類を網羅したユーザフィードバックシミュレーションフレームワークと包括的なベンチマークを提案する。
実験により、最先端のベースラインの有効性と効率性は十分ではないことが示され、このベンチマークが将来のLLMメモリと最適化アルゴリズムの研究の道を開くことを願っている。
関連論文リスト
- Discrete Tokenization for Multimodal LLMs: A Comprehensive Survey [69.45421620616486]
本研究は、大規模言語モデル(LLM)用に設計された離散トークン化手法の最初の構造的分類と解析である。
古典的および近代的なパラダイムにまたがる8つの代表的なVQ変種を分類し、アルゴリズムの原理を分析し、力学を訓練し、LLMパイプラインとの統合に挑戦する。
コードブックの崩壊、不安定な勾配推定、モダリティ固有の符号化制約など、重要な課題を特定する。
論文 参考訳(メタデータ) (2025-07-21T10:52:14Z) - StoryBench: A Dynamic Benchmark for Evaluating Long-Term Memory with Multi Turns [7.60350050736492]
長期記憶は、自律的な知性を達成するために、大規模言語モデルにとって不可欠である。
既存のベンチマークでは、知識保持と動的シーケンシャル推論を評価する上で、課題に直面している。
インタラクティブなフィクションゲームに基づく新しいベンチマークフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-16T10:54:31Z) - Leveraging Metamemory Mechanisms for Enhanced Data-Free Code Generation in LLMs [44.80420740455364]
M2WFは、大規模言語モデルのワンタイムコード生成を改善するためのフレームワークである。
従来の方法とは異なり、キュレートされたデータへの依存を最小限に抑え、さまざまなコーディングシナリオに適応する。
コードとフレームワークはGitHubとHuggingFaceで公開されている。
論文 参考訳(メタデータ) (2025-01-14T07:16:43Z) - eFedLLM: Efficient LLM Inference Based on Federated Learning [1.6179784294541053]
大言語モデル(LLMs)は人工知能(AI)の転換期を告げる
本稿では, LLM推論の運用効率と費用対効果を高める効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-11-24T22:50:02Z) - A Survey of Low-bit Large Language Models: Basics, Systems, and Algorithms [34.818641985348805]
大規模言語モデル (LLM) は自然言語処理において顕著な進歩を遂げている。
しかし、高価なメモリと計算の要求は、その実践的な展開に重大な課題をもたらしている。
低ビット量子化は、モデルパラメータのビット幅を減らすことでこれらの課題を緩和するための重要なアプローチとして現れている。
論文 参考訳(メタデータ) (2024-09-25T07:38:02Z) - LLM Inference Unveiled: Survey and Roofline Model Insights [62.92811060490876]
大規模言語モデル(LLM)推論は急速に進化しており、機会と課題のユニークなブレンドを提示している。
本調査は, 研究状況を要約するだけでなく, 屋上モデルに基づく枠組みを導入することによって, 従来の文献レビューから際立っている。
このフレームワークは、ハードウェアデバイスにLSMをデプロイする際のボトルネックを特定し、実用上の問題を明確に理解する。
論文 参考訳(メタデータ) (2024-02-26T07:33:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。