論文の概要: BudgetMem: Learning Selective Memory Policies for Cost-Efficient Long-Context Processing in Language Models
- arxiv url: http://arxiv.org/abs/2511.04919v1
- Date: Fri, 07 Nov 2025 01:49:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-10 21:00:44.642588
- Title: BudgetMem: Learning Selective Memory Policies for Cost-Efficient Long-Context Processing in Language Models
- Title(参考訳): BudgetMem: 言語モデルにおけるコスト効率のよい長期処理のための選択記憶ポリシーの学習
- Authors: Chandra Vamsi Krishna Alla, Harish Naidu Gaddam, Manohar Kommi,
- Abstract要約: BudgetMemは、すべてを記憶するのではなく、何を記憶すべきかを学ぶ、新しいメモリ拡張アーキテクチャである。
本システムでは,厳格な予算制約下での記憶にどのような価値があるかを決定するために,選択的メモリポリシーと特徴に基づくサリエンススコアを併用する。
我々の研究は、高度な言語理解能力へのアクセスを民主化し、控えめなハードウェア上で有能な長期コンテキストシステムをデプロイするための実践的な経路を提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) face significant computational and memory constraints when processing long contexts, despite growing demand for applications requiring reasoning over extensive documents, multi-session dialogues, and book length texts. While recent advances have extended context windows to 100K-1M tokens, such approaches incur prohibitive costs for resource constrained deployments. We propose BudgetMem, a novel memory augmented architecture that learns what to remember rather than remembering everything. Our system combines selective memory policies with feature based salience scoring (entity density, TF-IDF, discourse markers, position bias) to decide which information merits storage under strict budget constraints. Unlike existing retrieval augmented generation (RAG) systems that store all chunks, BudgetMem employs learned gating mechanisms coupled with BM25 sparse retrieval for efficient information access. Through comprehensive experiments on 700 question answer pairs across short (237 tokens) and long (5K-10K tokens) documents with Llama-3.2-3B-Instruct, we demonstrate that BudgetMem achieves remarkable results on long documents: only 1.0% F1 score degradation while saving 72.4% memory compared to baseline RAG. We validate our approach through budget sensitivity analysis (testing 7 budget ratios), naive baseline comparisons, and document length analysis, showing that BudgetMem's benefits increase with document length. Our work provides a practical pathway for deploying capable long context systems on modest hardware, democratizing access to advanced language understanding capabilities.
- Abstract(参考訳): 大規模言語モデル(LLM)は、膨大な文書、多セッション対話、書籍の長さのテキストの推論を必要とするアプリケーションの需要が増大しているにもかかわらず、長いコンテキストを処理する際に、計算とメモリの大幅な制約に直面している。
最近の進歩はコンテキストウィンドウを100K-1Mトークンに拡張しているが、そのようなアプローチはリソース制約されたデプロイメントの禁止コストを発生させる。
メモリ拡張アーキテクチャであるBudgetMemを提案する。
本システムでは,選択的なメモリポリシと特徴ベースのサリエンススコア(エンタリティ密度,TF-IDF,談話マーカー,位置バイアス)を組み合わせることで,厳格な予算制約下での記憶にどのような価値があるかを決定する。
すべてのチャンクを格納する既存の検索拡張生成(RAG)システムとは異なり、BudgetMemでは、学習したゲーティング機構とBM25スパース検索を併用して、効率的な情報アクセスを実現している。
Llama-3.2-3B-Instructによる700個の質問応答対(237個のトークン)と長い(5K-10K個のトークン)文書の総合的な実験を通じて、BudgetMemは、ベースラインRAGと比較して72.4%のメモリを節約しながら、長いドキュメントで顕著な結果が得られることを実証した。
BudgetMemの利点が文書長とともに増加することを示すため, 予算感度分析(予算比7件), 単純ベースライン比較, 文書長分析によるアプローチの検証を行った。
我々の研究は、高度な言語理解能力へのアクセスを民主化し、控えめなハードウェア上で有能な長期コンテキストシステムをデプロイするための実践的な経路を提供する。
関連論文リスト
- Beyond a Million Tokens: Benchmarking and Enhancing Long-Term Memory in LLMs [28.807582003957005]
本稿では,長期記憶を必要とするタスクに対する大規模言語モデル(LLM)の能力を評価するためのフレームワークを提案する。
次に、100の会話と2000の検証済みの質問からなる新しいベンチマークであるBEAMを構築します。
モデル性能を向上させるために,LLMに3つの相補的メモリシステムを備えたLIGHT-aフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-31T07:29:52Z) - Evaluating Long-Term Memory for Long-Context Question Answering [100.1267054069757]
質問応答タスクにアノテートした合成長文対話のベンチマークであるLoCoMoを用いて,メモリ拡張手法の体系的評価を行う。
以上の結果から,メモリ拡張アプローチによりトークン使用率が90%以上削減され,競争精度が向上した。
論文 参考訳(メタデータ) (2025-10-27T18:03:50Z) - SGMem: Sentence Graph Memory for Long-Term Conversational Agents [14.89396085814917]
チャンク単位内の文レベルグラフとして対話を表現するSGMem(Sentence Graph Memory)を紹介する。
SGMem は, 長期会話型質問応答において, 精度を向上し, 高いベースラインを向上することを示す。
論文 参考訳(メタデータ) (2025-09-25T14:21:44Z) - MEM1: Learning to Synergize Memory and Reasoning for Efficient Long-Horizon Agents [84.62985963113245]
我々は,長時間のマルチターンタスクに対して,エージェントが一定のメモリで動作可能な,エンドツーエンドの強化学習フレームワークMEM1を紹介する。
各ターンでMEM1は、メモリ統合と推論を共同でサポートするコンパクトな共有内部状態を更新する。
その結果,MEM1-7Bは16目的のマルチホップQAタスクにおいて,Qwen2.5-14B-Instructと比較してメモリ使用量を3.7倍削減し,3.5倍の性能向上を示す。
論文 参考訳(メタデータ) (2025-06-18T19:44:46Z) - From Single to Multi-Granularity: Toward Long-Term Memory Association and Selection of Conversational Agents [79.87304940020256]
大言語モデル(LLM)は会話エージェントで広く採用されている。
MemGASは、多粒度アソシエーション、適応選択、検索を構築することにより、メモリ統合を強化するフレームワークである。
4つの長期メモリベンチマークの実験により、MemGASは質問応答と検索タスクの両方において最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2025-05-26T06:13:07Z) - Mem0: Building Production-Ready AI Agents with Scalable Long-Term Memory [0.5584627289325719]
大規模言語モデル(LLM)は、文脈的に一貫性のある応答を生成する際、顕著な進歩を示した。
しかし、それらの固定されたコンテキストウィンドウは、長時間のマルチセッション対話に対する一貫性を維持するための根本的な課題を生じさせる。
私たちはMem0というスケーラブルなメモリ中心アーキテクチャを導入し、進行中の会話から健全な情報を動的に抽出し、統合し、取得することでこの問題に対処します。
論文 参考訳(メタデータ) (2025-04-28T01:46:35Z) - XL$^2$Bench: A Benchmark for Extremely Long Context Understanding with Long-range Dependencies [45.31042312867939]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著なパフォーマンスを示しているが、その小さなコンテキストウィンドウサイズによって制約されている。
最大200Kの入力トークンに対応するために、コンテキストウィンドウを拡張するための様々な取り組みが提案されている。
XL$2$Bench という,長距離依存によるコンテキスト理解のためのベンチマークを導入する。
論文 参考訳(メタデータ) (2024-04-08T12:29:07Z) - SCM: Enhancing Large Language Model with Self-Controlled Memory Framework [54.33686574304374]
大きな言語モデル(LLM)は、長い入力を処理できないため、重要な歴史的情報が失われる。
本稿では,LLMが長期記憶を維持し,関連する情報をリコールする能力を高めるための自己制御メモリ(SCM)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-26T07:25:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。