論文の概要: Structured Distillation for Personalized Agent Memory: 11x Token Reduction with Retrieval Preservation
- arxiv url: http://arxiv.org/abs/2603.13017v1
- Date: Fri, 13 Mar 2026 14:21:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-16 17:38:12.111257
- Title: Structured Distillation for Personalized Agent Memory: 11x Token Reduction with Retrieval Preservation
- Title(参考訳): パーソナライズされたエージェント記憶のための構造的蒸留:検索保存による11倍のトケ還元
- Authors: Sydney Lewis,
- Abstract要約: AIエージェントとの長い会話は、あるユーザにとって単純な問題を生み出します。
本研究では,個人化されたエージェントメモリについて検討する。あるユーザのエージェントとの会話履歴を,後続検索のためのコンパクトな検索層に抽出する。
6つのソフトウェアエンジニアリングプロジェクトから4,182件の会話(14,340件の交換)を適用すれば、平均交換長が371件から38件に短縮され、11倍の圧縮が得られる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Long conversations with an AI agent create a simple problem for one user: the history is useful, but carrying it verbatim is expensive. We study personalized agent memory: one user's conversation history with an agent, distilled into a compact retrieval layer for later search. Each exchange is compressed into a compound object with four fields (exchange_core, specific_context, thematic room_assignments, and regex-extracted files_touched). The searchable distilled text averages 38 tokens per exchange. Applied to 4,182 conversations (14,340 exchanges) from 6 software engineering projects, the method reduces average exchange length from 371 to 38 tokens, yielding 11x compression. We evaluate whether personalized recall survives that compression using 201 recall-oriented queries, 107 configurations spanning 5 pure and 5 cross-layer search modes, and 5 LLM graders (214,519 consensus-graded query-result pairs). The best pure distilled configuration reaches 96% of the best verbatim MRR (0.717 vs 0.745). Results are mechanism-dependent. All 20 vector search configurations remain non-significant after Bonferroni correction, while all 20 BM25 configurations degrade significantly (effect sizes |d|=0.031-0.756). The best cross-layer setup slightly exceeds the best pure verbatim baseline (MRR 0.759). Structured distillation compresses single-user agent memory without uniformly sacrificing retrieval quality. At 1/11 the context cost, thousands of exchanges fit within a single prompt while the verbatim source remains available for drill-down. We release the implementation and analysis pipeline as open-source software.
- Abstract(参考訳): AIエージェントとの長い会話は、あるユーザにとって単純な問題を生み出します。
本研究では,個人化されたエージェントメモリについて検討する。あるユーザのエージェントとの会話履歴を,後続検索のためのコンパクトな検索層に抽出する。
各交換は4つのフィールドを持つ複合オブジェクト(exchange_core、 specific_context、thematic room_assignments、regex-extracted file_touched)に圧縮される。
検索可能な蒸留テキストは、1交換あたり平均38トークンである。
6つのソフトウェアエンジニアリングプロジェクトから4,182件の会話(14,340件の交換)を適用すると、平均交換長が371件から38件に短縮され、11倍の圧縮が得られる。
パーソナライズされたリコールが201のリコール指向クエリ,5つの純粋および5つのクロスレイヤー検索モードにまたがる107のコンフィギュレーション,および5つのLLMグレーダ(214,519のコンセンサスグレード付きクエリ-リサートペア)を用いて圧縮を継続するかどうかを評価する。
最高の純蒸留構成は、最高の動詞MRR(0.717対0.745)の96%に達する。
結果はメカニズムに依存している。
ボニフェロニ補正後の20個のベクトル探索構成は全て重要ではないが、20個のBM25構成は全て大幅に劣化している(効果サイズ |d|=0.031-0.756)。
最高のクロスレイヤー構成は、最高の純動詞ベースライン(MRR 0.759)をわずかに上回る。
構造蒸留は、検索品質を均一に犠牲にすることなく、シングルユーザエージェントメモリを圧縮する。
コンテキストコストの1/11では、数千の交換が単一のプロンプトに収まる一方、冗長なソースはドリルダウンで利用可能である。
実装と分析パイプラインをオープンソースソフトウェアとしてリリースします。
関連論文リスト
- Beyond RAG for Agent Memory: Retrieval by Decoupling and Aggregation [22.803751188961865]
検索は類似性マッチングを超えて移動し、代わりに潜在コンポーネントを操作するべきだと我々は主張する。
我々は、無傷ユニットの階層を構築し、検索可能な高レベルノード組織を維持するxMemoryを提案する。
論文 参考訳(メタデータ) (2026-02-02T12:04:58Z) - Prometheus Mind: Retrofitting Memory to Frozen Language Models [0.0]
Prometheus Mindは、11個のモジュールアダプタ(530MB、7%オーバーヘッド)を使用して、凍結したQwen3-4Bにメモリを適合させる
ラベル付きデータなしで最小ペアで意味的な方向を求めるコントラスト指向探索(CDD)を開発した。
Prometheus-132 (132例)では、クリーン入力に対する94.4%の検索が達成されている。
論文 参考訳(メタデータ) (2026-01-18T20:29:07Z) - Cross-Document Topic-Aligned Chunking for Retrieval-Augmented Generation [0.0]
Cross-Document Topic-Alignedチャンキングは、コーパスレベルで知識を再構築する。
まず、文書間でトピックを特定し、各トピックにセグメントをマップし、それらを統一されたチャンクに合成する。
論文 参考訳(メタデータ) (2025-11-08T11:45:45Z) - TeaRAG: A Token-Efficient Agentic Retrieval-Augmented Generation Framework [62.66056331998838]
TeaRAGは、検索内容と推論ステップの両方を圧縮できるトークン効率のエージェントRAGフレームワークである。
報奨関数は,過剰な推論ステップをペナルティ化しながら,知識マッチング機構によって知識満足度を評価する。
論文 参考訳(メタデータ) (2025-11-07T16:08:34Z) - MemSearcher: Training LLMs to Reason, Search and Manage Memory via End-to-End Reinforcement Learning [73.27233666920618]
本稿では,メモリを反復的に保持し,現在のターンと組み合わせたエージェントワークフローであるMemSearcherを提案する。
それぞれのターンで、MemSearcherはユーザーの質問をメモリに融合させ、推論トレースを生成し、検索アクションを実行し、メモリを更新してタスクの解決に必要な情報のみを保持する。
我々は,MemSearcher Agents の推論,検索戦略,メモリ管理を協調的に最適化する,エンドツーエンドの RL フレームワークである Multi-context GRPO を紹介する。
論文 参考訳(メタデータ) (2025-11-04T18:27:39Z) - Compressing Many-Shots in In-Context Learning [61.231471139896506]
マルチショットプロンプトを圧縮することにより,ICL推論のメモリと計算効率を向上させる手法を提案する。
まず,既存のプロンプト圧縮手法がマルチショット圧縮には有効でないことを示す。
本稿では,レイヤワイド圧縮手法であるMemComを提案する。
論文 参考訳(メタデータ) (2025-10-17T16:57:42Z) - BRIEF-Pro: Universal Context Compression with Short-to-Long Synthesis for Fast and Accurate Multi-Hop Reasoning [86.4235795435618]
BRIEF-Proは、取得した文書から与えられたクエリに関する関連する証拠を簡潔な要約に蒸留する軽量圧縮機である。
幅広いシナリオで10kワードを超える拡張コンテキストの抽象的圧縮を実行するように訓練されている。
実験により、BRIEF-Proはより簡潔で関連する要約を生成し、小型で大規模でプロプライエタリな言語モデルでの性能を向上させることが示されている。
論文 参考訳(メタデータ) (2025-10-15T17:57:45Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - R1-Compress: Long Chain-of-Thought Compression via Chunk Compression and Search [61.4807238517108]
CoT(Chain-of-Thought)推論は、ステップバイステップの問題解決を可能にすることで、大きな言語モデル(LLM)を強化する。
CoTのLong-CoTへの拡張はトークン長の増加による計算オーバーヘッドを大幅に増加させる。
ローカル情報とコヒーレンスの両方を保存する2段階のチャンクレベル圧縮フレームワークであるR1-Compressを提案する。
論文 参考訳(メタデータ) (2025-05-22T16:06:59Z) - Answering Unseen Questions With Smaller Language Models Using Rationale
Generation and Dense Retrieval [9.136948771060895]
この設定でさらに改善する2つの方法を評価する。
どちらも、より大きな言語モデルによって生成された合理性と、マルチホップ密度検索システムから生成された長いコンテキストを組み合わせることに焦点を当てている。
我々の最高の推論モデルは、見当たらない評価データセットに対して、強い比較前のベースラインを大幅に改善します。
論文 参考訳(メタデータ) (2023-08-09T05:06:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。