Fugu-MT 論文翻訳(概要): How Memory Management Impacts LLM Agents: An Empirical Study of Experience-Following Behavior

論文の概要: How Memory Management Impacts LLM Agents: An Empirical Study of Experience-Following Behavior

arxiv url: http://arxiv.org/abs/2505.16067v1
Date: Wed, 21 May 2025 22:35:01 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-23 17:12:47.939721
Title: How Memory Management Impacts LLM Agents: An Empirical Study of Experience-Following Behavior
Title（参考訳）: 記憶管理がLLMエージェントに与える影響 : 経験追従行動の実証的研究
Authors: Zidi Xiong, Yuping Lin, Wenya Xie, Pengfei He, Jiliang Tang, Himabindu Lakkaraju, Zhen Xiang,
Abstract要約: メモリは、大きな言語モデル(LLM)ベースのエージェントにおいて重要なコンポーネントである。メモリ管理の選択がLLMエージェントの行動,特に長期的パフォーマンスに与える影響について検討する。
参考スコア（独自算出の注目度）: 49.62361184944454
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Memory is a critical component in large language model (LLM)-based agents, enabling them to store and retrieve past executions to improve task performance over time. In this paper, we conduct an empirical study on how memory management choices impact the LLM agents' behavior, especially their long-term performance. Specifically, we focus on two fundamental memory operations that are widely used by many agent frameworks-addition, which incorporates new experiences into the memory base, and deletion, which selectively removes past experiences-to systematically study their impact on the agent behavior. Through our quantitative analysis, we find that LLM agents display an experience-following property: high similarity between a task input and the input in a retrieved memory record often results in highly similar agent outputs. Our analysis further reveals two significant challenges associated with this property: error propagation, where inaccuracies in past experiences compound and degrade future performance, and misaligned experience replay, where outdated or irrelevant experiences negatively influence current tasks. Through controlled experiments, we show that combining selective addition and deletion strategies can help mitigate these negative effects, yielding an average absolute performance gain of 10% compared to naive memory growth. Furthermore, we highlight how memory management choices affect agents' behavior under challenging conditions such as task distribution shifts and constrained memory resources. Our findings offer insights into the behavioral dynamics of LLM agent memory systems and provide practical guidance for designing memory components that support robust, long-term agent performance. We also release our code to facilitate further study.
Abstract（参考訳）: メモリは、大規模言語モデル(LLM)ベースのエージェントにおいて重要なコンポーネントである。本稿では,メモリ管理の選択がLLMエージェントの行動,特に長期的パフォーマンスに与える影響について,実証的研究を行う。具体的には、多くのエージェントフレームワークで広く使われている2つの基本的なメモリ操作に注目し、メモリベースに新しいエクスペリエンスを組み込んだ追加と、過去の経験を選択的に削除し、エージェントの振る舞いへの影響を体系的に研究する削除に焦点を当てる。定量的解析により, LLMエージェントは, タスク入力とメモリレコードの入力との類似度が高く, エージェント出力の類似度が高いことが判明した。過去の経験における不正確さが複雑で、将来のパフォーマンスを劣化させるエラー伝搬と、過去の経験や無関係な経験が現在のタスクに悪影響を及ぼす誤った経験リプレイという2つの重要な課題がさらに明らかになった。制御された実験により、選択的な加算と削除戦略を組み合わせることで、これらの負の効果を緩和し、単純なメモリ成長に比べて平均10%の絶対的な性能向上が得られることを示す。さらに,タスク分散シフトや制約メモリリソースといった課題条件下で,メモリ管理の選択がエージェントの動作にどのように影響するかを強調した。本研究は,LLMエージェントメモリシステムの動作動態を考察し,堅牢で長期のエージェント性能をサポートするメモリコンポーネント設計のための実践的ガイダンスを提供する。さらなる研究を容易にするために、コードもリリースしています。

関連論文リスト

MemBench: Towards More Comprehensive Evaluation on the Memory of LLM-based Agents [26.647812147336538]
LLMをベースとしたエージェントのメモリ能力を評価するため,より包括的なデータセットとベンチマークを構築した。本データセットは,現実記憶と反射記憶を異なるレベルに含み,様々な対話的シナリオとして参加と観察を提案する。本データセットに基づいて,LLMをベースとしたエージェントのメモリ能力を評価するベンチマーク,MemBenchを提案する。
論文参考訳（メタデータ） (2025-06-20T10:09:23Z)
FindingDory: A Benchmark to Evaluate Memory in Embodied Agents [49.89792845476579]
本研究では,Habitatシミュレータに長距離エンボディタスクのための新しいベンチマークを導入する。このベンチマークは、持続的なエンゲージメントとコンテキスト認識を必要とする60タスクにわたるメモリベースの機能を評価する。
論文参考訳（メタデータ） (2025-06-18T17:06:28Z)
LifelongAgentBench: Evaluating LLM Agents as Lifelong Learners [51.518410910148816]
しかし、現在の大規模言語モデル(LLM)ベースのエージェントは、状態のままであり、時間とともに知識を蓄積または転送することができない。 LLMエージェントの生涯学習能力を体系的に評価するために設計された最初の統合ベンチマークであるLifelongAgentBenchを紹介する。
論文参考訳（メタデータ） (2025-05-17T10:09:11Z)
MemInsight: Autonomous Memory Augmentation for LLM Agents [12.620141762922168]
セマンティックなデータ表現と検索機構を強化するために,自動メモリ拡張手法であるMemInsightを提案する。提案手法の有効性を,会話推薦,質問応答,イベント要約の3つのシナリオで実証的に検証した。
論文参考訳（メタデータ） (2025-03-27T17:57:28Z)
Exploring Knowledge Boundaries in Large Language Models for Retrieval Judgment [56.87031484108484]
大規模言語モデル(LLM)は、その実践的応用でますます認識されている。 Retrieval-Augmented Generation (RAG)はこの課題に取り組み、LLMに大きな影響を与えている。中立あるいは有害な結果をもたらす検索要求を最小化することにより、時間と計算コストの両方を効果的に削減できる。
論文参考訳（メタデータ） (2024-11-09T15:12:28Z)
Stable Hadamard Memory: Revitalizing Memory-Augmented Agents for Reinforcement Learning [64.93848182403116]
現在のディープラーニングメモリモデルは、部分的に観察可能で長期にわたる強化学習環境で苦労している。本稿では,強化学習エージェントのための新しい記憶モデルであるStable Hadamard Memoryを紹介する。我々の手法は、部分的に観測可能なベンチマークに挑戦する上で、最先端のメモリベースの手法よりも大幅に優れています。
論文参考訳（メタデータ） (2024-10-14T03:50:17Z)
RAG-Modulo: Solving Sequential Tasks using Experience, Critics, and Language Models [5.0741409008225755]
大規模言語モデル(LLM)は、ロボットの課題を解決するための有望なツールとして登場した。既存のLSMベースのエージェントは、過去の相互作用を維持および学習する能力に欠ける。 RAG-Modulo は,過去のインタラクションを記憶した LLM ベースのエージェントを強化し,エージェントの判断を評価するための批判を取り入れたフレームワークである。
論文参考訳（メタデータ） (2024-09-18T20:03:32Z)
HiAgent: Hierarchical Working Memory Management for Solving Long-Horizon Agent Tasks with Large Language Model [39.169389255970806]
HiAgentは、サブゴールをメモリチャンクとして活用して、LLM(Large Language Model)ベースのエージェントの動作メモリを階層的に管理するフレームワークである。その結果,HiAgentは成功率を2倍に向上し,平均ステップ数を3.8倍に削減した。
論文参考訳（メタデータ） (2024-08-18T17:59:49Z)
A Survey on the Memory Mechanism of Large Language Model based Agents [66.4963345269611]
大規模言語モデル(LLM)に基づくエージェントは、最近、研究や産業コミュニティから多くの注目を集めている。 LLMベースのエージェントは、現実の問題を解決する基礎となる自己進化能力に特徴付けられる。エージェント-環境相互作用をサポートする重要なコンポーネントは、エージェントのメモリである。
論文参考訳（メタデータ） (2024-04-21T01:49:46Z)
ActiveRAG: Autonomously Knowledge Assimilation and Accommodation through Retrieval-Augmented Agents [49.30553350788524]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)が外部知識を活用することを可能にする。既存のRAGモデルは、LLMを受動的情報受信者として扱うことが多い。人間の学習行動を模倣するマルチエージェントフレームワークであるActiveRAGを紹介する。
論文参考訳（メタデータ） (2024-02-21T06:04:53Z)
Think Before You Act: Decision Transformers with Working Memory [44.18926449252084]
決定変換器に基づく意思決定エージェントは、複数のタスクにまたがる一般化能力を示している。この非効率性は、モデルがトレーニングを通してパラメータの振る舞いを記憶する忘れ現象に起因していると我々は主張する。ダウンストリームタスクの情報を格納、ブレンド、検索するためのワーキングメモリモジュールを提案する。
論文参考訳（メタデータ） (2023-05-24T01:20:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。