論文の概要: Structurally Aligned Subtask-Level Memory for Software Engineering Agents
- arxiv url: http://arxiv.org/abs/2602.21611v1
- Date: Wed, 25 Feb 2026 06:13:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-26 18:19:16.723348
- Title: Structurally Aligned Subtask-Level Memory for Software Engineering Agents
- Title(参考訳): ソフトウェア工学エージェントのための構造アライメントサブタスクレベルメモリ
- Authors: Kangning Shen, Jingyuan Zhang, Chenxi Sun, Wencong Zeng, Yang Yue,
- Abstract要約: 大規模言語モデル(LLM)は、自律ソフトウェア工学(SWE)エージェントとして大きな可能性を示している。
最近の研究は、これらのエージェントを長期的推論をサポートするメモリ機構で強化することを検討した。
本稿では,メモリの記憶,検索,更新をエージェントの機能的分解と整合させる構造アライメントされたサブタスク・レベルメモリを提案する。
- 参考スコア(独自算出の注目度): 15.239652771593663
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have demonstrated significant potential as autonomous software engineering (SWE) agents. Recent work has further explored augmenting these agents with memory mechanisms to support long-horizon reasoning. However, these approaches typically operate at a coarse instance granularity, treating the entire problem-solving episode as the atomic unit of storage and retrieval. We empirically demonstrate that instance-level memory suffers from a fundamental granularity mismatch, resulting in misguided retrieval when tasks with similar surface descriptions require distinct reasoning logic at specific stages. To address this, we propose Structurally Aligned Subtask-Level Memory, a method that aligns memory storage, retrieval, and updating with the agent's functional decomposition. Extensive experiments on SWE-bench Verified demonstrate that our method consistently outperforms both vanilla agents and strong instance-level memory baselines across diverse backbones, improving mean Pass@1 over the vanilla agent by +4.7 pp on average (e.g., +6.8 pp on Gemini 2.5 Pro). Performance gains grow with more interaction steps, showing that leveraging past experience benefits long-horizon reasoning in complex software engineering tasks.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自律ソフトウェア工学(SWE)エージェントとして大きな可能性を示している。
最近の研究は、これらのエージェントに長軸推論をサポートするメモリ機構を付加することについても検討している。
しかしながら、これらのアプローチは一般的に粗いインスタンスの粒度で動作し、問題解決のエピソード全体を記憶と検索の原子単位として扱う。
実演的に、インスタンスレベルのメモリは、基本的な粒度ミスマッチに悩まされ、類似した表面記述を持つタスクが特定の段階で異なる推論論理を必要とする場合、誤検出が生じることを証明した。
そこで本研究では,メモリの記憶,検索,更新をエージェントの機能的分解と整合させる手法である,構造アライメントされたサブタスク・レベルメモリを提案する。
SWE-bench Verifiedの広範囲にわたる実験により、我々の手法はバニラエージェントと様々なバックボーンの強いインスタンスレベルのメモリベースラインを一貫して上回り、バニラエージェントの平均Pass@1を平均で+4.7pp(Gemini 2.5 Proでは+6.8pp)で改善することを示した。
過去の経験を活用することで、複雑なソフトウェアエンジニアリングタスクにおける長期的推論にメリットがあることが示される。
関連論文リスト
- AMA: Adaptive Memory via Multi-Agent Collaboration [54.490349689939166]
複数の粒度にまたがるメモリ管理に協調エージェントを活用する新しいフレームワークであるAMA(Adaptive Memory via Multi-Agent Collaboration)を提案する。
AMAは、ステート・オブ・ザ・アートのベースラインを著しく上回り、トークンの消費をフルコンテキストの手法と比べて約80%削減する。
論文 参考訳(メタデータ) (2026-01-28T08:09:49Z) - H$^2$R: Hierarchical Hindsight Reflection for Multi-Task LLM Agents [3.9054156855794973]
大規模言語モデル(LLM)ベースのエージェントは、マルチタスクシナリオにおいて大きな可能性を示している。
既存のアプローチでは、以前の経験や知識をモノリシックな単位として扱うことが多く、非効率で粗い知識伝達につながる。
本稿では,より微細な知識伝達が可能な新しい階層型メモリアーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-09-16T08:30:08Z) - Memp: Exploring Agent Procedural Memory [72.41472703974935]
LLM(Large Language Models)ベースのエージェントは様々なタスクをこなすが、静的パラメータで手動で設計または絡み合うような不安定なプロシージャメモリに悩まされる。
本稿では,過去のエージェントの軌跡をステップバイステップの細粒度と高レベルなスクリプトライクな抽象化の両方に蒸留するMempを提案する。
メモリレポジトリが洗練されるにつれて、エージェントは着実に高い成功率と類似タスクの効率を達成できることを示す。
論文 参考訳(メタデータ) (2025-08-08T16:20:56Z) - Hierarchical Memory for High-Efficiency Long-Term Reasoning in LLM Agents [19.04968632268433]
大規模言語モデルエージェント(LLMエージェント)のための階層型メモリアーキテクチャを提案する。
各メモリベクトルは、次の層のセマンティック関連サブメモリを指し示す位置インデックスが埋め込まれている。
推論フェーズにおいて、インデックスベースのルーティング機構は、網羅的な類似性計算を行うことなく、効率的な層間検索を可能にする。
論文 参考訳(メタデータ) (2025-07-23T12:45:44Z) - MEM1: Learning to Synergize Memory and Reasoning for Efficient Long-Horizon Agents [84.62985963113245]
我々は,長時間のマルチターンタスクに対して,エージェントが一定のメモリで動作可能な,エンドツーエンドの強化学習フレームワークMEM1を紹介する。
各ターンでMEM1は、メモリ統合と推論を共同でサポートするコンパクトな共有内部状態を更新する。
その結果,MEM1-7Bは16目的のマルチホップQAタスクにおいて,Qwen2.5-14B-Instructと比較してメモリ使用量を3.7倍削減し,3.5倍の性能向上を示す。
論文 参考訳(メタデータ) (2025-06-18T19:44:46Z) - HiAgent: Hierarchical Working Memory Management for Solving Long-Horizon Agent Tasks with Large Language Model [39.169389255970806]
HiAgentは、サブゴールをメモリチャンクとして活用して、LLM(Large Language Model)ベースのエージェントの動作メモリを階層的に管理するフレームワークである。
その結果,HiAgentは成功率を2倍に向上し,平均ステップ数を3.8倍に削減した。
論文 参考訳(メタデータ) (2024-08-18T17:59:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。