FuguReport

SAM: State-Adaptive Memory for Long-Horizon Reasoning Agent

著者 Yuyang Hu, Hongjin Qian, Shuting Wang, Jiongnan Liu, Ziliang Zhao, Jiejun Tan, Zheng Liu, Zhicheng Dou
所属 Beijing Academy of Artificial Intelligence / Renmin University of China
カテゴリ Method / Memory Management / Compact memory queue for continuous interaction, Application / Reasoning Agent / Long-horizon agent inference, Evaluation / Agent Performance / Intent-driven recall with raw trajectory pages
ライセンス CC BY 4.0

Abstractの概要

本論文は、長期にわたるエージェントの推論を、単なるコンテキスト長の問題としてではなく、メモリアクセスの問題として捉えています。継続的なインタラクション履歴をコンパクトなメモリキューに変換し、アクティブなコンテキストの外部に生の軌跡ページを保持する独立したメモリフレームワークであるState-Adaptive Memory(SAM)を提案しています。推論時、エージェントは現在の意図を利用してキューを選択し、保存されたページから意思決定に関連する情報の再構築をトリガーします。メモリモジュールは、専門家主導の教師ありファインチューニングとOAT-GRPOと呼ばれる強化学習手順を使用して、推論バックボーンとは別に学習されます。BrowseComp、BrowseComp-ZH、WideSearch、およびHLEでの評価では、GLM-4.7およびQwen3.5-35B-A3Bのバックボーン全体で、ヒューリスティックなコンテキスト管理のベースラインよりも一貫した改善が見られました。

新規性

最も際立った貢献は、要約を履歴の完全な代替として扱うのではなく、コンパクトなキューをコンテキスト内に維持しつつ、後で意図に基づいて想起できるように生の軌跡ページを外部に保存する、キュー・ページメモリの設計です。また、専門家のトレースとメモリアクションレベルでクレジットを割り当てる木構造の強化学習目的関数を使用して、メモリを単独のモジュールとして最適化するという点でも独特です。

成果

4つの長期ベンチマーク全体で、SAMはテストされた両方のバックボーンにおいて最も強力なコンテキスト管理手法であると報告されています。GLM-4.7ではコンテキスト管理なしの49.4と最良のヒューリスティックベースラインの54.6に対し、平均スコア57.0を達成し、Qwen3.5-35B-A3Bではコンテキスト管理なしの44.5と最良ベースラインの46.2に対し、48.8を記録しました。アブレーションにより、教師あり学習と強化学習の両方の段階が貢献しており、意図主導のエピソード想起が性能向上の主な要因であることがさらに示されています。

論文の注目点

  1. SAMは長期のインタラクション履歴をコンパクトなメモリキューと外部に保存された生のページに再編成し、意図に基づく詳細な過去情報の想起を可能にする。
  2. この手法は展開時にバックボーンに依存せず、単一のQwen3.5-9Bメモリモデルが異なるエージェントバックボーン間で共有され、メモリモジュールのみが学習される。
  3. 実験とアブレーションにより、明示的で状態条件付けされたエピソード想起が、長期タスクにおいて切り捨て、直近ウィンドウ、ツール破棄戦略、ローリングサマリーなどのヒューリスティクスを上回ることが示唆されている。

参考リンク

このページはGPT-5、Claude Opus 4、Gemini 3、Gemini 3.1 Flash Image 及びその上位バージョンなどの生成AIを用いて作成されています。内容の保証は一切できません。