論文の概要: M$^2$: Dual-Memory Augmentation for Long-Horizon Web Agents via Trajectory Summarization and Insight Retrieval
- arxiv url: http://arxiv.org/abs/2603.00503v1
- Date: Sat, 28 Feb 2026 06:59:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.231899
- Title: M$^2$: Dual-Memory Augmentation for Long-Horizon Web Agents via Trajectory Summarization and Insight Retrieval
- Title(参考訳): M$^2$: トラジェクティブ要約とインサイト検索による長距離Webエージェントのデュアルメモリ拡張
- Authors: Dawei Yan, Haokui Zhang, Guangda Huzhang, Yang Li, Yibo Wang, Qing-Guo Chen, Zhao Xu, Weihua Luo, Ying Li, Wei Dong, Chunhua Shen,
- Abstract要約: M$2$は、文脈効率と意思決定を最適化するために設計されたトレーニング不要のメモリ拡張フレームワークである。
本手法では,対話履歴を簡潔な状態更新に圧縮する動的トラジェクトリ要約(Internal Memory)と,オフラインのインサイトバンクから取得した実行可能なガイドラインでエージェントを誘導するInsight Retrieval Augmentation(External Memory)を併用する。
- 参考スコア(独自算出の注目度): 64.06936170117943
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Large Language Models (MLLMs) based agents have demonstrated remarkable potential in autonomous web navigation. However, handling long-horizon tasks remains a critical bottleneck. Prevailing strategies often rely heavily on extensive data collection and model training, yet still struggle with high computational costs and insufficient reasoning capabilities when facing complex, long-horizon scenarios. To address this, we propose M$^2$, a training-free, memory-augmented framework designed to optimize context efficiency and decision-making robustness. Our approach incorporates a dual-tier memory mechanism that synergizes Dynamic Trajectory Summarization (Internal Memory) to compress verbose interaction history into concise state updates, and Insight Retrieval Augmentation (External Memory) to guide the agent with actionable guidelines retrieved from an offline insight bank. Extensive evaluations across WebVoyager and OnlineMind2Web demonstrate that M$^2$ consistently surpasses baselines, yielding up to a 19.6% success rate increase and 58.7% token reduction for Qwen3-VL-32B, while proprietary models like Claude achieve accuracy gains up to 12.5% alongside significantly lower computational overhead.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)ベースのエージェントは、自律的なWebナビゲーションにおいて顕著な可能性を示している。
しかし、長距離タスクの処理は依然として重大なボトルネックである。
一般的な戦略は、大規模なデータ収集とモデルトレーニングに大きく依存することが多いが、複雑な長期のシナリオに直面している場合、高い計算コストと十分な推論能力に苦慮している。
そこで本稿では,文脈効率と意思決定の堅牢性を最適化するトレーニング不要なメモリ拡張フレームワークであるM$^2$を提案する。
本手法では,対話履歴を簡潔な状態更新に圧縮する動的トラジェクトリ要約(Internal Memory)と,オフラインのインサイトバンクから取得した実行可能なガイドラインでエージェントを誘導するInsight Retrieval Augmentation(External Memory)を併用する。
WebVoyagerとOnlineMind2Webの大規模な評価によると、M$^2$はベースラインを一貫して上回り、Qwen3-VL-32Bの19.6%の成功率と58.7%のトークン削減を達成している。
関連論文リスト
- Dual Latent Memory for Visual Multi-agent System [69.29799381195592]
Visual Multi-Agent Systems (VMAS)は、エージェント間のコラボレーションを通じて包括的な能力を強化することを約束する。
増量剤は、指数関数的にトークンコストを膨らませながら、しばしば性能を低下させる。
L$2$-VMASは,2つの潜在記憶を用いたエージェント間コラボレーションを実現する新しいモデルに依存しないフレームワークである。
論文 参考訳(メタデータ) (2026-01-31T02:49:10Z) - Chain-of-Memory: Lightweight Memory Construction with Dynamic Evolution for LLM Agents [26.39049374286037]
外部メモリシステムは、Large Language Model (LLM)エージェントが永続的な知識を維持し、長期にわたる意思決定を行うために重要である。
既存のパラダイムは一般に2段階のプロセスに従っている。
我々は,高度な利用と組み合わせた軽量構造へのパラダイムシフトを提唱する新しいフレームワークであるCoM(Chain-of-Memory)を提案する。
論文 参考訳(メタデータ) (2026-01-14T04:42:15Z) - EvoRoute: Experience-Driven Self-Routing LLM Agent Systems [100.64399490164959]
EvoRouteは、静的で事前定義されたモデルの割り当てを超越する、自己進化型のモデルルーティングパラダイムである。
挑戦的なエージェントベンチマークの実験によると、既製のエージェントシステムに統合されたEvoRouteは、システムのパフォーマンスを維持または向上するだけでなく、実行コストを最大80%削減し、レイテンシを70%以上削減する。
論文 参考訳(メタデータ) (2026-01-06T04:06:46Z) - Efficient-VLN: A Training-Efficient Vision-Language Navigation Model [24.261272070476934]
マルチモーダル大言語モデル(MLLM)は視覚言語ナビゲーション(VLN)において有望な可能性を示している。
トレーニング効率の良いVLNモデルであるEfficient-VLNを提案する。
具体的には、トークン処理の負担を軽減するために、2つの効率的なメモリ機構を設計する。
実験により, R2R-CE (64.2% SR) と RxR-CE (67.0% SR) の最先端性能が得られた。
論文 参考訳(メタデータ) (2025-12-11T05:57:48Z) - Beyond Turn Limits: Training Deep Search Agents with Dynamic Context Window [88.85901839023803]
DeepMinerは、高機能なトレーニングタスクと動的コンテキストウィンドウを導入することで、そのような能力を引き出す新しいフレームワークである。
We developed DeepMiner-32B, which is a significant performance improvements across multiple search agent benchmarks。
論文 参考訳(メタデータ) (2025-10-09T14:31:39Z) - D$^{2}$MoE: Dual Routing and Dynamic Scheduling for Efficient On-Device MoE-based LLM Serving [14.607254882119507]
専門家(MoE)モデルの組み合わせは、大きな言語モデル(LLM)のスパース変種である。
メリットはあるものの、リソース制約のあるエッジデバイスにデプロイするにはMoEは高価すぎる。
D$2$MoEは,各専門家に最適なビット幅を動的に割り当てることで,多様なタスク要求に適合するアルゴリズム・システム協調設計フレームワークである。
論文 参考訳(メタデータ) (2025-04-17T05:37:35Z) - Balancing Performance and Efficiency in Zero-shot Robotic Navigation [1.6574413179773757]
本稿では,ロボット工学におけるオブジェクトゴールナビゲーションタスクに適用したビジョンランゲージフロンティアマップの最適化研究について述べる。
本研究は,視覚言語モデル,オブジェクト検出器,セグメンテーションモデル,視覚質問応答モジュールの効率と性能を評価する。
論文 参考訳(メタデータ) (2024-06-05T07:31:05Z) - Dr$^2$Net: Dynamic Reversible Dual-Residual Networks for Memory-Efficient Finetuning [81.0108753452546]
本稿では,メモリ消費を大幅に削減した事前学習モデルを微調整するために,動的可逆2次元ネットワーク(Dr$2$Net)を提案する。
Dr$2$Netは2種類の残差接続を含み、1つは事前訓練されたモデルの残差構造を維持し、もう1つはネットワークを可逆的にしている。
Dr$2$Netは従来の微調整に匹敵する性能を持つが、メモリ使用量は大幅に少ない。
論文 参考訳(メタデータ) (2024-01-08T18:59:31Z) - Online Convolutional Re-parameterization [51.97831675242173]
2段階のパイプラインであるオンライン畳み込み再パラメータ化(OREPA)は、複雑なトレーニング時間ブロックを単一の畳み込みに絞ることで、巨大なトレーニングオーバーヘッドを低減することを目的としている。
最先端のre-paramモデルと比較して、OREPAはトレーニング時間のメモリコストを約70%削減し、トレーニング速度を約2倍向上させることができる。
また、オブジェクト検出とセマンティックセグメンテーションの実験を行い、下流タスクに一貫した改善を示す。
論文 参考訳(メタデータ) (2022-04-02T09:50:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。