Fugu-MT 論文翻訳(概要): Enhancing Web Agents with a Hierarchical Memory Tree

論文の概要: Enhancing Web Agents with a Hierarchical Memory Tree

arxiv url: http://arxiv.org/abs/2603.07024v1
Date: Sat, 07 Mar 2026 04:07:47 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-10 15:13:13.692347
Title: Enhancing Web Agents with a Hierarchical Memory Tree
Title（参考訳）: 階層型メモリツリーによるWebエージェントの強化
Authors: Yunteng Tan, Zhi Gao, Xinxiao Wu,
Abstract要約: 大規模言語モデルに基づくWebエージェントは、先進的な推論と指示によるWebインタラクションの自動化に強い可能性を示している。歴史的軌跡から抽出された検索ベースのメモリは、これらのエージェントが複雑で長い水平なタスクを処理できるのに対して、現在の手法は目に見えないウェブサイトをまたいだ一般化に苦慮している。この課題は、サイト固有のアクション詳細と高レベルのタスクロジックを絡み合わせるフラットメモリ構造から生じる。動作実行から論理的計画を明確に切り離すように設計された構造化フレームワークである階層記憶木(HMT)を提案する。
参考スコア（独自算出の注目度）: 35.249218954574424
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language model-based web agents have shown strong potential in automating web interactions through advanced reasoning and instruction following. While retrieval-based memory derived from historical trajectories enables these agents to handle complex, long-horizon tasks, current methods struggle to generalize across unseen websites. We identify that this challenge arises from the flat memory structures that entangle high-level task logic with site-specific action details. This entanglement induces a workflow mismatch in new environments, where retrieved contents are conflated with current web, leading to logically inconsistent execution. To address this, we propose Hierarchical Memory Tree (HMT), a structured framework designed to explicitly decouple logical planning from action execution. HMT constructs a three-level hierarchy from raw trajectories via an automated abstraction pipeline: the Intent level maps diverse user instructions to standardized task goals; the Stage level defines reusable semantic subgoals characterized by observable pre-conditions and post-conditions; and the Action level stores action patterns paired with transferable semantic element descriptions. Leveraging this structure, we develop a stage-aware inference mechanism comprising a Planner and an Actor. By explicitly validating pre-conditions, the Planner aligns the current state with the correct logical subgoal to prevent workflow mismatch, while the Actor grounds actions by matching the stored semantic descriptions to the target page. Experimental results on Mind2Web and WebArena show that HMT significantly outperforms flat-memory methods, particularly in cross-website and cross-domain scenarios, highlighting the necessity of structured memory for robust generalization of web agents.
Abstract（参考訳）: 大規模言語モデルに基づくWebエージェントは、先進的な推論と指示によるWebインタラクションの自動化に強い可能性を示している。歴史的軌跡から抽出された検索ベースのメモリは、これらのエージェントが複雑で長い水平なタスクを処理できるのに対して、現在の手法は目に見えないウェブサイトをまたいだ一般化に苦慮している。この課題は、サイト固有のアクション詳細と高レベルのタスクロジックを絡み合わせるフラットメモリ構造から生じる。この絡み合いは、検索されたコンテンツが現在のWebと混同された新しい環境でワークフローのミスマッチを引き起こし、論理的に一貫性のない実行につながる。そこで我々は階層記憶木 (HMT) を提案する。これは論理的計画と行動実行を明示的に分離するために設計された構造的フレームワークである。インテントレベルは多様なユーザ命令を標準化されたタスク目標にマッピングし、ステージレベルは観測可能な事前条件と後条件を特徴とする再利用可能なセマンティックサブゴールを定義し、アクションレベルは転送可能なセマンティック要素記述と組み合わせたアクションパターンを格納する。この構造を利用して、プランナーとアクターからなるステージ認識推論機構を開発する。プレ条件を明示的に検証することで、Plannerは現在の状態を正しい論理サブゴールと整列してワークフローミスマッチを防止し、アクターはストアドセマンティック記述をターゲットページにマッチさせることでアクションを根拠とする。 Mind2Web と WebArena の実験結果から,HMT はフラットメモリの手法,特にクロスサイトやクロスドメインのシナリオにおいて,Web エージェントの堅牢な一般化のための構造化メモリの必要性を浮き彫りにしている。

関連論文リスト

STRUCTUREDAGENT: Planning with AND/OR Trees for Long-Horizon Web Tasks [40.13135948595863]
StructureDAGENTは2つのコアコンポーネントを備えた階層的な計画フレームワークである。解釈可能な階層的な計画を生成し、デバッグを容易にし、必要な時に人間の介入を容易にする。 WebVoyager, WebArena, およびカスタムショッピングベンチマークの結果、StructureDAGENTは、標準のLLMエージェントと比較して、長時間のWebブラウジングタスクのパフォーマンスを向上させることが示された。
論文参考訳（メタデータ） (2026-03-05T15:37:06Z)
Memory Matters More: Event-Centric Memory as a Logic Map for Agent Searching and Reasoning [55.251697395358285]
大規模言語モデル(LLM)は、環境を推論し、計画し、相互作用するインテリジェントエージェントとして、ますます多くデプロイされている。長期のシナリオに効果的にスケールするには、そのようなエージェントの重要な機能は、過去の経験を保持し、整理し、取り出すことができるメモリメカニズムである。イベント理論にインスパイアされたイベント中心のメモリフレームワークであるCompassMemを提案する。
論文参考訳（メタデータ） (2026-01-08T08:44:07Z)
Learning Procedural-aware Video Representations through State-Grounded Hierarchy Unfolding [12.083424392460406]
我々は、オブジェクト構成のテキストスナップショットである'states'を、モデルが実際に見ることができるものにプロシージャを固定する視覚的に接地されたセマンティック層として導入する。我々は、この洞察を新しいタスク-ステップ-ステート(TSS)フレームワークで定式化し、そこでは、観測可能な状態間の遷移を駆動するステップを通じてタスクが達成される。提案手法は,タスク認識,ステップ認識,次のステップ予測など,複数の下流タスクのベースラインモデルより優れている。
論文参考訳（メタデータ） (2025-11-25T08:46:11Z)
Designing Domain-Specific Agents via Hierarchical Task Abstraction Mechanism [61.01709143437043]
階層型タスク抽象化機構(HTAM)を中心とした新しいエージェント設計フレームワークを提案する。具体的には、HTAMは、社会的役割のエミュレーションを超えて、代わりに、複数のエージェントシステムを、あるドメインの固有のタスク依存グラフを反映する論理階層に構造化する。我々は、複雑な地理空間解析に適したマルチエージェントシステムであるEarthAgentとして、このフレームワークをインスタンス化する。
論文参考訳（メタデータ） (2025-11-21T12:25:47Z)
CAM: A Constructivist View of Agentic Memory for LLM-Based Reading Comprehension [55.29309306566238]
現在のLarge Language Models (LLM) は、長文文書を解釈する際に圧倒的な情報量に直面している。この課題は、バニラLSMを自律的な読み出しエージェントに高めることができる凝集性メモリモジュールの必須性を高める。我々はジャン・ピアジェの構成主義理論(Constructivist Theory)からインスピレーションを得て、エージェントメモリの3つの特性(構造化スキーマ、フレキシブルな同化、動的調節)を表現した。
論文参考訳（メタデータ） (2025-10-07T02:16:30Z)
LineRetriever: Planning-Aware Observation Reduction for Web Agents [76.60648750062036]
ボトムアップ・トランケーションや埋め込みベースの検索といった現在のアプローチでは、ページの状態やアクション履歴に関する重要な情報が失われている。 textitLineRetrieverは、言語モデルを利用して、将来のナビゲーションステップに最も関係のある観測線を特定し、検索する新しいアプローチである。
論文参考訳（メタデータ） (2025-06-30T19:24:45Z)
A representational framework for learning and encoding structurally enriched trajectories in complex agent environments [1.1470070927586018]
人工知能エージェントが最適な決定を行い、それらを異なるドメインやタスクに一般化する能力は、複雑なシナリオで妥協される。この問題に対処する方法の1つは、世界の効率的な表現を学習することと、エージェントのアクションが状態-行動遷移においてそれらにどのように影響するかに焦点を当てている。本稿では,エージェントのオントロジーを強化し,従来のトラジェクトリ概念を拡張し,タスク実行のより微妙な視点を提供することを提案する。
論文参考訳（メタデータ） (2025-03-17T14:04:27Z)
Procedures as Programs: Hierarchical Control of Situated Agents through Natural Language [81.73820295186727]
エージェント命令と制御のための階層的な手続き的知識を表現する強力な手法である,プログラムとしての手続きの形式化を提案する。 NL命令に対するIQAおよびALFREDデータセット上で、このフレームワークをインスタンス化する。
論文参考訳（メタデータ） (2021-09-16T20:36:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。