論文の概要: Region4Web: Rethinking Observation Space Granularity for Web Agents
- arxiv url: http://arxiv.org/abs/2605.07134v1
- Date: Fri, 08 May 2026 02:11:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.740298
- Title: Region4Web: Rethinking Observation Space Granularity for Web Agents
- Title(参考訳): Region4Web: Webエージェントの観測空間の粒度を再考する
- Authors: Donguk Kwon, Dongha Lee,
- Abstract要約: 観察は機能領域の粒度、各ページのそれぞれが別々の目的を果たす部分で行うべきだと我々は主張する。
本稿では,AXTreeを階層的な分解とセマンティック抽象化によって機能領域に再構成するフレームワークであるRerea4Webを提案する。
我々は、この領域レベルの観察をアクターエージェントに配信するWeb固有の推論パイプラインであるPageDigestを、ステップ毎に持続するコンパクトなページ単位のダイジェストとして提案する。
- 参考スコア(独自算出の注目度): 10.39657194669009
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Web agents perceive web pages through an observation space, yet its granularity has remained an underexamined design choice. Existing work treats observation at the same element-level granularity as the action space, leaving the page's functional organization implicit and forcing the agent to infer it from element-level signals at every step. We argue observation should instead operate at the granularity of functional regions, parts of the page that each serve a distinct purpose. We propose Region4Web, a framework that reorganizes the AXTree into functional regions through hierarchical decomposition and semantic abstraction, exposing the page's functional organization as the basis for page state understanding. Moreover, we propose PageDigest, a web-specific inference pipeline that delivers this region-level observation to the actor agent as a compact per-page digest that persists across steps. On the WebArena benchmark, PageDigest substantially reduces observation length while improving overall task success rate across diverse backbone large language models (LLMs) and established agent methods, regardless of backbone capacity. These results show that operating at the granularity of functional regions delivers a more compact and informative basis for the actor agent than element-level processing alone.
- Abstract(参考訳): Webエージェントは、観察空間を通じてWebページを知覚するが、その粒度は、まだ過小評価されている設計選択のままである。
既存の作業はアクション空間と同じ要素レベルの粒度で観察を扱い、ページの機能的構造は暗黙的に残され、エージェントは各ステップで要素レベルの信号からそれを推測せざるを得ない。
観察は機能領域の粒度で行うべきであり、ページのそれぞれが別々の目的を果たす部分である。
我々はAXTreeを階層的な分解とセマンティックな抽象化によって機能的な領域に再構成するフレームワークであるRerea4Webを提案し、ページの状態理解の基盤としてページの機能的組織を明らかにする。
さらに、この領域レベルの観察をアクターエージェントに配信するWeb固有の推論パイプラインであるPageDigestを、ステップ毎に持続するコンパクトなページ単位ダイジェストとして提案する。
WebArenaベンチマークでは、PageDigestは、バックボーン容量に関係なく、さまざまなバックボーン大言語モデル(LLM)と確立されたエージェントメソッドの全体的なタスク成功率を改善しながら、観察期間を大幅に短縮する。
これらの結果から, 機能領域の粒度操作は, 要素レベルの処理単独よりも, アクターエージェントに対してよりコンパクトで情報的基盤を提供することが示された。
関連論文リスト
- Enhancing Web Agents with a Hierarchical Memory Tree [35.249218954574424]
大規模言語モデルに基づくWebエージェントは、先進的な推論と指示によるWebインタラクションの自動化に強い可能性を示している。
歴史的軌跡から抽出された検索ベースのメモリは、これらのエージェントが複雑で長い水平なタスクを処理できるのに対して、現在の手法は目に見えないウェブサイトをまたいだ一般化に苦慮している。
この課題は、サイト固有のアクション詳細と高レベルのタスクロジックを絡み合わせるフラットメモリ構造から生じる。
動作実行から論理的計画を明確に切り離すように設計された構造化フレームワークである階層記憶木(HMT)を提案する。
論文 参考訳(メタデータ) (2026-03-07T04:07:47Z) - Thinking on Maps: How Foundation Model Agents Explore, Remember, and Reason Map Environments [10.485672302572368]
地図環境は、空間構造を表現するための基本的な媒体であり、基礎モデル(FM)エージェントがそのような環境でどのように理解し、どのように振る舞うかを理解することは、信頼できる地図ベースの推論と応用を可能にするために重要である。
本研究では,FMエージェントがシンボルマップ環境においてどのように探索し,記憶し,理性を示すかを分析するための対話型評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-30T23:04:29Z) - Connecting the Dots: Training-Free Visual Grounding via Agentic Reasoning [63.109585527799005]
GroundingAgentは、タスク固有の微調整なしで動作するビジュアルグラウンドティングフレームワークである。
広く使用されているベンチマークでは、平均ゼロショットグラウンドの精度は65.1%である。
また、強い解釈可能性を提供し、各推論ステップを透過的に照らす。
論文 参考訳(メタデータ) (2025-11-24T03:11:08Z) - From Text to Space: Mapping Abstract Spatial Models in LLMs during a Grid-World Navigation Task [0.0]
グリッドワールドナビゲーションタスクにおける大規模言語モデル(LLM)の性能と内部アクティベーションに及ぼすテキストベース空間表現の影響について検討する。
実験の結果, 空間のカルデシアン表現は, モデルサイズに比例して高い成功率と経路効率が得られることがわかった。
この研究は、LLMが空間情報をどのように処理するかの理解を深め、より解釈可能で堅牢なエージェントAIシステムの開発に有用な洞察を提供する。
論文 参考訳(メタデータ) (2025-02-23T19:09:01Z) - Scalable spectral representations for multi-agent reinforcement learning in network MDPs [13.782868855372774]
マルチエージェント制御の一般的なモデルであるNetwork Markov Decision Processes (MDPs)は、効率的な学習に重大な課題をもたらす。
まず、ネットワークMDPに対してスケーラブルなスペクトル局所表現を導出し、各エージェントの局所$Q$関数に対するネットワーク線形部分空間を誘導する。
我々は,連続的な状態対応ネットワークMDPのためのスケーラブルなアルゴリズムフレームワークを設計し,アルゴリズムの収束をエンドツーエンドで保証する。
論文 参考訳(メタデータ) (2024-10-22T17:45:45Z) - AgentOccam: A Simple Yet Strong Baseline for LLM-Based Web Agents [52.13695464678006]
本研究は, 観察空間と行動空間を簡略化することで, LLMベースのWebエージェントを強化する。
AgentOccam は以前の最先端および同時処理を 9.8 (+29.4%) と 5.9 (+15.8%) で上回っている。
論文 参考訳(メタデータ) (2024-10-17T17:50:38Z) - Framework-agnostic Semantically-aware Global Reasoning for Segmentation [29.69187816377079]
本稿では,画像特徴を潜在表現に投影し,それら間の関係を推論するコンポーネントを提案する。
我々の設計では、活性化領域が空間的に不整合であることを保証することにより、潜在領域が意味概念を表現することを奨励している。
潜在トークンはセマンティックに解釈可能で多様性があり、下流タスクに転送可能な豊富な機能セットを提供します。
論文 参考訳(メタデータ) (2022-12-06T21:42:05Z) - Part-aware Prototypical Graph Network for One-shot Skeleton-based Action
Recognition [57.86960990337986]
ワンショットスケルトンに基づくアクション認識は、ベースクラスから新しいクラスへの変換可能な表現を学習する上で、ユニークな課題となる。
単発骨格に基づく行動認識のためのパートアウェアなプロトタイプ表現を提案する。
本手法の有効性を2つの公開骨格に基づく行動認識データセットに示す。
論文 参考訳(メタデータ) (2022-08-19T04:54:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。