論文の概要: Read More, Think More: Revisiting Observation Reduction for Web Agents
- arxiv url: http://arxiv.org/abs/2604.01535v1
- Date: Thu, 02 Apr 2026 02:14:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.193982
- Title: Read More, Think More: Revisiting Observation Reduction for Web Agents
- Title(参考訳): Webエージェントの監視削減を再考する
- Authors: Masafumi Enomoto, Ryoma Obara, Haochen Zhang, Masafumi Oyamada,
- Abstract要約: それまでの作業では、HTMLの冗長性をパフォーマンスの障害として扱い、標準のプラクティスとして観察の削減を採用してきた。
我々はこの傾向を再考し、最適な観察表現がモデル能力と思考トークンの予算に依存することを示した。
本稿では,モデル能力と思考トークン予算に基づく観察表現を適応的に選択し,差分ベース表現を用いた観察履歴を取り入れた実践的ガイドラインを提案する。
- 参考スコア(独自算出の注目度): 6.236881831551865
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Web agents based on large language models (LLMs) rely on observations of web pages -- commonly represented as HTML -- as the basis for identifying available actions and planning subsequent steps. Prior work has treated the verbosity of HTML as an obstacle to performance and adopted observation reduction as a standard practice. We revisit this trend and demonstrate that the optimal observation representation depends on model capability and thinking token budget: (1) compact observations (accessibility trees) are preferable for lower-capability models, while detailed observations (HTML) are advantageous for higher-capability models; moreover, increasing thinking tokens further amplifies the benefit of HTML. (2) Our error analysis suggests that higher-capability models exploit layout information in HTML for better action grounding, while lower-capability models suffer from increased hallucination under longer inputs. We also find that incorporating observation history improves performance across most models and settings, and a diff-based representation offers a token-efficient alternative. Based on these findings, we suggest practical guidelines: adaptively select observation representations based on model capability and thinking token budget, and incorporate observation history using diff-based representations.
- Abstract(参考訳): 大きな言語モデル(LLM)に基づくWebエージェントは、利用可能なアクションを特定し、その後のステップを計画するための基盤として、Webページ(一般的にHTMLとして表現される)の観察に依存している。
それまでの作業では、HTMLの冗長性をパフォーマンスの障害として扱い、標準のプラクティスとして観察の削減を採用してきた。
1) コンパクトな観測(アクセシビリティツリー)は低機能モデルに好適であり, 詳細な観測(HTML)は高機能モデルに好適である。
2) エラー解析の結果,高機能モデルはHTMLのレイアウト情報を有効活用し,低機能モデルはより長い入力条件下での幻覚の増大に悩まされていることが示唆された。
また、観測履歴を組み込むことで、ほとんどのモデルや設定のパフォーマンスが向上し、差分ベースの表現がトークン効率の代替となることもわかりました。
これらの知見に基づいて,モデル能力と思考トークン予算に基づく観察表現を適応的に選択し,差分ベース表現を用いた観察履歴を組み込んだ実践的ガイドラインを提案する。
関連論文リスト
- Few-Shot Vision-Language Reasoning for Satellite Imagery via Verifiable Rewards [7.14978158285611]
衛星画像に対する検証可能な報酬(RLVR)フレームワークを用いた最初の数発の強化学習を提案する。
我々は、衛星推論タスクのモデル出力の整合化のために、ポリシー段階の最適化を1つのキュレートされた例で導入する。
何千もの注釈付きサンプルで訓練されたモデルに一致または超える128のサンプルにスケールする。
論文 参考訳(メタデータ) (2025-07-29T12:23:19Z) - Explanatory Model Monitoring to Understand the Effects of Feature Shifts on Performance [61.06245197347139]
そこで本研究では,機能シフトによるブラックボックスモデルの振る舞いを説明する新しい手法を提案する。
本稿では,最適輸送と共有値の概念を組み合わせた提案手法について,説明的性能推定として紹介する。
論文 参考訳(メタデータ) (2024-08-24T18:28:19Z) - Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - Studying How to Efficiently and Effectively Guide Models with Explanations [52.498055901649025]
「モデルガイダンス」とは「正しい理由のために正しい」ことを保証するためにモデルの説明を規則化する考え方である。
PASCAL VOC 2007 および MS COCO 2014 データセット上で, 各種損失関数, 帰属方法, モデル, 誘導深度について詳細な評価を行う。
具体的には、一般的に使用されるセグメンテーションマスクよりもはるかに安価で入手可能なバウンディングボックスアノテーションを用いてモデルをガイドする。
論文 参考訳(メタデータ) (2023-03-21T15:34:50Z) - Pathologies of Pre-trained Language Models in Few-shot Fine-tuning [50.3686606679048]
実例が少ない事前学習言語モデルはラベル間に強い予測バイアスを示すことを示す。
わずかな微調整で予測バイアスを軽減できるが,本分析では,非タスク関連の特徴を捉えることで,モデルの性能向上を図っている。
これらの観察は、より少ない例でモデルのパフォーマンスを追求することは、病理学的予測行動を引き起こす可能性があることを警告する。
論文 参考訳(メタデータ) (2022-04-17T15:55:18Z) - Generative Counterfactuals for Neural Networks via Attribute-Informed
Perturbation [51.29486247405601]
AIP(Attribute-Informed Perturbation)の提案により,生データインスタンスの反事実を生成するフレームワークを設計する。
異なる属性を条件とした生成モデルを利用することで、所望のラベルとの反事実を効果的かつ効率的に得ることができる。
実世界のテキストや画像に対する実験結果から, 設計したフレームワークの有効性, サンプル品質, および効率が示された。
論文 参考訳(メタデータ) (2021-01-18T08:37:13Z) - Models, Pixels, and Rewards: Evaluating Design Trade-offs in Visual
Model-Based Reinforcement Learning [109.74041512359476]
視覚的MBRLアルゴリズムにおける予測モデルの設計決定について検討する。
潜在空間の使用など、しばしば重要と見なされる設計上の決定は、タスクのパフォーマンスにはほとんど影響しないことが分かりました。
我々は,この現象が探索とどのように関係しているか,および標準ベンチマークにおける下位スコーリングモデルのいくつかが,同じトレーニングデータでトレーニングされた場合のベストパフォーマンスモデルと同等の性能を発揮するかを示す。
論文 参考訳(メタデータ) (2020-12-08T18:03:21Z) - S3VAE: Self-Supervised Sequential VAE for Representation Disentanglement
and Data Generation [31.38329747789168]
自己超越下での逐次データの不整合表現を学習するための逐次変分オートエンコーダを提案する。
我々は、入力データ自体から容易にアクセス可能な監視信号や、市販の機能モデルから得られる利点を利用する。
我々のモデルは入力シーケンスの表現を静的因子と動的因子に容易に切り離すことができる。
論文 参考訳(メタデータ) (2020-05-23T00:44:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。