Fugu-MT 論文翻訳(概要): From Grounding to Planning: Benchmarking Bottlenecks in Web Agents

論文の概要: From Grounding to Planning: Benchmarking Bottlenecks in Web Agents

arxiv url: http://arxiv.org/abs/2409.01927v1
Date: Tue, 3 Sep 2024 14:17:09 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-06 01:08:09.564113
Title: From Grounding to Planning: Benchmarking Bottlenecks in Web Agents
Title（参考訳）: グラウンドニングからプランニングへ - Webエージェントのブートネックのベンチマーク
Authors: Segev Shlomov, Ben wiesel, Aviad Sela, Ido Levy, Liane Galanti, Roy Abitbol,
Abstract要約: 一般的なWebベースのエージェントは、複雑なWeb環境と対話するためにますます不可欠である。しかし、実世界のWebアプリケーションにおける彼らのパフォーマンスは依然として貧弱であり、最先端のフロンティアモデルでさえ非常に低い精度が得られる。我々は,計画コンポーネントと接地コンポーネントの区別を強化し,Mind2Webデータセット上で実験を精査することによって,新たな分析を行う。
参考スコア（独自算出の注目度）: 1.6135641587748402
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: General web-based agents are increasingly essential for interacting with complex web environments, yet their performance in real-world web applications remains poor, yielding extremely low accuracy even with state-of-the-art frontier models. We observe that these agents can be decomposed into two primary components: Planning and Grounding. Yet, most existing research treats these agents as black boxes, focusing on end-to-end evaluations which hinder meaningful improvements. We sharpen the distinction between the planning and grounding components and conduct a novel analysis by refining experiments on the Mind2Web dataset. Our work proposes a new benchmark for each of the components separately, identifying the bottlenecks and pain points that limit agent performance. Contrary to prevalent assumptions, our findings suggest that grounding is not a significant bottleneck and can be effectively addressed with current techniques. Instead, the primary challenge lies in the planning component, which is the main source of performance degradation. Through this analysis, we offer new insights and demonstrate practical suggestions for improving the capabilities of web agents, paving the way for more reliable agents.
Abstract（参考訳）: 一般的なWebベースのエージェントは複雑なWeb環境と対話するのにますます不可欠だが、実世界のWebアプリケーションのパフォーマンスは依然として貧弱であり、最先端のフロンティアモデルでさえ極めて低い精度である。我々はこれらのエージェントを2つの主要な構成要素であるプランニングとグラウンドに分解することができることを観察した。しかし、既存のほとんどの研究は、これらのエージェントをブラックボックスとして扱い、エンド・ツー・エンドの評価に焦点を合わせ、有意義な改善を妨げている。我々は,計画コンポーネントと接地コンポーネントの区別を強化し,Mind2Webデータセット上で実験を精査することによって,新たな分析を行う。我々の研究は、エージェントのパフォーマンスを制限するボトルネックと痛み点を識別し、各コンポーネントに対して別々に新しいベンチマークを提案する。一般的な仮定とは対照的に,グラウンドディングは重要なボトルネックではなく,現在の手法で効果的に対処できることが示唆された。代わりに、主な課題は、パフォーマンス劣化の主な原因である計画コンポーネントにあります。この分析を通じて、我々は、より信頼性の高いエージェントに道を開くことにより、Webエージェントの能力を向上させるための新しい洞察を提供し、実践的な提案を示す。

関連論文リスト

The Synthetic Web: Adversarially-Curated Mini-Internets for Diagnosing Epistemic Weaknesses of Language Agents [0.0]
言語エージェントは、様々なソースから情報を検索し、閲覧し、合成するWeb対応システムとしてますます機能する。これらの情報源は信頼できない、あるいは敵対的な内容を含むことができ、敵のランク付けに対するエージェントの堅牢性はいまだに理解されていない。提案するSynthetic Web Benchmarkは, 何千ものハイパーリンク記事と, 信頼性と事実性に関する基礎的なラベルから構成される手続き的に生成された環境である。
論文参考訳（メタデータ） (2026-02-28T20:27:44Z)
Synthesizing Agentic Data for Web Agents with Progressive Difficulty Enhancement Mechanisms [81.90219895125178]
Webベースの「ディープリサーチ」エージェントは、オンラインツールとの長時間のインタラクションを通じてタスクに答える、複雑な問題の解決を目指している。基礎となる言語モデルは、長い水平推論に最適化されないことが多いため、これらのタスクは依然として困難なままである。複雑化を徐々に進めることで、疑問-答えのペアを生成する2段階のデータ合成パイプラインを導入する。
論文参考訳（メタデータ） (2025-10-15T06:34:46Z)
InteGround: On the Evaluation of Verification and Retrieval Planning in Integrative Grounding [51.80327078402434]
仮説クエリをサポートするために、複数の独立したエビデンスを検索し、検証するという課題である。まず,LLMは冗長な証拠に対して頑健であるのに対して,情報の不完全な場合,内部知識を合理的に活用する傾向にある。ノイズ導入による非方向性計画が性能を低下させるのに対して, 前提推論は論理的制約のため, 有望なアプローチとして現れる。
論文参考訳（メタデータ） (2025-09-20T04:48:24Z)
Detecting Pipeline Failures through Fine-Grained Analysis of Web Agents [0.48156730450374763]
この研究は既存のベンチマークを分析し、きめ細かい診断ツールの欠如を強調している。本稿では,エージェントパイプラインを解釈可能なステージに分解し,詳細なエラー解析を行うモジュール評価フレームワークを提案する。
論文参考訳（メタデータ） (2025-09-17T19:34:49Z)
WebResearcher: Unleashing unbounded reasoning capability in Long-Horizon Agents [72.28593628378991]
WebResearcherは、マルコフ決定プロセスとしてディープリサーチを再構築する反復的なディープリサーチパラダイムである。 WebResearcherは最先端のパフォーマンスを実現し、フロンティアのプロプライエタリシステムを超えています。
論文参考訳（メタデータ） (2025-09-16T17:57:17Z)
WebCoT: Enhancing Web Agent Reasoning by Reconstructing Chain-of-Thought in Reflection, Branching, and Rollback [74.82886755416949]
有効なWebエージェントに必要な重要な推論スキルを同定する。我々はエージェントの推論アルゴリズムを連鎖論理に再構成する。このアプローチは、複数のベンチマークで大幅に改善される。
論文参考訳（メタデータ） (2025-05-26T14:03:37Z)
ReGUIDE: Data Efficient GUI Grounding via Spatial Reasoning and Search [53.40810298627443]
ReGUIDEは、MLLMが自己生成的推論と空間認識的批判を通じてデータを効率的に学習することを可能にするWebグラウンドのためのフレームワークである。実験により、ReGUIDEは複数のベンチマークでWebグラウンド性能を大幅に向上することが示された。
論文参考訳（メタデータ） (2025-05-21T08:36:18Z)
Review, Refine, Repeat: Understanding Iterative Decoding of AI Agents with Dynamic Evaluation and Selection [71.92083784393418]
Best-of-N (BON) サンプリングのような推論時間法は、パフォーマンスを改善するための単純で効果的な代替手段を提供する。本稿では,反復的改良と動的候補評価,検証器による選択を併用した反復的エージェント復号(IAD)を提案する。
論文参考訳（メタデータ） (2025-04-02T17:40:47Z)
Offline Model-Based Optimization: Comprehensive Review [61.91350077539443]
オフライン最適化は、オフラインデータセットのみを使用してブラックボックス機能の最適化を目標とする、科学とエンジニアリングの基本的な課題である。モデルベース最適化の最近の進歩は、オフライン固有の代理モデルと生成モデルを開発するために、ディープニューラルネットワークの一般化能力を活用している。科学的な発見を加速させる効果が増大しているにもかかわらず、この分野は包括的なレビューを欠いている。
論文参考訳（メタデータ） (2025-03-21T16:35:02Z)
The BrowserGym Ecosystem for Web Agent Research [151.90034093362343]
BrowserGymエコシステムは、Webエージェントの効率的な評価とベンチマークの必要性の高まりに対処する。本稿では,Webエージェント研究のためのBrowserGymベースの拡張エコシステムを提案する。大規模なマルチベンチマークWebエージェント実験を初めて実施し、6つのWebエージェントベンチマークで6つの最先端LCMの性能を比較した。
論文参考訳（メタデータ） (2024-12-06T23:43:59Z)
How Important are Data Augmentations to Close the Domain Gap for Object Detection in Orbit? [15.550663626482903]
宇宙空間におけるコンピュータビジョンの領域ギャップを埋めるためのデータ拡張の有効性について検討する。本稿では,軌道画像に観察される視覚効果をエミュレートするために開発された2つの新しいデータ拡張法を提案する。
論文参考訳（メタデータ） (2024-10-21T08:24:46Z)
ACTRESS: Active Retraining for Semi-supervised Visual Grounding [52.08834188447851]
前回の研究であるRefTeacherは、疑似自信と注意に基づく監督を提供するために教師学生の枠組みを採用することで、この課題に取り組むための最初の試みである。このアプローチは、Transformerベースのパイプラインに従う現在の最先端のビジュアルグラウンドモデルと互換性がない。本稿では, ACTRESS を略したセミスーパービジョン視覚グラウンドのためのアクティブ・リトレーニング手法を提案する。
論文参考訳（メタデータ） (2024-07-03T16:33:31Z)
AI Agents That Matter [11.794931453828974]
AIエージェントはエキサイティングな新しい研究方向であり、エージェント開発はベンチマークによって駆動される。他のメトリクスに注意せずに正確性に焦点が当てられている。モデルと下流の開発者のベンチマークの必要性が混じり合っている。多くのエージェントベンチマークはホールトアウトセットが不十分であり、時にはまったくない。
論文参考訳（メタデータ） (2024-07-01T17:48:14Z)
WebCanvas: Benchmarking Web Agents in Online Environments [29.278363444725628]
WebCanvasは、Webエージェントのための革新的なオンライン評価フレームワークである。我々は、推論のためのモジュールを備えたエージェントフレームワークをオープンソースとして公開し、コミュニティがオンライン推論と評価を行うための基盤を提供します。ベストパフォーマンスエージェントは,Mind2Web-Liveテストセット上でのタスク成功率23.1%,タスク完了率48.8%を達成する。
論文参考訳（メタデータ） (2024-06-18T07:58:33Z)
SSGA-Net: Stepwise Spatial Global-local Aggregation Networks for for Autonomous Driving [27.731481134782577]
現在のモデルは、通常、タスクヘッドのオブジェクト表現を強化するために隣のフレームから特徴を集約します。これらの手法は将来のフレームからの情報に依存し、高い計算複雑性に悩まされる。本稿では,これらの問題を解決するために,段階的に空間的局所集約ネットワークを導入する。
論文参考訳（メタデータ） (2024-05-29T08:12:51Z)
Alice Benchmarks: Connecting Real World Re-Identification with the Synthetic [92.02220105679713]
我々は、Aliceベンチマーク、大規模データセット、ベンチマークおよび評価プロトコルを研究コミュニティに導入する。 Aliceベンチマークでは、人と車の2つのre-IDタスクが提供されている。実際のターゲットの重要な特徴として、トレーニングセットのクラスタビリティは、実際のドメイン適応テストシナリオに近づくように手動で保証されない。
論文参考訳（メタデータ） (2023-10-06T17:58:26Z)
AI planning in the imagination: High-level planning on learned abstract search spaces [68.75684174531962]
我々は,エージェントが訓練中に学習する抽象的な検索空間において,エージェントが計画することを可能にする,PiZeroと呼ばれる新しい手法を提案する。本研究では,旅行セールスマン問題,ソコバン問題,2048年,施設立地問題,パックマン問題など,複数の分野で評価を行った。
論文参考訳（メタデータ） (2023-08-16T22:47:16Z)
Improving Long-Horizon Imitation Through Instruction Prediction [93.47416552953075]
本研究では、しばしば使われない補助的監督源である言語の使用について検討する。近年のトランスフォーマーモデルの発展にインスパイアされたエージェントは,高レベルの抽象化で動作する時間拡張表現の学習を促す命令予測損失を持つエージェントを訓練する。さらなる分析では、複雑な推論を必要とするタスクにおいて、命令モデリングが最も重要であり、単純な計画を必要とする環境において、より小さなゲインを提供する。
論文参考訳（メタデータ） (2023-06-21T20:47:23Z)
Goal-driven Self-Attentive Recurrent Networks for Trajectory Prediction [31.02081143697431]
人間の軌道予測は、自動運転車、社会認識ロボット、およびビデオ監視アプリケーションの主要な構成要素である。本稿では,過去の観測位置のみに作用する軽量な注意型リカレントバックボーンを提案する。我々はU-Netアーキテクチャに基づく共通のゴールモジュールを使用し、シーン準拠の目的地を予測するために意味情報を抽出する。
論文参考訳（メタデータ） (2022-04-25T11:12:37Z)
Triggering Failures: Out-Of-Distribution detection by learning from local adversarial attacks in Semantic Segmentation [76.2621758731288]
セグメンテーションにおけるアウト・オブ・ディストリビューション(OOD)オブジェクトの検出に取り組む。私たちの主な貢献は、ObsNetと呼ばれる新しいOOD検出アーキテクチャであり、ローカル・アタック(LAA)に基づく専用トレーニングスキームと関連付けられています。 3つの異なるデータセットの文献の最近の10つの手法と比較して,速度と精度の両面で最高の性能が得られることを示す。
論文参考訳（メタデータ） (2021-08-03T17:09:56Z)
DAGA: Data Augmentation with a Generation Approach for Low-resource Tagging Tasks [88.62288327934499]
線形化ラベル付き文に基づいて訓練された言語モデルを用いた新しい拡張手法を提案する。本手法は, 教師付き設定と半教師付き設定の両方に適用可能である。
論文参考訳（メタデータ） (2020-11-03T07:49:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。