論文の概要: From Grounding to Planning: Benchmarking Bottlenecks in Web Agents
- arxiv url: http://arxiv.org/abs/2409.01927v1
- Date: Tue, 3 Sep 2024 14:17:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 01:08:09.564113
- Title: From Grounding to Planning: Benchmarking Bottlenecks in Web Agents
- Title(参考訳): グラウンドニングからプランニングへ - Webエージェントのブートネックのベンチマーク
- Authors: Segev Shlomov, Ben wiesel, Aviad Sela, Ido Levy, Liane Galanti, Roy Abitbol,
- Abstract要約: 一般的なWebベースのエージェントは、複雑なWeb環境と対話するためにますます不可欠である。
しかし、実世界のWebアプリケーションにおける彼らのパフォーマンスは依然として貧弱であり、最先端のフロンティアモデルでさえ非常に低い精度が得られる。
我々は,計画コンポーネントと接地コンポーネントの区別を強化し,Mind2Webデータセット上で実験を精査することによって,新たな分析を行う。
- 参考スコア(独自算出の注目度): 1.6135641587748402
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: General web-based agents are increasingly essential for interacting with complex web environments, yet their performance in real-world web applications remains poor, yielding extremely low accuracy even with state-of-the-art frontier models. We observe that these agents can be decomposed into two primary components: Planning and Grounding. Yet, most existing research treats these agents as black boxes, focusing on end-to-end evaluations which hinder meaningful improvements. We sharpen the distinction between the planning and grounding components and conduct a novel analysis by refining experiments on the Mind2Web dataset. Our work proposes a new benchmark for each of the components separately, identifying the bottlenecks and pain points that limit agent performance. Contrary to prevalent assumptions, our findings suggest that grounding is not a significant bottleneck and can be effectively addressed with current techniques. Instead, the primary challenge lies in the planning component, which is the main source of performance degradation. Through this analysis, we offer new insights and demonstrate practical suggestions for improving the capabilities of web agents, paving the way for more reliable agents.
- Abstract(参考訳): 一般的なWebベースのエージェントは複雑なWeb環境と対話するのにますます不可欠だが、実世界のWebアプリケーションのパフォーマンスは依然として貧弱であり、最先端のフロンティアモデルでさえ極めて低い精度である。
我々はこれらのエージェントを2つの主要な構成要素であるプランニングとグラウンドに分解することができることを観察した。
しかし、既存のほとんどの研究は、これらのエージェントをブラックボックスとして扱い、エンド・ツー・エンドの評価に焦点を合わせ、有意義な改善を妨げている。
我々は,計画コンポーネントと接地コンポーネントの区別を強化し,Mind2Webデータセット上で実験を精査することによって,新たな分析を行う。
我々の研究は、エージェントのパフォーマンスを制限するボトルネックと痛み点を識別し、各コンポーネントに対して別々に新しいベンチマークを提案する。
一般的な仮定とは対照的に,グラウンドディングは重要なボトルネックではなく,現在の手法で効果的に対処できることが示唆された。
代わりに、主な課題は、パフォーマンス劣化の主な原因である計画コンポーネントにあります。
この分析を通じて、我々は、より信頼性の高いエージェントに道を開くことにより、Webエージェントの能力を向上させるための新しい洞察を提供し、実践的な提案を示す。
関連論文リスト
- How Important are Data Augmentations to Close the Domain Gap for Object Detection in Orbit? [15.550663626482903]
宇宙空間におけるコンピュータビジョンの領域ギャップを埋めるためのデータ拡張の有効性について検討する。
本稿では,軌道画像に観察される視覚効果をエミュレートするために開発された2つの新しいデータ拡張法を提案する。
論文 参考訳(メタデータ) (2024-10-21T08:24:46Z) - ACTRESS: Active Retraining for Semi-supervised Visual Grounding [52.08834188447851]
前回の研究であるRefTeacherは、疑似自信と注意に基づく監督を提供するために教師学生の枠組みを採用することで、この課題に取り組むための最初の試みである。
このアプローチは、Transformerベースのパイプラインに従う現在の最先端のビジュアルグラウンドモデルと互換性がない。
本稿では, ACTRESS を略したセミスーパービジョン視覚グラウンドのためのアクティブ・リトレーニング手法を提案する。
論文 参考訳(メタデータ) (2024-07-03T16:33:31Z) - AI Agents That Matter [11.794931453828974]
AIエージェントはエキサイティングな新しい研究方向であり、エージェント開発はベンチマークによって駆動される。
他のメトリクスに注意せずに正確性に焦点が当てられている。
モデルと下流の開発者のベンチマークの必要性が混じり合っている。
多くのエージェントベンチマークはホールトアウトセットが不十分であり、時にはまったくない。
論文 参考訳(メタデータ) (2024-07-01T17:48:14Z) - WebCanvas: Benchmarking Web Agents in Online Environments [29.278363444725628]
WebCanvasは、Webエージェントのための革新的なオンライン評価フレームワークである。
我々は、推論のためのモジュールを備えたエージェントフレームワークをオープンソースとして公開し、コミュニティがオンライン推論と評価を行うための基盤を提供します。
ベストパフォーマンスエージェントは,Mind2Web-Liveテストセット上でのタスク成功率23.1%,タスク完了率48.8%を達成する。
論文 参考訳(メタデータ) (2024-06-18T07:58:33Z) - SSGA-Net: Stepwise Spatial Global-local Aggregation Networks for for Autonomous Driving [27.731481134782577]
現在のモデルは、通常、タスクヘッドのオブジェクト表現を強化するために隣のフレームから特徴を集約します。
これらの手法は将来のフレームからの情報に依存し、高い計算複雑性に悩まされる。
本稿では,これらの問題を解決するために,段階的に空間的局所集約ネットワークを導入する。
論文 参考訳(メタデータ) (2024-05-29T08:12:51Z) - Alice Benchmarks: Connecting Real World Re-Identification with the
Synthetic [92.02220105679713]
我々は、Aliceベンチマーク、大規模データセット、ベンチマークおよび評価プロトコルを研究コミュニティに導入する。
Aliceベンチマークでは、人と車の2つのre-IDタスクが提供されている。
実際のターゲットの重要な特徴として、トレーニングセットのクラスタビリティは、実際のドメイン適応テストシナリオに近づくように手動で保証されない。
論文 参考訳(メタデータ) (2023-10-06T17:58:26Z) - AI planning in the imagination: High-level planning on learned abstract
search spaces [68.75684174531962]
我々は,エージェントが訓練中に学習する抽象的な検索空間において,エージェントが計画することを可能にする,PiZeroと呼ばれる新しい手法を提案する。
本研究では,旅行セールスマン問題,ソコバン問題,2048年,施設立地問題,パックマン問題など,複数の分野で評価を行った。
論文 参考訳(メタデータ) (2023-08-16T22:47:16Z) - Improving Long-Horizon Imitation Through Instruction Prediction [93.47416552953075]
本研究では、しばしば使われない補助的監督源である言語の使用について検討する。
近年のトランスフォーマーモデルの発展にインスパイアされたエージェントは,高レベルの抽象化で動作する時間拡張表現の学習を促す命令予測損失を持つエージェントを訓練する。
さらなる分析では、複雑な推論を必要とするタスクにおいて、命令モデリングが最も重要であり、単純な計画を必要とする環境において、より小さなゲインを提供する。
論文 参考訳(メタデータ) (2023-06-21T20:47:23Z) - Goal-driven Self-Attentive Recurrent Networks for Trajectory Prediction [31.02081143697431]
人間の軌道予測は、自動運転車、社会認識ロボット、およびビデオ監視アプリケーションの主要な構成要素である。
本稿では,過去の観測位置のみに作用する軽量な注意型リカレントバックボーンを提案する。
我々はU-Netアーキテクチャに基づく共通のゴールモジュールを使用し、シーン準拠の目的地を予測するために意味情報を抽出する。
論文 参考訳(メタデータ) (2022-04-25T11:12:37Z) - Triggering Failures: Out-Of-Distribution detection by learning from
local adversarial attacks in Semantic Segmentation [76.2621758731288]
セグメンテーションにおけるアウト・オブ・ディストリビューション(OOD)オブジェクトの検出に取り組む。
私たちの主な貢献は、ObsNetと呼ばれる新しいOOD検出アーキテクチャであり、ローカル・アタック(LAA)に基づく専用トレーニングスキームと関連付けられています。
3つの異なるデータセットの文献の最近の10つの手法と比較して,速度と精度の両面で最高の性能が得られることを示す。
論文 参考訳(メタデータ) (2021-08-03T17:09:56Z) - DAGA: Data Augmentation with a Generation Approach for Low-resource
Tagging Tasks [88.62288327934499]
線形化ラベル付き文に基づいて訓練された言語モデルを用いた新しい拡張手法を提案する。
本手法は, 教師付き設定と半教師付き設定の両方に適用可能である。
論文 参考訳(メタデータ) (2020-11-03T07:49:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。