論文の概要: WILBUR: Adaptive In-Context Learning for Robust and Accurate Web Agents
- arxiv url: http://arxiv.org/abs/2404.05902v1
- Date: Mon, 8 Apr 2024 23:10:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-10 16:28:06.451680
- Title: WILBUR: Adaptive In-Context Learning for Robust and Accurate Web Agents
- Title(参考訳): WILBUR:ロバストで正確なWebエージェントのための適応型インコンテキスト学習
- Authors: Michael Lutz, Arth Bohra, Manvel Saroyan, Artem Harutyunyan, Giovanni Campagna,
- Abstract要約: Wilburは、微分可能なランキングモデルと新しい命令合成手法を用いるアプローチである。
そこで本研究では,代表的目標を抽出する生成的オートカリキュラムのデータに基づいてランキングモデルをトレーニング可能であることを示す。
Wilbur氏はWebVoyagerベンチマークで最先端の結果を達成し、テキストのみのモデルを全体の8%、特定のウェブサイトで最大36%上回った。
- 参考スコア(独自算出の注目度): 1.9352015147920767
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the realm of web agent research, achieving both generalization and accuracy remains a challenging problem. Due to high variance in website structure, existing approaches often fail. Moreover, existing fine-tuning and in-context learning techniques fail to generalize across multiple websites. We introduce Wilbur, an approach that uses a differentiable ranking model and a novel instruction synthesis technique to optimally populate a black-box large language model's prompt with task demonstrations from previous runs. To maximize end-to-end success rates, we also propose an intelligent backtracking mechanism that learns and recovers from its mistakes. Finally, we show that our ranking model can be trained on data from a generative auto-curriculum which samples representative goals from an LLM, runs the agent, and automatically evaluates it, with no manual annotation. Wilbur achieves state-of-the-art results on the WebVoyager benchmark, beating text-only models by 8% overall, and up to 36% on certain websites. On the same benchmark, Wilbur is within 5% of a strong multi-modal model despite only receiving textual inputs, and further analysis reveals a substantial number of failures are due to engineering challenges of operating the web.
- Abstract(参考訳): Webエージェント研究の領域では、一般化と精度の両方を達成することは難しい問題である。
ウェブサイトの構造のばらつきが大きいため、既存のアプローチは失敗することが多い。
さらに、既存の微調整およびコンテキスト内学習技術は、複数のウェブサイトにまたがる一般化に失敗する。
異なるランク付けモデルと新しい命令合成技術を用いて,ブラックボックスの大規模言語モデルのプロンプトを,前回の実行時のタスクデモで最適に生成する手法であるWilburを紹介する。
また,エンド・ツー・エンドの成功率を最大化するために,その誤りから学習し,回復するインテリジェント・バックトラック機構を提案する。
最後に、LLMから代表目標を抽出し、エージェントを実行し、手動のアノテーションなしで自動的に評価する生成オートカリキュラムのデータに基づいてランキングモデルをトレーニングできることを示す。
Wilbur氏はWebVoyagerベンチマークで最先端の結果を達成し、テキストのみのモデルを全体の8%、特定のウェブサイトで最大36%上回った。
同じベンチマークでは、Wilburはテキスト入力のみを受け取っているにもかかわらず、強いマルチモーダルモデルの5%以内であり、さらに分析の結果、Webを運用するエンジニアリング上の課題によって、かなりの数の失敗が判明している。
関連論文リスト
- LiveXiv -- A Multi-Modal Live Benchmark Based on Arxiv Papers Content [62.816876067499415]
我々は、科学的ArXiv論文に基づくスケーラブルな進化型ライブベンチマークであるLiveXivを提案する。
LiveXivは、任意のタイムスタンプでドメイン固有の原稿にアクセスし、視覚的な問合せペアを自動的に生成することを提案する。
ベンチマークの最初のバージョンで、複数のオープンでプロプライエタリなLMM(Large Multi-modal Models)をベンチマークし、その挑戦的な性質を示し、モデルの真の能力を明らかにする。
論文 参考訳(メタデータ) (2024-10-14T17:51:23Z) - Large Language Models Can Self-Improve At Web Agent Tasks [37.17001438055515]
大規模言語モデル(LLM)は、ゼロショットまたは少数ショットの方法でエージェントとして新しい環境をナビゲートする機能を最近デモした。
WebArena ベンチマークを用いて,LLM が長期タスクにおけるエージェントとしての性能を自己向上する方法について検討した。
自己改善手順により,WebArenaベンチマークのベースモデルよりもタスク完了率を31%向上させる。
論文 参考訳(メタデータ) (2024-05-30T17:52:36Z) - Zero-shot Retrieval: Augmenting Pre-trained Models with Search Engines [83.65380507372483]
大規模で事前訓練されたモデルは、問題を解決するのに必要なタスク固有のデータの量を劇的に削減するが、多くの場合、ドメイン固有のニュアンスを箱から取り出すのに失敗する。
本稿では,NLPとマルチモーダル学習の最近の進歩を活用して,検索エンジン検索による事前学習モデルを強化する方法について述べる。
論文 参考訳(メタデータ) (2023-11-29T05:33:28Z) - Neural Embeddings for Web Testing [49.66745368789056]
既存のクローラは、状態等価性を評価するために、アプリ固有のしきい値ベースのアルゴリズムに依存している。
ニューラルネットワークの埋め込みとしきい値のない分類器に基づく新しい抽象関数WEBEMBEDを提案する。
WEBEMBEDは,9つのWebアプリケーションに対する評価の結果,近距離検出により最先端技術よりも精度が高いことがわかった。
論文 参考訳(メタデータ) (2023-06-12T19:59:36Z) - Preserving Knowledge Invariance: Rethinking Robustness Evaluation of
Open Information Extraction [50.62245481416744]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。
我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。
さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文 参考訳(メタデータ) (2023-05-23T12:05:09Z) - ZhichunRoad at Amazon KDD Cup 2022: MultiTask Pre-Training for
E-Commerce Product Search [4.220439000486713]
検索結果の質を向上させるために,頑健な多言語モデルを提案する。
事前学習の段階では、mlmタスク、分類タスク、コントラスト学習タスクを採用する。
微調整段階では、自信ある学習、指数的移動平均法(EMA)、対人訓練(FGM)、正規化ドロップアウト戦略(R-Drop)を用いる。
論文 参考訳(メタデータ) (2023-01-31T07:31:34Z) - Generalization Properties of Retrieval-based Models [50.35325326050263]
検索ベースの機械学習手法は、幅広い問題で成功をおさめた。
これらのモデルの約束を示す文献が増えているにもかかわらず、そのようなモデルの理論的基盤はいまだに解明されていない。
本稿では,その一般化能力を特徴付けるために,検索ベースモデルの形式的処理を行う。
論文 参考訳(メタデータ) (2022-10-06T00:33:01Z) - Enabling the Network to Surf the Internet [13.26679087834881]
我々はモデルがインターネットをサーフィンできるフレームワークを開発した。
学習表現の一般化能力は,自己教師付き学習に不可欠である。
miniImageNet, tieredImageNet, Omniglotの実験により, 提案フレームワークの優位性を実証した。
論文 参考訳(メタデータ) (2021-02-24T11:00:29Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。