論文の概要: AdaptAgent: Adapting Multimodal Web Agents with Few-Shot Learning from Human Demonstrations
- arxiv url: http://arxiv.org/abs/2411.13451v1
- Date: Wed, 20 Nov 2024 16:54:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-21 16:13:41.309307
- Title: AdaptAgent: Adapting Multimodal Web Agents with Few-Shot Learning from Human Demonstrations
- Title(参考訳): AdaptAgent: 人間のデモから学ぶことの少ないマルチモーダルWebエージェントの適応
- Authors: Gaurav Verma, Rachneet Kaur, Nishan Srishankar, Zhen Zeng, Tucker Balch, Manuela Veloso,
- Abstract要約: MLLM(Multimodal Large Language Models)を利用する最先端のマルチモーダルWebエージェントは、多くのWebタスクを自律的に実行することができる。
Webエージェントを構築するための現在の戦略は、(i)基礎となるMLLMの一般化可能性と、(ii)Web関連タスクにおけるMLLMの大規模微調整によるその操縦性に依存している。
そこで我々はAdaptAgentフレームワークを導入し、プロプライエタリなマルチモーダルWebエージェントとオープンなマルチモーダルWebエージェントの両方が、人間のデモをほとんど使わずに新しいWebサイトやドメインに適応できるようにする。
- 参考スコア(独自算出の注目度): 18.820883566002543
- License:
- Abstract: State-of-the-art multimodal web agents, powered by Multimodal Large Language Models (MLLMs), can autonomously execute many web tasks by processing user instructions and interacting with graphical user interfaces (GUIs). Current strategies for building web agents rely on (i) the generalizability of underlying MLLMs and their steerability via prompting, and (ii) large-scale fine-tuning of MLLMs on web-related tasks. However, web agents still struggle to automate tasks on unseen websites and domains, limiting their applicability to enterprise-specific and proprietary platforms. Beyond generalization from large-scale pre-training and fine-tuning, we propose building agents for few-shot adaptability using human demonstrations. We introduce the AdaptAgent framework that enables both proprietary and open-weights multimodal web agents to adapt to new websites and domains using few human demonstrations (up to 2). Our experiments on two popular benchmarks -- Mind2Web & VisualWebArena -- show that using in-context demonstrations (for proprietary models) or meta-adaptation demonstrations (for meta-learned open-weights models) boosts task success rate by 3.36% to 7.21% over non-adapted state-of-the-art models, corresponding to a relative increase of 21.03% to 65.75%. Furthermore, our additional analyses (a) show the effectiveness of multimodal demonstrations over text-only ones, (b) shed light on the influence of different data selection strategies during meta-learning on the generalization of the agent, and (c) demonstrate the effect of number of few-shot examples on the web agent's success rate. Overall, our results unlock a complementary axis for developing widely applicable multimodal web agents beyond large-scale pre-training and fine-tuning, emphasizing few-shot adaptability.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)を利用する最先端のマルチモーダルWebエージェントは、ユーザ命令を処理し、グラフィカルユーザインタフェース(GUI)と対話することによって、多くのWebタスクを自律的に実行することができる。
Webエージェント構築の現在の戦略
一 MLLMの一般化可能性及びプロンプトによる操縦性
(II)ウェブ関連タスクにおけるMLLMの大規模微調整
しかし、Webエージェントは、まだ目に見えないWebサイトやドメイン上のタスクを自動化するのに苦労しており、企業固有のプロプライエタリなプラットフォームへの適用を制限している。
大規模な事前学習と微調整の一般化の他に,人間の実演による数発の適応性向上のためのエージェントの構築を提案する。
我々はAdaptAgentフレームワークを導入し、プロプライエタリなマルチモーダルWebエージェントとオープンなマルチモーダルWebエージェントの両方が、人間によるデモをほとんど使わずに新しいWebサイトやドメインに適応できるようにする(最大2。
Mind2WebとVisualWebArenaという2つの人気のあるベンチマーク実験では、コンテキスト内デモ(プロプライエタリなモデル)やメタ適応デモ(メタ学習されたオープンウェイトモデル)を使用することで、非適応型モデルに対してタスク成功率が3.36%から7.21%向上し、21.03%から65.75%の相対的な増加に対応することが示されている。
さらに、我々の追加分析
(a)テキストのみによるマルチモーダルな実演の有効性を示す。
b)メタラーニング中の異なるデータ選択方略がエージェントの一般化に及ぼす影響、及び
(c) Webエージェントの成功率に及ぼす事例数の影響を示す。
その結果,大規模な事前学習や微調整を超越した多モーダルWebエージェント開発のための補完軸が確立され,少数ショット適応性が強調された。
関連論文リスト
- AgentOccam: A Simple Yet Strong Baseline for LLM-Based Web Agents [52.13695464678006]
本研究は, 観察空間と行動空間を簡略化することで, LLMベースのWebエージェントを強化する。
AgentOccam は以前の最先端および同時処理を 9.8 (+29.4%) と 5.9 (+15.8%) で上回っている。
論文 参考訳(メタデータ) (2024-10-17T17:50:38Z) - Very Large-Scale Multi-Agent Simulation in AgentScope [112.98986800070581]
我々は,ユーザフレンドリーなマルチエージェントプラットフォームであるAgentScopeの新機能とコンポーネントを開発した。
高いスケーラビリティと高効率を実現するために,アクタをベースとした分散機構を提案する。
また、多数のエージェントを便利に監視し、管理するためのWebベースのインターフェースも提供します。
論文 参考訳(メタデータ) (2024-07-25T05:50:46Z) - Exploring the Transferability of Visual Prompting for Multimodal Large Language Models [47.162575147632396]
Transferable Visual Prompting (TVP) は、異なるモデルに転送可能な視覚的プロンプトを生成するためのシンプルで効果的なアプローチである。
本稿では,既存の視覚的プロンプト手法のクロスモデル特徴劣化問題に対処し,学習したプロンプトの伝達可能性を高めるための2つの戦略を提案する。
論文 参考訳(メタデータ) (2024-04-17T09:39:07Z) - An Interactive Agent Foundation Model [49.77861810045509]
本稿では,AIエージェントを訓練するための新しいマルチタスクエージェントトレーニングパラダイムを用いた対話型エージェント基礎モデルを提案する。
トレーニングパラダイムは、視覚マスク付きオートエンコーダ、言語モデリング、次世代の予測など、多様な事前学習戦略を統一する。
私たちは、ロボティクス、ゲームAI、ヘルスケアという3つの異なる領域でフレームワークのパフォーマンスを実演します。
論文 参考訳(メタデータ) (2024-02-08T18:58:02Z) - WebVoyager: Building an End-to-End Web Agent with Large Multimodal Models [65.18602126334716]
既存のWebエージェントは1つの入力モダリティしか処理せず、単純化されたWebシミュレータや静的なWebスナップショットでのみ評価される。
我々は,WebVoyagerを紹介した。LMM(Large Multimodal Model)を利用したWebエージェントで,現実世界のWebサイトと対話することで,エンド・ツー・エンドでのユーザ指示を完了することができる。
GPT-4(All Tools)とWebVoyager(text-only)の両方のパフォーマンスを大幅に上回る、59.1%のタスク成功率を実現していることを示す。
論文 参考訳(メタデータ) (2024-01-25T03:33:18Z) - VisualWebArena: Evaluating Multimodal Agents on Realistic Visual Web Tasks [93.85005277463802]
VisualWebArenaは、マルチモーダルWebエージェントのパフォーマンスを現実的なタスクで評価するために設計されたベンチマークである。
このベンチマークを実行するには、イメージテキスト入力を正確に処理し、自然言語命令を解釈し、ユーザが定義した目的を達成するためにウェブサイト上でアクションを実行する必要がある。
論文 参考訳(メタデータ) (2024-01-24T18:35:21Z) - Multimodal Web Navigation with Instruction-Finetuned Foundation Models [99.14209521903854]
視覚言語基礎モデルを用いたWebエージェントのためのデータ駆動オフライントレーニングについて検討する。
本稿では,WebページのスクリーンショットとHTMLページの両方を観察する命令追従型マルチモーダルエージェントWebGUMを提案する。
このレシピは,マルチモーダル認識,HTML理解,マルチステップ推論といったエージェントの能力を向上させることを実証的に実証する。
論文 参考訳(メタデータ) (2023-05-19T17:44:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。