論文の概要: MMInA: Benchmarking Multihop Multimodal Internet Agents
- arxiv url: http://arxiv.org/abs/2404.09992v1
- Date: Mon, 15 Apr 2024 17:59:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-17 21:18:05.991868
- Title: MMInA: Benchmarking Multihop Multimodal Internet Agents
- Title(参考訳): MMInA:マルチホップマルチモーダルインターネットエージェントのベンチマーク
- Authors: Ziniu Zhang, Shulin Tian, Liangyu Chen, Ziwei Liu,
- Abstract要約: 本稿では,マルチホップとマルチモーダルのベンチマークであるMMInAについて述べる。
私たちのデータには、ショッピングや旅行など、さまざまな分野をカバーする1050の人書きタスクが含まれています。
提案手法は,エージェントのシングルホップとマルチホップのWebブラウジング能力を大きく改善した。
- 参考スコア(独自算出の注目度): 36.173995299002
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autonomous embodied agents live on an Internet of multimedia websites. Can they hop around multimodal websites to complete complex user tasks? Existing benchmarks fail to assess them in a realistic, evolving environment for their embodiment across websites. To answer this question, we present MMInA, a multihop and multimodal benchmark to evaluate the embodied agents for compositional Internet tasks, with several appealing properties: 1) Evolving real-world multimodal websites. Our benchmark uniquely operates on evolving real-world websites, ensuring a high degree of realism and applicability to natural user tasks. Our data includes 1,050 human-written tasks covering various domains such as shopping and travel, with each task requiring the agent to autonomously extract multimodal information from web pages as observations; 2) Multihop web browsing. Our dataset features naturally compositional tasks that require information from or actions on multiple websites to solve, to assess long-range reasoning capabilities on web tasks; 3) Holistic evaluation. We propose a novel protocol for evaluating an agent's progress in completing multihop tasks. We experiment with both standalone (multimodal) language models and heuristic-based web agents. Extensive experiments demonstrate that while long-chain multihop web tasks are easy for humans, they remain challenging for state-of-the-art web agents. We identify that agents are more likely to fail on the early hops when solving tasks of more hops, which results in lower task success rates. To address this issue, we propose a simple memory augmentation approach replaying past action trajectories to reflect. Our method significantly improved both the single-hop and multihop web browsing abilities of agents. See our code and data at https://mmina.cliangyu.com
- Abstract(参考訳): 自律的なエンボディエージェントは、マルチメディアWebサイトのインターネットに住んでいます。
複雑なユーザタスクを完了するために、彼らはマルチモーダルなWebサイトをホップできますか?
既存のベンチマークでは、Webサイト全体にわたる実施のために、現実的で進化している環境での評価に失敗している。
この問いに答えるために、MMInAというマルチホップとマルチモーダルのベンチマークを提示する。
1)現実世界のマルチモーダルWebサイトを進化させる。
われわれのベンチマークは、現実世界のWebサイトを進化させ、自然のユーザタスクに高いリアリズムと適用性を確保している。
我々のデータには、ショッピングや旅行などさまざまな分野をカバーする1,050の人書きタスクが含まれており、各タスクは、Webページから自律的にマルチモーダル情報を抽出する必要がある。
2)マルチホップWebブラウジング。
我々のデータセットは、Webタスクにおける長距離推論能力を評価するために、複数のWebサイトの情報やアクションを必要とする自然な構成タスクを特徴としている。
3)全体評価。
マルチホップタスクの完了におけるエージェントの進捗を評価するための新しいプロトコルを提案する。
我々は、スタンドアロン(マルチモーダル)言語モデルとヒューリスティックベースのWebエージェントの両方を実験する。
大規模な実験では、長鎖のマルチホップWebタスクは人間にとって容易であるが、最先端のWebエージェントでは難しいままである。
我々は、より多くのホップのタスクを解く際に、エージェントが早期ホップで失敗する確率が高く、結果としてタスクの成功率が低下することを示した。
この問題に対処するために,過去の行動軌跡を反映したメモリ拡張手法を提案する。
提案手法は,エージェントのシングルホップとマルチホップのWebブラウジング能力を大きく改善した。
コードとデータはhttps://mmina.cliangyu.comで参照してください。
関連論文リスト
- OpenWebVoyager: Building Multimodal Web Agents via Iterative Real-World Exploration, Feedback and Optimization [66.22117723598872]
マルチモーダルWebエージェントの開発を容易にするために設計されたオープンソースフレームワークを紹介する。
まず、基本モデルを模倣学習で訓練し、基礎能力を得る。
次に、エージェントにオープンウェブを探索させ、その軌道に関するフィードバックを収集する。
論文 参考訳(メタデータ) (2024-10-25T15:01:27Z) - Beyond Browsing: API-Based Web Agents [58.39129004543844]
APIベースのエージェントはWebArenaの実験でWebブラウジングエージェントを上回っている。
ハイブリッドエージェント(Hybrid Agents)は、タスク全体にわたって、ほぼ均一にパフォーマンスを向上する。
結果から,APIが利用可能であれば,Webブラウジングのみに依存するという,魅力的な代替手段が提示されることが強く示唆された。
論文 参考訳(メタデータ) (2024-10-21T19:46:06Z) - AgentOccam: A Simple Yet Strong Baseline for LLM-Based Web Agents [52.13695464678006]
本研究は, 観察空間と行動空間を簡略化することで, LLMベースのWebエージェントを強化する。
AgentOccam は以前の最先端および同時処理を 9.8 (+29.4%) と 5.9 (+15.8%) で上回っている。
論文 参考訳(メタデータ) (2024-10-17T17:50:38Z) - VisualWebArena: Evaluating Multimodal Agents on Realistic Visual Web Tasks [93.85005277463802]
VisualWebArenaは、マルチモーダルWebエージェントのパフォーマンスを現実的なタスクで評価するために設計されたベンチマークである。
このベンチマークを実行するには、イメージテキスト入力を正確に処理し、自然言語命令を解釈し、ユーザが定義した目的を達成するためにウェブサイト上でアクションを実行する必要がある。
論文 参考訳(メタデータ) (2024-01-24T18:35:21Z) - A Real-World WebAgent with Planning, Long Context Understanding, and
Program Synthesis [69.15016747150868]
本稿では,WebAgentについて紹介する。WebAgentは自己経験から学習し,実際のWebサイト上でタスクを完了させるエージェントである。
WebAgentは、指示を標準のサブ命令に分解し、長いHTMLドキュメントをタスク関連スニペットに要約し、ウェブサイトで作用する計画である。
我々は、我々のモジュラーレシピが実際のWebサイトの成功を50%以上改善し、HTML-T5が様々なHTML理解タスクを解決する最良のモデルであることを実証的に実証した。
論文 参考訳(メタデータ) (2023-07-24T14:56:30Z) - Mind2Web: Towards a Generalist Agent for the Web [25.363429937913065]
Mind2Webは、Webのためのジェネラリストエージェントの開発と評価のための最初のデータセットである。
31のドメインにまたがる137のWebサイトから2,000以上のオープンエンドタスクが収集され、Mind2WebはジェネラリストWebエージェントを構築するために必要な3つの材料を提供する。
Mind2Webをベースとして,汎用的なWebエージェントを構築するために,大規模言語モデル(LLM)を最初に検討する。
論文 参考訳(メタデータ) (2023-06-09T17:44:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。