論文の概要: Tur[k]ingBench: A Challenge Benchmark for Web Agents
- arxiv url: http://arxiv.org/abs/2403.11905v3
- Date: Sun, 1 Sep 2024 07:13:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-04 19:02:17.338606
- Title: Tur[k]ingBench: A Challenge Benchmark for Web Agents
- Title(参考訳): Tur[k]ingBench: Webエージェントのチャレンジベンチマーク
- Authors: Kevin Xu, Yeganeh Kordi, Tanay Nayak, Ado Asija, Yizhong Wang, Kate Sanders, Adam Byerly, Jingyu Zhang, Benjamin Van Durme, Daniel Khashabi,
- Abstract要約: TurkingBenchは、テキストインストラクションとマルチモーダルコンテキストを備えたWebページとして提示されるタスクからなるベンチマークである。
このベンチマークには158タスクにまたがる32.2Kインスタンスが含まれている。
言語のみのモデルと視覚言語モデルを含む,最先端のプライベートモデルとオープンソースモデルの性能を評価する。
- 参考スコア(独自算出の注目度): 41.852615330725655
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Can advanced multi-modal models effectively tackle complex web-based tasks? Such tasks are often found on crowdsourcing platforms, where crowdworkers engage in challenging micro-tasks within web-based environments. Building on this idea, we present TurkingBench, a benchmark consisting of tasks presented as web pages with textual instructions and multi-modal contexts. Unlike previous approaches that rely on artificially synthesized web pages, our benchmark uses natural HTML pages originally designed for crowdsourcing workers to perform various annotation tasks. Each task's HTML instructions are instantiated with different values derived from crowdsourcing tasks, creating diverse instances. This benchmark includes 32.2K instances spread across 158 tasks. To support the evaluation of TurkingBench, we have developed a framework that links chatbot responses to actions on web pages (e.g., modifying a text box, selecting a radio button). We assess the performance of cutting-edge private and open-source models, including language-only and vision-language models (such as GPT4 and InternVL), on this benchmark. Our results show that while these models outperform random chance, there is still significant room for improvement. We hope that this benchmark will drive progress in the evaluation and development of web-based agents.
- Abstract(参考訳): 高度なマルチモーダルモデルは、複雑なWebベースのタスクに効果的に対処できるのか?
このようなタスクはクラウドソーシングプラットフォームでよく見られ、クラウドワーカーはWebベースの環境におけるマイクロタスクに挑戦する。
このアイデアに基づいてTurkingBenchを提案する。TurkingBenchは、テキスト命令とマルチモーダルコンテキストを備えたWebページとして提示されるタスクからなるベンチマークである。
人工的に合成されたWebページに依存する従来のアプローチとは異なり、我々のベンチマークはもともと、クラウドソーシングワーカーが様々なアノテーションタスクを実行するために設計された自然なHTMLページを使用する。
各タスクのHTML命令は、クラウドソーシングタスクから派生したさまざまな値でインスタンス化され、多様なインスタンスを生成する。
このベンチマークには158タスクにまたがる32.2Kインスタンスが含まれている。
本研究では、TurkingBenchの評価を支援するために、Webページ上のアクション(例えば、テキストボックスの変更、ラジオボタンの選択など)にチャットボットの応答をリンクするフレームワークを開発した。
本稿では,GPT4 や InternVL などの言語のみを含む最先端のプライベートおよびオープンソースモデルの性能評価を行う。
以上の結果から,これらのモデルがランダムな確率よりも優れているが,改善の余地は依然として大きいことがわかった。
このベンチマークがWebベースのエージェントの評価と開発を進展させることを期待している。
関連論文リスト
- WebQuest: A Benchmark for Multimodal QA on Web Page Sequences [10.008284460456107]
WebQuestは、複数のWebページにわたる推論を必要とする、複数ページの質問回答データセットである。
本データセットは,多くのWebページから情報抽出,マルチモーダル検索,および情報の合成を評価する。
我々は、GPT-4V、Gemini Flash、Claude 3、InstructBLIP、PaliGemmaなどのオープンソースモデルなど、主要なプロプライエタリなマルチモーダルモデルを評価します。
論文 参考訳(メタデータ) (2024-09-06T18:44:25Z) - CRAB: Cross-environment Agent Benchmark for Multimodal Language Model Agents [49.68117560675367]
Crabは、クロス環境タスクをサポートするように設計された最初のベンチマークフレームワークである。
私たちのフレームワークは複数のデバイスをサポートし、Pythonインターフェースで簡単に任意の環境に拡張できます。
実験の結果、GPT-4oの1剤が38.01%の最高完成率を達成することが示された。
論文 参考訳(メタデータ) (2024-07-01T17:55:04Z) - MMInA: Benchmarking Multihop Multimodal Internet Agents [36.173995299002]
本稿では,マルチホップとマルチモーダルのベンチマークであるMMInAについて述べる。
私たちのデータには、ショッピングや旅行など、さまざまな分野をカバーする1050の人書きタスクが含まれています。
提案手法は,エージェントのシングルホップとマルチホップのWebブラウジング能力を大きく改善した。
論文 参考訳(メタデータ) (2024-04-15T17:59:50Z) - VisualWebBench: How Far Have Multimodal LLMs Evolved in Web Page Understanding and Grounding? [115.60866817774641]
MLLM(Multimodal Large Language Model)は、Web関連のタスクにおいて有望であることを示す。
Webドメインにおけるパフォーマンス評価は、包括的なベンチマークが欠如しているため、依然として課題である。
benchは、さまざまなWebタスクにわたるMLLMの機能を評価するために設計されたマルチモーダルベンチマークである。
論文 参考訳(メタデータ) (2024-04-09T02:29:39Z) - VisualWebArena: Evaluating Multimodal Agents on Realistic Visual Web Tasks [93.85005277463802]
VisualWebArenaは、マルチモーダルWebエージェントのパフォーマンスを現実的なタスクで評価するために設計されたベンチマークである。
このベンチマークを実行するには、イメージテキスト入力を正確に処理し、自然言語命令を解釈し、ユーザが定義した目的を達成するためにウェブサイト上でアクションを実行する必要がある。
論文 参考訳(メタデータ) (2024-01-24T18:35:21Z) - Dynamic-SUPERB: Towards A Dynamic, Collaborative, and Comprehensive Instruction-Tuning Benchmark for Speech [107.81472531864195]
テキスト言語モデルは、よく整形された命令が与えられたときに、目に見えないタスクに一般化する際、顕著なゼロショット能力を示している。
ゼロショット方式で複数のタスクを実行するための命令チューニングを活用できるユニバーサル音声モデルを構築するためのベンチマークであるDynamic-SUPERBを提案する。
論文 参考訳(メタデータ) (2023-09-18T06:43:30Z) - Multimodal Web Navigation with Instruction-Finetuned Foundation Models [99.14209521903854]
視覚言語基礎モデルを用いたWebエージェントのためのデータ駆動オフライントレーニングについて検討する。
本稿では,WebページのスクリーンショットとHTMLページの両方を観察する命令追従型マルチモーダルエージェントWebGUMを提案する。
このレシピは,マルチモーダル認識,HTML理解,マルチステップ推論といったエージェントの能力を向上させることを実証的に実証する。
論文 参考訳(メタデータ) (2023-05-19T17:44:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。