論文の概要: Tur[k]ingBench: A Challenge Benchmark for Web Agents
- arxiv url: http://arxiv.org/abs/2403.11905v1
- Date: Mon, 18 Mar 2024 16:06:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 19:40:35.777555
- Title: Tur[k]ingBench: A Challenge Benchmark for Web Agents
- Title(参考訳): Tur[k]ingBench: Webエージェントのチャレンジベンチマーク
- Authors: Kevin Xu, Yeganeh Kordi, Kate Sanders, Yizhong Wang, Adam Byerly, Jack Zhang, Benjamin Van Durme, Daniel Khashabi,
- Abstract要約: TurkingBenchは、マルチモーダルコンテキストによるテキスト命令を含むWebページとして定式化されたタスクのベンチマークである。
このベンチマークには158タスクに分散した32.2Kインスタンスが含まれている。
本ベンチマークでは,言語のみ,視覚のみ,レイアウトのみを含む最先端モデルの性能を評価する。
- 参考スコア(独自算出の注目度): 43.23043474694926
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent chatbots have demonstrated impressive ability to understand and communicate in raw-text form. However, there is more to the world than raw text. For example, humans spend long hours of their time on web pages, where text is intertwined with other modalities and tasks are accomplished in the form of various complex interactions. Can state-of-the-art multi-modal models generalize to such complex domains? To address this question, we introduce TurkingBench, a benchmark of tasks formulated as web pages containing textual instructions with multi-modal context. Unlike existing work which employs artificially synthesized web pages, here we use natural HTML pages that were originally designed for crowdsourcing workers for various annotation purposes. The HTML instructions of each task are also instantiated with various values (obtained from the crowdsourcing tasks) to form new instances of the task. This benchmark contains 32.2K instances distributed across 158 tasks. Additionally, to facilitate the evaluation on TurkingBench, we develop an evaluation framework that connects the responses of chatbots to modifications on web pages (modifying a text box, checking a radio, etc.). We evaluate the performance of state-of-the-art models, including language-only, vision-only, and layout-only models, and their combinations, on this benchmark. Our findings reveal that these models perform significantly better than random chance, yet considerable room exists for improvement. We hope this benchmark will help facilitate the evaluation and development of web-based agents.
- Abstract(参考訳): 最近のチャットボットは、生のテキスト形式で理解し、コミュニケーションする能力を発揮している。
しかし、世界は原文以上のものが存在する。
例えば、人間が長い時間をウェブページで過ごし、そこではテキストが他のモダリティと連動し、タスクは様々な複雑な相互作用の形で達成される。
最先端のマルチモーダルモデルはそのような複雑な領域に一般化できるのか?
この問題に対処するために、TurkingBenchという、マルチモーダルコンテキストによるテキスト命令を含むWebページとして定式化されたタスクのベンチマークを導入する。
人工的に合成されたWebページを利用する既存の作業とは異なり、ここでは、さまざまなアノテーションのために、もともとクラウドソーシングワーカーのために設計された、自然なHTMLページを使用します。
各タスクのHTML命令は、さまざまな値(クラウドソーシングタスクから得られる)でインスタンス化され、タスクの新しいインスタンスを形成します。
このベンチマークには158タスクに分散した32.2Kインスタンスが含まれている。
さらに,TurkingBenchの評価を容易にするために,チャットボットの応答をWebページの修正(テキストボックスの変更,ラジオの確認など)に結びつける評価フレームワークを開発した。
本ベンチマークでは,言語のみ,視覚のみ,レイアウトのみ,およびそれらの組み合わせを含む最先端モデルの性能を評価する。
以上の結果から,これらのモデルではランダムな確率よりもはるかに優れた性能が得られたが,改善の余地は十分にあることがわかった。
このベンチマークによって、Webベースのエージェントの評価と開発が促進されることを願っています。
関連論文リスト
- WebQuest: A Benchmark for Multimodal QA on Web Page Sequences [10.008284460456107]
WebQuestは、複数のWebページにわたる推論を必要とする、複数ページの質問回答データセットである。
本データセットは,多くのWebページから情報抽出,マルチモーダル検索,および情報の合成を評価する。
我々は、GPT-4V、Gemini Flash、Claude 3、InstructBLIP、PaliGemmaなどのオープンソースモデルなど、主要なプロプライエタリなマルチモーダルモデルを評価します。
論文 参考訳(メタデータ) (2024-09-06T18:44:25Z) - CRAB: Cross-environment Agent Benchmark for Multimodal Language Model Agents [49.68117560675367]
Crabは、クロス環境タスクをサポートするように設計された最初のベンチマークフレームワークである。
私たちのフレームワークは複数のデバイスをサポートし、Pythonインターフェースで簡単に任意の環境に拡張できます。
実験の結果、GPT-4oの1剤が38.01%の最高完成率を達成することが示された。
論文 参考訳(メタデータ) (2024-07-01T17:55:04Z) - MMInA: Benchmarking Multihop Multimodal Internet Agents [36.173995299002]
本稿では,マルチホップとマルチモーダルのベンチマークであるMMInAについて述べる。
私たちのデータには、ショッピングや旅行など、さまざまな分野をカバーする1050の人書きタスクが含まれています。
提案手法は,エージェントのシングルホップとマルチホップのWebブラウジング能力を大きく改善した。
論文 参考訳(メタデータ) (2024-04-15T17:59:50Z) - VisualWebBench: How Far Have Multimodal LLMs Evolved in Web Page Understanding and Grounding? [115.60866817774641]
MLLM(Multimodal Large Language Model)は、Web関連のタスクにおいて有望であることを示す。
Webドメインにおけるパフォーマンス評価は、包括的なベンチマークが欠如しているため、依然として課題である。
benchは、さまざまなWebタスクにわたるMLLMの機能を評価するために設計されたマルチモーダルベンチマークである。
論文 参考訳(メタデータ) (2024-04-09T02:29:39Z) - VisualWebArena: Evaluating Multimodal Agents on Realistic Visual Web Tasks [93.85005277463802]
VisualWebArenaは、マルチモーダルWebエージェントのパフォーマンスを現実的なタスクで評価するために設計されたベンチマークである。
このベンチマークを実行するには、イメージテキスト入力を正確に処理し、自然言語命令を解釈し、ユーザが定義した目的を達成するためにウェブサイト上でアクションを実行する必要がある。
論文 参考訳(メタデータ) (2024-01-24T18:35:21Z) - Dynamic-SUPERB: Towards A Dynamic, Collaborative, and Comprehensive Instruction-Tuning Benchmark for Speech [107.81472531864195]
テキスト言語モデルは、よく整形された命令が与えられたときに、目に見えないタスクに一般化する際、顕著なゼロショット能力を示している。
ゼロショット方式で複数のタスクを実行するための命令チューニングを活用できるユニバーサル音声モデルを構築するためのベンチマークであるDynamic-SUPERBを提案する。
論文 参考訳(メタデータ) (2023-09-18T06:43:30Z) - Multimodal Web Navigation with Instruction-Finetuned Foundation Models [99.14209521903854]
視覚言語基礎モデルを用いたWebエージェントのためのデータ駆動オフライントレーニングについて検討する。
本稿では,WebページのスクリーンショットとHTMLページの両方を観察する命令追従型マルチモーダルエージェントWebGUMを提案する。
このレシピは,マルチモーダル認識,HTML理解,マルチステップ推論といったエージェントの能力を向上させることを実証的に実証する。
論文 参考訳(メタデータ) (2023-05-19T17:44:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。