Fugu-MT 論文翻訳(概要): Tur[k]ingBench: A Challenge Benchmark for Web Agents

論文の概要: Tur[k]ingBench: A Challenge Benchmark for Web Agents

arxiv url: http://arxiv.org/abs/2403.11905v2
Date: Thu, 21 Mar 2024 21:57:13 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-25 11:48:40.946593
Title: Tur[k]ingBench: A Challenge Benchmark for Web Agents
Title（参考訳）: Tur[k]ingBench: Webエージェントのチャレンジベンチマーク
Authors: Kevin Xu, Yeganeh Kordi, Kate Sanders, Yizhong Wang, Adam Byerly, Jack Zhang, Benjamin Van Durme, Daniel Khashabi,
Abstract要約: TurkingBenchは、マルチモーダルコンテキストによるテキスト命令を含むWebページとして定式化されたタスクのベンチマークである。このベンチマークには158タスクに分散した32.2Kインスタンスが含まれている。本ベンチマークでは,言語のみ,視覚のみ,レイアウトのみを含む最先端モデルの性能を評価する。
参考スコア（独自算出の注目度）: 43.23043474694926
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent chatbots have demonstrated impressive ability to understand and communicate in raw-text form. However, there is more to the world than raw text. For example, humans spend long hours of their time on web pages, where text is intertwined with other modalities and tasks are accomplished in the form of various complex interactions. Can state-of-the-art multi-modal models generalize to such complex domains? To address this question, we introduce TurkingBench, a benchmark of tasks formulated as web pages containing textual instructions with multi-modal context. Unlike existing work which employs artificially synthesized web pages, here we use natural HTML pages that were originally designed for crowdsourcing workers for various annotation purposes. The HTML instructions of each task are also instantiated with various values (obtained from the crowdsourcing tasks) to form new instances of the task. This benchmark contains 32.2K instances distributed across 158 tasks. Additionally, to facilitate the evaluation on TurkingBench, we develop an evaluation framework that connects the responses of chatbots to modifications on web pages (modifying a text box, checking a radio, etc.). We evaluate the performance of state-of-the-art models, including language-only, vision-only, and layout-only models, and their combinations, on this benchmark. Our findings reveal that these models perform significantly better than random chance, yet considerable room exists for improvement. We hope this benchmark will help facilitate the evaluation and development of web-based agents.
Abstract（参考訳）: 最近のチャットボットは、生のテキスト形式で理解し、コミュニケーションする能力を発揮している。しかし、世界は原文以上のものが存在する。例えば、人間が長い時間をウェブページで過ごし、そこではテキストが他のモダリティと連動し、タスクは様々な複雑な相互作用の形で達成される。最先端のマルチモーダルモデルはそのような複雑な領域に一般化できるのか? この問題に対処するために、TurkingBenchという、マルチモーダルコンテキストによるテキスト命令を含むWebページとして定式化されたタスクのベンチマークを導入する。人工的に合成されたWebページを利用する既存の作業とは異なり、ここでは、さまざまなアノテーションのために、もともとクラウドソーシングワーカーのために設計された、自然なHTMLページを使用します。各タスクのHTML命令は、さまざまな値(クラウドソーシングタスクから得られる)でインスタンス化され、タスクの新しいインスタンスを形成します。このベンチマークには158タスクに分散した32.2Kインスタンスが含まれている。さらに,TurkingBenchの評価を容易にするために,チャットボットの応答をWebページの修正(テキストボックスの変更,ラジオの確認など)に結びつける評価フレームワークを開発した。本ベンチマークでは,言語のみ,視覚のみ,レイアウトのみ,およびそれらの組み合わせを含む最先端モデルの性能を評価する。以上の結果から,これらのモデルではランダムな確率よりもはるかに優れた性能が得られたが,改善の余地は十分にあることがわかった。このベンチマークによって、Webベースのエージェントの評価と開発が促進されることを願っています。

関連論文リスト

FronTalk: Benchmarking Front-End Development as Conversational Code Generation with Multi-Modal Feedback [92.67587639164908]
マルチモーダルフィードバックを備えたフロントエンドコード生成のベンチマークであるFronTalkを紹介する。我々は、フロントエンド開発タスクに集中し、100のマルチターン対話のコレクションであるFronTalkをキュレートする。 20モデルの評価は、文献で体系的に調査されていない2つの重要な課題を明らかにしている。
論文参考訳（メタデータ） (2025-12-05T23:28:09Z)
IWR-Bench: Can LVLMs reconstruct interactive webpage from a user interaction video? [56.33950760097989]
IWR-Benchは、ビデオからインタラクティブなWebページ再構築におけるLVLM(Large Vision-Language Models)の機能を評価するための新しいベンチマークである。 IWR-Benchは100の現実世界のウェブサイトから1,001のアクションで1,3の精巧にキュレートされたタスクで構成されている。このベンチマークは、ビデオとアセットからインタラクションロジックを推論する包括的なマルチモーダル推論と、このロジックを関数コードに変換するための高度なコード生成という、2つの基本的な課題に関するモデルを評価する。
論文参考訳（メタデータ） (2025-09-29T12:38:06Z)
WebMMU: A Benchmark for Multimodal Multilingual Website Understanding and Code Generation [37.33126974128603]
WebMMUは3つのコアWebタスクを評価するベンチマークである。ウェブサイトの視覚的質問応答、HTML/CSS/JavaScriptを含むコード編集、モックアップ・トゥ・コード生成を統一する。評価の結果,マルチモーダル大規模言語モデル (MLLM) は基本的な情報抽出に優れるが,推論や接地に苦慮していることがわかった。
論文参考訳（メタデータ） (2025-08-22T19:41:02Z)
WebQuest: A Benchmark for Multimodal QA on Web Page Sequences [10.008284460456107]
WebQuestは、複数のWebページにわたる推論を必要とする、複数ページの質問回答データセットである。本データセットは,多くのWebページから情報抽出,マルチモーダル検索,および情報の合成を評価する。我々は、GPT-4V、Gemini Flash、Claude 3、InstructBLIP、PaliGemmaなどのオープンソースモデルなど、主要なプロプライエタリなマルチモーダルモデルを評価します。
論文参考訳（メタデータ） (2024-09-06T18:44:25Z)
CRAB: Cross-environment Agent Benchmark for Multimodal Language Model Agents [49.68117560675367]
Crabは、クロス環境タスクをサポートするように設計された最初のベンチマークフレームワークである。私たちのフレームワークは複数のデバイスをサポートし、Pythonインターフェースで簡単に任意の環境に拡張できます。実験の結果、GPT-4oの1剤が38.01%の最高完成率を達成することが示された。
論文参考訳（メタデータ） (2024-07-01T17:55:04Z)
MMInA: Benchmarking Multihop Multimodal Internet Agents [36.173995299002]
本稿では,マルチホップとマルチモーダルのベンチマークであるMMInAについて述べる。私たちのデータには、ショッピングや旅行など、さまざまな分野をカバーする1050の人書きタスクが含まれています。提案手法は,エージェントのシングルホップとマルチホップのWebブラウジング能力を大きく改善した。
論文参考訳（メタデータ） (2024-04-15T17:59:50Z)
VisualWebBench: How Far Have Multimodal LLMs Evolved in Web Page Understanding and Grounding? [115.60866817774641]
MLLM(Multimodal Large Language Model)は、Web関連のタスクにおいて有望であることを示す。 Webドメインにおけるパフォーマンス評価は、包括的なベンチマークが欠如しているため、依然として課題である。 benchは、さまざまなWebタスクにわたるMLLMの機能を評価するために設計されたマルチモーダルベンチマークである。
論文参考訳（メタデータ） (2024-04-09T02:29:39Z)
VisualWebArena: Evaluating Multimodal Agents on Realistic Visual Web Tasks [93.85005277463802]
VisualWebArenaは、マルチモーダルWebエージェントのパフォーマンスを現実的なタスクで評価するために設計されたベンチマークである。このベンチマークを実行するには、イメージテキスト入力を正確に処理し、自然言語命令を解釈し、ユーザが定義した目的を達成するためにウェブサイト上でアクションを実行する必要がある。
論文参考訳（メタデータ） (2024-01-24T18:35:21Z)
Dynamic-SUPERB: Towards A Dynamic, Collaborative, and Comprehensive Instruction-Tuning Benchmark for Speech [107.81472531864195]
テキスト言語モデルは、よく整形された命令が与えられたときに、目に見えないタスクに一般化する際、顕著なゼロショット能力を示している。ゼロショット方式で複数のタスクを実行するための命令チューニングを活用できるユニバーサル音声モデルを構築するためのベンチマークであるDynamic-SUPERBを提案する。
論文参考訳（メタデータ） (2023-09-18T06:43:30Z)
Multimodal Web Navigation with Instruction-Finetuned Foundation Models [99.14209521903854]
視覚言語基礎モデルを用いたWebエージェントのためのデータ駆動オフライントレーニングについて検討する。本稿では,WebページのスクリーンショットとHTMLページの両方を観察する命令追従型マルチモーダルエージェントWebGUMを提案する。このレシピは,マルチモーダル認識,HTML理解,マルチステップ推論といったエージェントの能力を向上させることを実証的に実証する。
論文参考訳（メタデータ） (2023-05-19T17:44:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。