論文の概要: WebLINX: Real-World Website Navigation with Multi-Turn Dialogue
- arxiv url: http://arxiv.org/abs/2402.05930v1
- Date: Thu, 8 Feb 2024 18:58:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-09 13:27:04.630414
- Title: WebLINX: Real-World Website Navigation with Multi-Turn Dialogue
- Title(参考訳): WebLINX: マルチターン対話による実世界のWebサイトナビゲーション
- Authors: Xing Han L\`u, Zden\v{e}k Kasner, Siva Reddy
- Abstract要約: WEBLINXは,対話型Webナビゲーションの2300人の専門家による実演における100Kインタラクションのベンチマークである。
私たちのベンチマークでは、150以上の現実世界のWebサイト上の幅広いパターンをカバーし、さまざまなシナリオにおけるエージェントのトレーニングと評価に使用しています。
選択した要素とスクリーンショットとアクション履歴を使用して、Webをナビゲートする際の人間の振る舞いを再現するさまざまなモデルを評価します。
- 参考スコア(独自算出の注目度): 29.217609047657188
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We propose the problem of conversational web navigation, where a digital
agent controls a web browser and follows user instructions to solve real-world
tasks in a multi-turn dialogue fashion. To support this problem, we introduce
WEBLINX - a large-scale benchmark of 100K interactions across 2300 expert
demonstrations of conversational web navigation. Our benchmark covers a broad
range of patterns on over 150 real-world websites and can be used to train and
evaluate agents in diverse scenarios. Due to the magnitude of information
present, Large Language Models (LLMs) cannot process entire web pages in
real-time. To solve this bottleneck, we design a retrieval-inspired model that
efficiently prunes HTML pages by ranking relevant elements. We use the selected
elements, along with screenshots and action history, to assess a variety of
models for their ability to replicate human behavior when navigating the web.
Our experiments span from small text-only to proprietary multimodal LLMs. We
find that smaller finetuned decoders surpass the best zero-shot LLMs (including
GPT-4V), but also larger finetuned multimodal models which were explicitly
pretrained on screenshots. However, all finetuned models struggle to generalize
to unseen websites. Our findings highlight the need for large multimodal models
that can generalize to novel settings. Our code, data and models are available
for research: https://mcgill-nlp.github.io/weblinx
- Abstract(参考訳): 本稿では,デジタルエージェントがwebブラウザを制御し,ユーザの指示に従って実世界のタスクをマルチターン対話方式で解く対話型webナビゲーションの問題を提案する。
WEBLINXは,対話型Webナビゲーションの2300件のエキスパートによる実演において,100Kインタラクションの大規模ベンチマークである。
私たちのベンチマークでは、150以上の現実世界のWebサイト上の幅広いパターンをカバーし、さまざまなシナリオにおけるエージェントのトレーニングと評価に使用しています。
情報量が大きいため、LLM(Large Language Models)はWebページ全体をリアルタイムで処理することはできない。
このボトルネックを解決するために,関連する要素をランク付けすることで,htmlページを効率的にプルーピングする検索モデルを設計した。
選択した要素とスクリーンショットとアクション履歴を使用して、Webをナビゲートする際の人間の振る舞いを再現するさまざまなモデルを評価します。
我々の実験は、小さなテキストのみからプロプライエタリなマルチモーダル LLM まで多岐にわたる。
より小型の微調整デコーダは、最高のゼロショットLCM(GPT-4Vを含む)を超えるが、スクリーンショット上で明示的に事前訓練された大型の細調整マルチモーダルモデルも見出した。
しかし、全ての微調整されたモデルは、見えないウェブサイトに一般化するのに苦労している。
その結果,新しい設定に一般化可能な大規模マルチモーダルモデルの必要性が明らかになった。
私たちのコード、データ、モデルは研究のために利用可能です。
関連論文リスト
- Web2Code: A Large-scale Webpage-to-Code Dataset and Evaluation Framework for Multimodal LLMs [112.89665642941814]
MLLM(Multimodal large language model)は、画像、ビデオ、オーディオなどのモダリティにおいて顕著な成功を収めている。
現在のMLLMは、Webページのスクリーンショットを理解し、対応するHTMLコードを生成するのに驚くほど貧弱です。
命令チューニングのための大規模Webページ・ツー・コードデータセットを新たに構築したベンチマークを提案する。
論文 参考訳(メタデータ) (2024-06-28T17:59:46Z) - MMInA: Benchmarking Multihop Multimodal Internet Agents [36.173995299002]
本稿では,マルチホップとマルチモーダルのベンチマークであるMMInAについて述べる。
私たちのデータには、ショッピングや旅行など、さまざまな分野をカバーする1050の人書きタスクが含まれています。
提案手法は,エージェントのシングルホップとマルチホップのWebブラウジング能力を大きく改善した。
論文 参考訳(メタデータ) (2024-04-15T17:59:50Z) - AutoWebGLM: A Large Language Model-based Web Navigating Agent [33.55199326570078]
オープンなAutoWebGLMをChatGLM3-6Bに基づいて開発する。
人間のブラウジングパターンにインスパイアされた我々は、まず、Webページを表現するためのHTML単純化アルゴリズムを設計する。
次に,カリキュラム学習のためのWebブラウジングデータを構築するために,ハイブリッドなヒューマンAI手法を用いる。
論文 参考訳(メタデータ) (2024-04-04T17:58:40Z) - Tur[k]ingBench: A Challenge Benchmark for Web Agents [41.852615330725655]
TurkingBenchは、テキストインストラクションとマルチモーダルコンテキストを備えたWebページとして提示されるタスクからなるベンチマークである。
このベンチマークには158タスクにまたがる32.2Kインスタンスが含まれている。
言語のみのモデルと視覚言語モデルを含む,最先端のプライベートモデルとオープンソースモデルの性能を評価する。
論文 参考訳(メタデータ) (2024-03-18T16:06:30Z) - Design2Code: Benchmarking Multimodal Code Generation for Automated Front-End Engineering [74.99736967448423]
私たちは、このタスクのための最初の実世界のベンチマークであるDesign2Codeを構築します。
テストケースとして484の多様な実世界のWebページを手作業でキュレートし、自動評価指標のセットを開発する。
我々の詳細なブレークダウンメトリクスは、入力されたWebページから視覚要素をリコールし、正しいレイアウト設計を生成するモデルがほとんど遅れていることを示している。
論文 参考訳(メタデータ) (2024-03-05T17:56:27Z) - VisualWebArena: Evaluating Multimodal Agents on Realistic Visual Web Tasks [93.85005277463802]
VisualWebArenaは、マルチモーダルWebエージェントのパフォーマンスを現実的なタスクで評価するために設計されたベンチマークである。
このベンチマークを実行するには、イメージテキスト入力を正確に処理し、自然言語命令を解釈し、ユーザが定義した目的を達成するためにウェブサイト上でアクションを実行する必要がある。
論文 参考訳(メタデータ) (2024-01-24T18:35:21Z) - Mind2Web: Towards a Generalist Agent for the Web [25.363429937913065]
Mind2Webは、Webのためのジェネラリストエージェントの開発と評価のための最初のデータセットである。
31のドメインにまたがる137のWebサイトから2,000以上のオープンエンドタスクが収集され、Mind2WebはジェネラリストWebエージェントを構築するために必要な3つの材料を提供する。
Mind2Webをベースとして,汎用的なWebエージェントを構築するために,大規模言語モデル(LLM)を最初に検討する。
論文 参考訳(メタデータ) (2023-06-09T17:44:31Z) - Multimodal Web Navigation with Instruction-Finetuned Foundation Models [99.14209521903854]
視覚言語基礎モデルを用いたWebエージェントのためのデータ駆動オフライントレーニングについて検討する。
本稿では,WebページのスクリーンショットとHTMLページの両方を観察する命令追従型マルチモーダルエージェントWebGUMを提案する。
このレシピは,マルチモーダル認識,HTML理解,マルチステップ推論といったエージェントの能力を向上させることを実証的に実証する。
論文 参考訳(メタデータ) (2023-05-19T17:44:34Z) - PaLM-E: An Embodied Multimodal Language Model [101.29116156731762]
本研究では,実世界の連続型センサを言語モデルに組み込むための具体的言語モデルを提案する。
我々は、複数の具体的タスクのために、事前訓練された大規模言語モデルとともに、これらのエンコーディングをエンドツーエンドにトレーニングする。
562Bパラメータを持つ大モデル PaLM-E-562B は、OK-VQA 上での最先端性能を持つ視覚言語ジェネラリストである。
論文 参考訳(メタデータ) (2023-03-06T18:58:06Z) - Understanding HTML with Large Language Models [73.92747433749271]
大規模言語モデル(LLM)は、様々な自然言語タスクにおいて例外的な性能を示している。
我々は,HTML 理解モデル (微調整 LLM ) と,その機能に関する3つのタスクの詳細な分析に貢献する。
本稿では,標準自然言語コーパスで事前訓練されたLLMが,HTML理解タスクに極めて適していることを示す。
論文 参考訳(メタデータ) (2022-10-08T07:27:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。