論文の概要: Understanding HTML with Large Language Models
- arxiv url: http://arxiv.org/abs/2210.03945v1
- Date: Sat, 8 Oct 2022 07:27:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-11 15:07:57.921824
- Title: Understanding HTML with Large Language Models
- Title(参考訳): 大きな言語モデルでHTMLを理解する
- Authors: Izzeddin Gur, Ofir Nachum, Yingjie Miao, Mustafa Safdari, Austin
Huang, Aakanksha Chowdhery, Sharan Narang, Noah Fiedel, Aleksandra Faust
- Abstract要約: 大規模言語モデル(LLM)は、様々な自然言語タスクにおいて例外的な性能を示している。
我々は,HTML 理解モデル (微調整 LLM ) と,その機能に関する3つのタスクの詳細な分析に貢献する。
本稿では,標準自然言語コーパスで事前訓練されたLLMが,HTML理解タスクに極めて適していることを示す。
- 参考スコア(独自算出の注目度): 73.92747433749271
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have shown exceptional performance on a variety
of natural language tasks. Yet, their capabilities for HTML understanding --
i.e., parsing the raw HTML of a webpage, with applications to automation of
web-based tasks, crawling, and browser-assisted retrieval -- have not been
fully explored. We contribute HTML understanding models (fine-tuned LLMs) and
an in-depth analysis of their capabilities under three tasks: (i) Semantic
Classification of HTML elements, (ii) Description Generation for HTML inputs,
and (iii) Autonomous Web Navigation of HTML pages. While previous work has
developed dedicated architectures and training procedures for HTML
understanding, we show that LLMs pretrained on standard natural language
corpora transfer remarkably well to HTML understanding tasks. For instance,
fine-tuned LLMs are 12% more accurate at semantic classification compared to
models trained exclusively on the task dataset. Moreover, when fine-tuned on
data from the MiniWoB benchmark, LLMs successfully complete 50% more tasks
using 192x less data compared to the previous best supervised model. Out of the
LLMs we evaluate, we show evidence that T5-based models are ideal due to their
bidirectional encoder-decoder architecture. To promote further research on LLMs
for HTML understanding, we create and open-source a large-scale HTML dataset
distilled and auto-labeled from CommonCrawl.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々な自然言語タスクにおいて例外的な性能を示している。
しかし、Webページの生のHTMLを解析し、Webベースのタスクの自動化、クローリング、ブラウザによる検索など、HTMLを理解する能力は、完全には研究されていない。
我々は,HTML理解モデル(微調整LDM)と,その機能の詳細を3つのタスクで分析する。
(i)HTML要素のセマンティック分類
(ii)HTML入力のための記述生成、および
(iii)htmlページの自律的なwebナビゲーション。
従来の研究はHTML理解のための専用のアーキテクチャとトレーニング手順を開発してきたが、LLMは標準自然言語コーパスで事前訓練され、HTML理解タスクに非常に適していることを示す。
例えば、微調整されたLLMは、タスクデータセットにのみ訓練されたモデルよりもセマンティック分類において12%精度が高い。
さらに、miniwobベンチマークからデータを微調整すると、以前の最良の教師付きモデルよりも192倍少ないデータで50%のタスクを完了した。
我々が評価したLCMのうち、T5ベースのモデルは双方向エンコーダデコーダアーキテクチャのために理想的であることを示す。
HTML 理解のための LLM のさらなる研究を促進するために,CommonCrawl から抽出,自動ラベル付けされた大規模 HTML データセットを作成し,オープンソース化する。
関連論文リスト
- Web2Code: A Large-scale Webpage-to-Code Dataset and Evaluation Framework for Multimodal LLMs [112.89665642941814]
MLLM(Multimodal large language model)は、画像、ビデオ、オーディオなどのモダリティにおいて顕著な成功を収めている。
現在のMLLMは、Webページのスクリーンショットを理解し、対応するHTMLコードを生成するのに驚くほど貧弱です。
命令チューニングのための大規模Webページ・ツー・コードデータセットを新たに構築したベンチマークを提案する。
論文 参考訳(メタデータ) (2024-06-28T17:59:46Z) - AutoWebGLM: A Large Language Model-based Web Navigating Agent [33.55199326570078]
オープンなAutoWebGLMをChatGLM3-6Bに基づいて開発する。
人間のブラウジングパターンにインスパイアされた我々は、まず、Webページを表現するためのHTML単純化アルゴリズムを設計する。
次に,カリキュラム学習のためのWebブラウジングデータを構築するために,ハイブリッドなヒューマンAI手法を用いる。
論文 参考訳(メタデータ) (2024-04-04T17:58:40Z) - AllTogether: Investigating the Efficacy of Spliced Prompt for Web
Navigation using Large Language Models [2.234037966956278]
タスクコンテキスト表現を強化する標準化されたプロンプトテンプレートであるAllTogetherを紹介する。
我々は,オープンソースのLlama-2とAPIアクセス可能なGPTモデルに基づいて,素早い学習と指導の微調整により,このアプローチの有効性を評価する。
論文 参考訳(メタデータ) (2023-10-20T11:10:14Z) - Benchmarking the Abilities of Large Language Models for RDF Knowledge
Graph Creation and Comprehension: How Well Do LLMs Speak Turtle? [0.0]
大きな言語モデル(LLM)は、自然言語処理とコーディングタスクにおいて大幅に改善され、急速に進歩している。
様々なLSMの習熟度を評価するために,Turtle構文でシリアライズされた知識グラフを解析,理解,分析,作成する5つのタスクのセットを作成した。
GPT-3.5、GPT-4、Claude 1.3、Claude 2.0の4つの商用LLMと、GPT4All VicunaとGPT4All Falcon 13Bの2つのオフラインモデルが含まれていた。
論文 参考訳(メタデータ) (2023-09-29T10:36:04Z) - A Real-World WebAgent with Planning, Long Context Understanding, and
Program Synthesis [69.15016747150868]
本稿では,WebAgentについて紹介する。WebAgentは自己経験から学習し,実際のWebサイト上でタスクを完了させるエージェントである。
WebAgentは、指示を標準のサブ命令に分解し、長いHTMLドキュメントをタスク関連スニペットに要約し、ウェブサイトで作用する計画である。
我々は、我々のモジュラーレシピが実際のWebサイトの成功を50%以上改善し、HTML-T5が様々なHTML理解タスクを解決する最良のモデルであることを実証的に実証した。
論文 参考訳(メタデータ) (2023-07-24T14:56:30Z) - Multimodal Web Navigation with Instruction-Finetuned Foundation Models [99.14209521903854]
視覚言語基礎モデルを用いたWebエージェントのためのデータ駆動オフライントレーニングについて検討する。
本稿では,WebページのスクリーンショットとHTMLページの両方を観察する命令追従型マルチモーダルエージェントWebGUMを提案する。
このレシピは,マルチモーダル認識,HTML理解,マルチステップ推論といったエージェントの能力を向上させることを実証的に実証する。
論文 参考訳(メタデータ) (2023-05-19T17:44:34Z) - AnnoLLM: Making Large Language Models to Be Better Crowdsourced Annotators [98.11286353828525]
GPT-3.5シリーズのモデルは、様々なNLPタスクにまたがる顕著な少数ショットとゼロショットの能力を示している。
本稿では,2段階のアプローチを取り入れたAnnoLLMを提案する。
我々はAnnoLLMを用いた対話型情報検索データセットを構築した。
論文 参考訳(メタデータ) (2023-03-29T17:03:21Z) - HTLM: Hyper-Text Pre-Training and Prompting of Language Models [52.32659647159799]
大規模なWebクローリングで訓練されたハイパーテキスト言語モデルであるHTLMを紹介する。
単純化したHTML上でのBARTスタイルのデノベーション損失による事前訓練は、広範囲のタスクや監督レベルに対して非常に効果的な転送を可能にすることを示す。
我々は,HTLMに対して,テキストプロンプトが既存のLMに対して行うことよりも,データ効率の面で高い価値を提供することを発見した。
論文 参考訳(メタデータ) (2021-07-14T19:39:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。