論文の概要: HtmlRAG: HTML is Better Than Plain Text for Modeling Retrieved Knowledge in RAG Systems
- arxiv url: http://arxiv.org/abs/2411.02959v1
- Date: Tue, 05 Nov 2024 09:58:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-09 19:50:54.390485
- Title: HtmlRAG: HTML is Better Than Plain Text for Modeling Retrieved Knowledge in RAG Systems
- Title(参考訳): HtmlRAG: RAGシステムにおける検索知識をモデル化するためのHTMLは普通のテキストより優れている
- Authors: Jiejun Tan, Zhicheng Dou, Wen Wang, Mang Wang, Weipeng Chen, Ji-Rong Wen,
- Abstract要約: Retrieval-Augmented Generation (RAG) は知識能力の向上を目的としている。
RAGは、検索された知識のフォーマットとして、平易なテキストの代わりにHTMLを使用する。
我々は,情報の損失を最小限に抑えつつ,HTMLの短縮化を図るため,HTMLのクリーニング,圧縮,プルーニング戦略を提案する。
- 参考スコア(独自算出の注目度): 62.36019283532854
- License:
- Abstract: Retrieval-Augmented Generation (RAG) has been shown to improve knowledge capabilities and alleviate the hallucination problem of LLMs. The Web is a major source of external knowledge used in RAG systems, and many commercial systems such as ChatGPT and Perplexity have used Web search engines as their major retrieval systems. Typically, such RAG systems retrieve search results, download HTML sources of the results, and then extract plain texts from the HTML sources. Plain text documents or chunks are fed into the LLMs to augment the generation. However, much of the structural and semantic information inherent in HTML, such as headings and table structures, is lost during this plain-text-based RAG process. To alleviate this problem, we propose HtmlRAG, which uses HTML instead of plain text as the format of retrieved knowledge in RAG. We believe HTML is better than plain text in modeling knowledge in external documents, and most LLMs possess robust capacities to understand HTML. However, utilizing HTML presents new challenges. HTML contains additional content such as tags, JavaScript, and CSS specifications, which bring extra input tokens and noise to the RAG system. To address this issue, we propose HTML cleaning, compression, and pruning strategies, to shorten the HTML while minimizing the loss of information. Specifically, we design a two-step block-tree-based pruning method that prunes useless HTML blocks and keeps only the relevant part of the HTML. Experiments on six QA datasets confirm the superiority of using HTML in RAG systems.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG) は知識能力の向上とLLMの幻覚の軽減を目的としている。
Webは、RAGシステムで使用される外部知識の主要な情報源であり、ChatGPTやPerplexityのような多くの商用システムは、Web検索エンジンを主要な検索システムとして使用してきた。
通常、このようなRAGシステムは検索結果を検索し、結果のHTMLソースをダウンロードし、HTMLソースからプレーンテキストを抽出する。
プレーンテキスト文書やチャンクは、ジェネレーションを増強するためにLLMに入力される。
しかし、この平文ベースのRAGプロセスでは、方向やテーブル構造など、HTMLに固有の構造的・意味的な情報の多くが失われる。
HtmlRAG は,通常のテキストの代わりに HTML をRAG で検索した知識の形式として用いている。
我々は、HTMLは外部文書の知識をモデリングする上で、平易なテキストよりも優れていると信じており、ほとんどのLLMは、HTMLを理解するための堅牢な能力を持っている。
しかし、HTMLを活用することで新しい課題が浮かび上がっている。
HTMLにはタグ、JavaScript、CSS仕様などの追加コンテンツが含まれており、RAGシステムに追加の入力トークンとノイズをもたらす。
この問題に対処するため,情報損失を最小限に抑えつつ,HTMLの短縮化を図るため,HTMLクリーニング,圧縮,プルーニング戦略を提案する。
具体的には、無駄なHTMLブロックを掘り起こし、HTMLの関連部分のみを保持する2段階のブロックツリーベースのプルーニング手法を設計する。
6つのQAデータセットの実験により、RAGシステムにおけるHTMLの使用の優位性が確認された。
関連論文リスト
- WAFFLE: Multi-Modal Model for Automated Front-End Development [10.34452763764075]
We introduced Waffle, a new fine-tuning strategy that using a structure-ware attention mechanism to improve LLMs's understanding of HTML's structure。
Waffleで微調整されたモデルでは、HTMLマッチが9.00pp(パーセント)、CW-SSIMが0.0982、CLIPが32.99pp、LLEMが27.12ppである。
論文 参考訳(メタデータ) (2024-10-24T01:49:49Z) - Web2Code: A Large-scale Webpage-to-Code Dataset and Evaluation Framework for Multimodal LLMs [112.89665642941814]
MLLM(Multimodal large language model)は、画像、ビデオ、オーディオなどのモダリティにおいて顕著な成功を収めている。
現在のMLLMは、Webページのスクリーンショットを理解し、対応するHTMLコードを生成するのに驚くほど貧弱です。
命令チューニングのための大規模Webページ・ツー・コードデータセットを新たに構築したベンチマークであるWeb2Codeを提案する。
論文 参考訳(メタデータ) (2024-06-28T17:59:46Z) - AutoScraper: A Progressive Understanding Web Agent for Web Scraper Generation [54.17246674188208]
Webスクレイピングは、Webサイトからデータを抽出し、自動データ収集を可能にし、データ分析機能を強化し、手動のデータ入力作業を最小化する強力なテクニックである。
既存の手法では、ラッパーベースの手法は、新しいウェブサイトで直面する場合、適応性とスケーラビリティの制限に悩まされる。
本稿では,大規模言語モデル(LLM)を用いたWebスクレイパー生成のパラダイムを紹介し,多様なWeb環境をより効率的に処理できる2段階フレームワークであるAutoScraperを提案する。
論文 参考訳(メタデータ) (2024-04-19T09:59:44Z) - Unlocking the conversion of Web Screenshots into HTML Code with the WebSight Dataset [8.581656334758547]
我々は、200万組のHTMLコードとそれに対応するスクリーンショットからなるデータセットであるWebSightを紹介する。
この分野での研究を加速するため、私たちはWebSightをオープンソースにしました。
論文 参考訳(メタデータ) (2024-03-14T01:40:40Z) - DIVKNOWQA: Assessing the Reasoning Ability of LLMs via Open-Domain
Question Answering over Knowledge Base and Text [73.68051228972024]
大きな言語モデル(LLM)は印象的な生成能力を示すが、内部知識に依存すると幻覚に悩まされる。
検索拡張LDMは、外部知識においてLLMを基盤とする潜在的な解決策として出現している。
論文 参考訳(メタデータ) (2023-10-31T04:37:57Z) - Understanding HTML with Large Language Models [73.92747433749271]
大規模言語モデル(LLM)は、様々な自然言語タスクにおいて例外的な性能を示している。
我々は,HTML 理解モデル (微調整 LLM ) と,その機能に関する3つのタスクの詳細な分析に貢献する。
本稿では,標準自然言語コーパスで事前訓練されたLLMが,HTML理解タスクに極めて適していることを示す。
論文 参考訳(メタデータ) (2022-10-08T07:27:17Z) - DOM-LM: Learning Generalizable Representations for HTML Documents [33.742833774918786]
我々は、既存のアプローチの限界に対処するDOM-LMと呼ばれる新しい表現学習手法をWebページに導入する。
我々は,属性抽出,オープン情報抽出,質問回答など,さまざまなWebページ理解タスクにおけるDOM-LMの評価を行った。
論文 参考訳(メタデータ) (2022-01-25T20:10:32Z) - HTLM: Hyper-Text Pre-Training and Prompting of Language Models [52.32659647159799]
大規模なWebクローリングで訓練されたハイパーテキスト言語モデルであるHTLMを紹介する。
単純化したHTML上でのBARTスタイルのデノベーション損失による事前訓練は、広範囲のタスクや監督レベルに対して非常に効果的な転送を可能にすることを示す。
我々は,HTLMに対して,テキストプロンプトが既存のLMに対して行うことよりも,データ効率の面で高い価値を提供することを発見した。
論文 参考訳(メタデータ) (2021-07-14T19:39:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。