論文の概要: An Index-based Approach for Efficient and Effective Web Content Extraction
- arxiv url: http://arxiv.org/abs/2512.06641v1
- Date: Sun, 07 Dec 2025 03:18:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.443266
- Title: An Index-based Approach for Efficient and Effective Web Content Extraction
- Title(参考訳): 効率的かつ効果的なWebコンテンツ抽出のためのインデックスベースアプローチ
- Authors: Yihan Chen, Benfeng Xu, Xiaorui Wang, Zhendong Mao,
- Abstract要約: 索引に基づくWebコンテンツ抽出について紹介する。
我々はHTMLを構造対応のアドレス可能なセグメントに分割し、あるクエリに関連するコンテンツの位置インデックスのみを抽出する。
本手法は、コンテンツ長からの抽出遅延を分離し、高速なクエリ関連抽出を可能にする。
- 参考スコア(独自算出の注目度): 38.40209116782093
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As web agents (e.g., Deep Research) routinely consume massive volumes of web pages to gather and analyze information, LLM context management -- under large token budgets and low signal density -- emerges as a foundational, high-importance, and technically challenging problem for agentic and RAG pipelines. Existing solutions for extracting relevant content are inadequate: generative extraction models suffer from high latency, rule-based heuristics lack adaptability, and chunk-and-rerank methods are blind to webpage structure. To overcome these issues, we introduce Index-based Web Content Extraction to reframe the extraction process from slow, token-by-token generation into a highly efficient, discriminative task of index prediction, achieving both effectiveness and efficiency. We partition HTML into structure-aware, addressable segments, and extract only the positional indices of content relevant to a given query. This method decouples extraction latency from content length, enabling rapid, query-relevant extraction. We first evaluate our method as a post-retrieval processing component within an RAG QA system and find that it improves QA accuracy. Then we directly measure its match rate with the target content in two scenarios: main content extraction (ME) and query-relevant extraction (QE). Experimental results show that our method outperforms existing works in both accuracy and speed, effectively bridging the gap between LLMs and the vast webpages.
- Abstract(参考訳): Webエージェント(例えばDeep Research)が情報収集と分析のために大量のWebページを定期的に消費しているため、LLMコンテキスト管理 – 大きなトークン予算と低信号密度 – は、エージェントとRAGパイプラインの基本的な、高重要性、技術的に困難な問題として現れます。
生成的抽出モデルは高いレイテンシに悩まされ、ルールベースのヒューリスティックスは適応性に欠け、チャンク・アンド・レラン法はWebページ構造に欠けている。
これらの課題を克服するために、インデックスベースのWebコンテンツ抽出を導入し、遅いトークン・バイ・トークン生成からインデックス予測の高度に効率的かつ差別的なタスクへと抽出プロセスを再構築し、効率と効率の両方を達成する。
我々はHTMLを構造対応のアドレス可能なセグメントに分割し、あるクエリに関連するコンテンツの位置インデックスのみを抽出する。
本手法は、コンテンツ長からの抽出遅延を分離し、高速なクエリ関連抽出を可能にする。
まず,本手法をRAG QAシステム内の検索後処理コンポーネントとして評価し,QAの精度が向上することを確認した。
次に、主コンテンツ抽出(ME)とクエリ関連抽出(QE)の2つのシナリオにおいて、ターゲットコンテンツとのマッチング率を直接測定する。
実験結果から,LLMと膨大なWebページ間のギャップを効果的に埋めることにより,既存の作業よりも精度と速度が優れていることがわかった。
関連論文リスト
- URaG: Unified Retrieval and Generation in Multimodal LLMs for Efficient Long Document Understanding [55.45331924836242]
MLLM内での検索と生成を統一するフレームワークであるURaGについて述べる。
URaGは,計算オーバーヘッドを44~56%削減し,最先端性能を実現する。
論文 参考訳(メタデータ) (2025-11-13T17:54:09Z) - FocusAgent: Simple Yet Effective Ways of Trimming the Large Context of Web Agents [76.12500510390439]
大規模言語モデル(LLM)を利用したWebエージェントは、ユーザの目標を達成するために、長いWebページの観察を処理しなければならない。
既存のプルーニング戦略は、関連するコンテンツを捨てるか、無関係なコンテキストを保持するかのいずれかであり、最適以下の行動予測につながる。
FocusAgentは軽量LCMレトリバーを利用してアクセシビリティツリー(AxTree)観測から最も関連性の高い線を抽出するシンプルで効果的なアプローチである。
論文 参考訳(メタデータ) (2025-10-03T17:41:30Z) - Careful Queries, Credible Results: Teaching RAG Models Advanced Web Search Tools with Reinforcement Learning [48.46951981642895]
我々は、ソース制限されたクエリを生成し、信頼できないコンテンツをフィルタリングする新しいRAGフレームワークであるWebFilterを提案する。
WebFilterは応答品質と検索精度を向上し,ドメイン内ベンチマークとドメイン外ベンチマークの両方で既存のRAGメソッドよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-08-11T13:08:37Z) - QExplorer: Large Language Model Based Query Extraction for Toxic Content Exploration [13.481570152219502]
本研究では,大規模言語モデルに基づく有毒コンテンツ探索のためのクエリ抽出手法であるQExplorerを提案する。
オフライン実験の結果、自動クエリ抽出の性能は、複数のLLMや人間よりも優れていた。
オンライン展開は有害物の検出を著しく増加させる。
論文 参考訳(メタデータ) (2025-02-06T06:11:58Z) - QUITO-X: A New Perspective on Context Compression from the Information Bottleneck Theory [75.81394991657545]
問題をモデル化するために情報ボトルネック理論(IB)を導入する。
IBにおける相互情報に近似するクロスアテンションに基づく手法を提案する。
提案手法は,最先端技術と比較して25%の圧縮率向上を実現している。
論文 参考訳(メタデータ) (2024-08-20T02:44:45Z) - EWEK-QA: Enhanced Web and Efficient Knowledge Graph Retrieval for Citation-based Question Answering Systems [103.91826112815384]
引用ベースのQAシステムは2つの欠点に悩まされている。
彼らは通常、抽出された知識の源としてWebにのみ依存し、外部の知識ソースを追加することで、システムの効率を損なう。
システムに供給された知識の内容を充実させるため,Web と 効率的な知識グラフ (KG) 検索ソリューション (EWEK-QA) を提案する。
論文 参考訳(メタデータ) (2024-06-14T19:40:38Z) - TSTEM: A Cognitive Platform for Collecting Cyber Threat Intelligence in the Wild [0.06597195879147556]
オープンソースからサイバー脅威情報(CTI)を抽出することは、急速に拡大する防衛戦略である。
従来の研究では、抽出プロセスの個々のコンポーネントの改善に焦点が当てられていた。
コミュニティには、ストリーミングCTIデータパイプラインを野放しに展開するオープンソースプラットフォームがない。
論文 参考訳(メタデータ) (2024-02-15T14:29:21Z) - Effective and Efficient Query-aware Snippet Extraction for Web Search [61.60405035952961]
本稿では,DeepQSE という名前の効率的なクエリ対応 Web ページスニペット抽出手法を提案する。
DeepQSEはまず各文に対するクエリ対応の文表現を学習し、クエリと文間の微妙な関連性をキャプチャする。
本稿では,DeepQSEの効率的なバージョンであるEfficient-DeepQSEを提案する。
論文 参考訳(メタデータ) (2022-10-17T07:46:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。