論文の概要: AXE: Low-Cost Cross-Domain Web Structured Information Extraction
- arxiv url: http://arxiv.org/abs/2602.01838v1
- Date: Mon, 02 Feb 2026 09:09:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.02689
- Title: AXE: Low-Cost Cross-Domain Web Structured Information Extraction
- Title(参考訳): AXE: 低コストなクロスドメインWeb構造化情報抽出
- Authors: Abdelrahman Mansour, Khaled W. Alshaer, Moataz Elsaban,
- Abstract要約: AXEは、HTML DOMを単に読み込むためのテキストの壁ではなく、プルーニングを必要とするツリーとして扱うパイプラインである。
AXEは特別な「プルーニング」メカニズムを使用して、ボイラープレートと無関係なノードを除去する。
我々は,大規模Web情報抽出のための実用的で費用対効果の高い方法を提供することを目指している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Extracting structured data from the web is often a trade-off between the brittle nature of manual heuristics and the prohibitive cost of Large Language Models. We introduce AXE (Adaptive X-Path Extractor), a pipeline that rethinks this process by treating the HTML DOM as a tree that needs pruning rather than just a wall of text to be read. AXE uses a specialized "pruning" mechanism to strip away boilerplate and irrelevant nodes, leaving behind a distilled, high-density context that allows a tiny 0.6B LLM to generate precise, structured outputs. To keep the model honest, we implement Grounded XPath Resolution (GXR), ensuring every extraction is physically traceable to a source node. Despite its low footprint, AXE achieves state-of-the-art zero-shot performance, outperforming several much larger, fully-trained alternatives with an F1 score of 88.1% on the SWDE dataset. By releasing our specialized adaptors, we aim to provide a practical, cost-effective path for large-scale web information extraction.
- Abstract(参考訳): Webから構造化されたデータを抽出することは、手動ヒューリスティックスの脆い性質と大規模言語モデルの禁止コストとのトレードオフであることが多い。
AXE (Adaptive X-Path Extractor) は,HTML DOM を単に読み込むためのテキストの壁ではなく,刈り取りが必要な木として扱うことで,このプロセスを再考するパイプラインである。
AXEは特殊な「プルーニング」機構を使用してボイラープレートと無関係なノードを除去し、蒸留された高密度のコンテキストを残し、小さな0.6B LLMが正確に構造化された出力を生成する。
モデルを正直に保ちながら、GXR(Grounded XPath Resolution)を実装し、すべての抽出がソースノードに物理的にトレース可能であることを保証します。
ローフットプリントにもかかわらず、AXEは最先端のゼロショットのパフォーマンスを達成し、SWDEデータセットでF1スコア88.1%の、より大きく、完全に訓練されたいくつかの選択肢を上回っている。
専門的なアダプタをリリースすることによって,大規模Web情報抽出のための実用的で費用対効果の高いパスの実現を目指す。
関連論文リスト
- AICC: Parse HTML Finer, Make Models Better -- A 7.3T AI-Ready Corpus Built by a Model-Based HTML Parser [54.623900859999424]
我々は、コンテンツ抽出をシーケンスラベリング問題として再構成する新しい抽出パイプラインであるMinerU-HTMLを紹介する。
MainWebBenchでは、7,887の注釈付きWebページ、MinerU-HTML 81.8%のROUGE-N F1をTrfilaturaの63.6%と比較した。
論文 参考訳(メタデータ) (2025-11-20T14:15:23Z) - Spectra-to-Structure and Structure-to-Spectra Inference Across the Periodic Table [49.65586812435899]
XAStructは、結晶構造からXASスペクトルを予測し、XAS入力から局所構造記述子を推測できる学習ベースのシステムである。
XAStructは、周期表全体にわたって70以上の要素にまたがる大規模なデータセットでトレーニングされている。
論文 参考訳(メタデータ) (2025-06-13T15:58:05Z) - REXEL: An End-to-end Model for Document-Level Relation Extraction and Entity Linking [11.374031643273941]
REXELは文書レベルcIE(DocIE)の共同作業のための高効率かつ高精度なモデルである
同様の環境では、競合する既存のアプローチよりも平均11倍高速です。
速度と精度の組み合わせにより、REXELはWebスケールで構造化された情報を抽出する正確なコスト効率のシステムとなる。
論文 参考訳(メタデータ) (2024-04-19T11:04:27Z) - AutoScraper: A Progressive Understanding Web Agent for Web Scraper Generation [54.17246674188208]
Webスクレイピングは、Webサイトからデータを抽出し、自動データ収集を可能にし、データ分析機能を強化し、手動のデータ入力作業を最小化する強力なテクニックである。
既存の手法では、ラッパーベースの手法は、新しいウェブサイトで直面する場合、適応性とスケーラビリティの制限に悩まされる。
本稿では,大規模言語モデル(LLM)を用いたWebスクレイパー生成のパラダイムを紹介し,多様なWeb環境をより効率的に処理できる2段階フレームワークであるAutoScraperを提案する。
論文 参考訳(メタデータ) (2024-04-19T09:59:44Z) - Combining Language and Graph Models for Semi-structured Information
Extraction on the Web [7.44454462555094]
本稿では,共同グラフと言語モデル構造に基づくオープンドメイン情報抽出手法であるGraphScholarBERTを提案する。
実験の結果、GraphScholarBERTはゼロショットドメインとゼロショットWebサイト設定での以前の作業と比較して、F1スコアの抽出を最大34.8%改善できることがわかった。
論文 参考訳(メタデータ) (2024-02-21T20:53:29Z) - Instruct and Extract: Instruction Tuning for On-Demand Information
Extraction [86.29491354355356]
On-Demand Information extractは、現実世界のユーザのパーソナライズされた要求を満たすことを目的としている。
InstructIEというベンチマークを、自動生成したトレーニングデータと、人手による注釈付きテストセットの両方を含む形で提示する。
InstructIE 上に構築した On-Demand Information Extractor, ODIE をさらに発展させる。
論文 参考訳(メタデータ) (2023-10-24T17:54:25Z) - Towards Zero-shot Relation Extraction in Web Mining: A Multimodal
Approach with Relative XML Path [28.898240725099782]
ウェブマイニングにおけるゼロショット関係抽出のための新しい手法であるReXMinerを提案する。
ReXMinerはDocument Object Model(DOM)ツリーの最も短い相対パスをエンコードする。
また、異なるWebページ間で同じテキストノードの発生をカウントすることで、各テキストノードの人気も反映している。
論文 参考訳(メタデータ) (2023-05-23T08:16:52Z) - Feature Extractor Stacking for Cross-domain Few-shot Learning [7.624311495433939]
クロスドメインの少数ショット学習は、知識を1つ以上のソースドメインから、明確に異なる分布を持つインスタンススカースターゲットドメインに転送する必要がある学習問題に対処する。
ボックスから抽出器の集合から情報を合成する新しいCDFSL法であるFeature extractor stacking (FES)を提案する。
本稿では,古典的累積一般化法にインスパイアされた基本的FESアルゴリズムと,畳み込みFES(ConFES)と正規化FES(ReFES)の2つの変種を紹介する。
論文 参考訳(メタデータ) (2022-05-12T01:54:22Z) - Simplified DOM Trees for Transferable Attribute Extraction from the Web [15.728164692696689]
Webページを考えると、構造化されたオブジェクトと関心のあるさまざまな属性の抽出は、さまざまな下流アプリケーションを容易にします。
既存のアプローチは、DOMツリーノードのタグ付けタスクとして問題を定式化する。
本稿では,各ノードの有用なコンテキストを効率的に取得することで,この問題に取り組むための新しい転送可能な手法であるSimpDOMを提案する。
論文 参考訳(メタデータ) (2021-01-07T07:41:55Z) - ZeroShotCeres: Zero-Shot Relation Extraction from Semi-Structured
Webpages [66.45377533562417]
本稿では,以前は見つからなかったテンプレートを用いたWebページからの「ゼロショット」オープンドメイン関係抽出手法を提案する。
我々のモデルは、グラフニューラルネットワークに基づくアプローチを使用して、Webページ上のテキストフィールドのリッチな表現を構築します。
論文 参考訳(メタデータ) (2020-05-14T16:15:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。