論文の概要: Dripper: Token-Efficient Main HTML Extraction with a Lightweight LM
- arxiv url: http://arxiv.org/abs/2511.23119v1
- Date: Fri, 28 Nov 2025 12:04:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.88451
- Title: Dripper: Token-Efficient Main HTML Extraction with a Lightweight LM
- Title(参考訳): Dripper:軽量LMによるトークン効率の良いメインHTML抽出
- Authors: Mengjie Liu, Jiahui Peng, Pei Chu, Jiantao Qiu, Ren Ma, He Zhu, Rui Min, Lindong Lu, Wenchang Ning, Linfeng Hou, Kaiwen Liu, Yuan Qu, Zhenxiang Li, Chao Xu, Zhongying Tu, Wentao Zhang, Conghui He,
- Abstract要約: 本稿では,軽量言語モデルを利用した効率的なHTML主コンテンツ抽出フレームワークであるDriipperを紹介する。
本稿では,ロジットプロセッサによる出力空間を厳格に制約する制御復号機構を提案する。
Dripperは、すべての評価ベンチマークで最先端のパフォーマンスを達成し、すべてのベースラインメソッドを上回っます。
- 参考スコア(独自算出の注目度): 35.10225876152952
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurately and efficiently extracting main content from general web pages is of great significance for obtaining training data for large models. Using well-pre-trained decoder-only generative language models offers excellent document comprehension capabilities, thereby effectively enhancing parsing quality. However, it remains constrained by issues such as context window length, inference cost, and format hallucination. We present Dripper, an efficient HTML main content extraction framework powered by lightweight language models, which addresses these challenges through four key innovations: (1) We design a specialized HTML simplification algorithm that reduces input token count to 22\% compared to raw HTML while preserving critical structural information; (2) We reformulate main content extraction as a semantic block sequence classification task, significantly reducing inference cost; (3) We introduce a controlled decoding mechanism that strictly constrains the output space through logits processors, effectively eliminating hallucination issues common in small-scale models; (4) We propose WebMainBench, an evaluation dataset containing over 7,800 web pages with meticulously human-annotated main content extraction labels. Experimental results demonstrate that using only a 0.6B parameter model, Dripper achieves state-of-the-art performance across all evaluation benchmarks and outperforms all baseline methods, attaining an ROUGE-N F1 score of 81.58\%( 83.13\% with fall-back strategy) on our proposed WebMainBench dataset.
- Abstract(参考訳): 一般的なWebページから主要なコンテンツを正確かつ効率的に抽出することは,大規模モデルのトレーニングデータを得る上で非常に重要である。
訓練済みのデコーダのみの生成言語モデルを使用することで、優れた文書理解能力を提供し、解析品質を効果的に向上させることができる。
しかし、コンテキストウィンドウ長、推論コスト、フォーマット幻覚といった問題によって制約されている。
我々は,(1)重要な構造情報を保存しながら,入力トークン数を生HTMLと比較して22倍に削減する特別なHTML単純化アルゴリズムを設計し,(2)主コンテンツ抽出をセマンティックブロックシーケンス分類タスクとして再構成し,推論コストを大幅に削減する,(3)ロジットプロセッサによる出力空間を厳格に制限する制御デコード機構を導入し,小規模モデルに共通する幻覚を効果的に排除する,(4) WebMainBenchを提案する。
実験結果から,提案したWebMainBenchデータセットのROUGE-N F1スコアが81.58\%(フォールバック戦略で83.13\%)に達した。
関連論文リスト
- AICC: Parse HTML Finer, Make Models Better -- A 7.3T AI-Ready Corpus Built by a Model-Based HTML Parser [54.623900859999424]
我々は、コンテンツ抽出をシーケンスラベリング問題として再構成する新しい抽出パイプラインであるMinerU-HTMLを紹介する。
MainWebBenchでは、7,887の注釈付きWebページ、MinerU-HTML 81.8%のROUGE-N F1をTrfilaturaの63.6%と比較した。
論文 参考訳(メタデータ) (2025-11-20T14:15:23Z) - SCRIBES: Web-Scale Script-Based Semi-Structured Data Extraction with Reinforcement Learning [48.376164461507244]
本稿では,SCRIBES (SCRIpt-Based Semi-Structured Content extract at Web-Scale) を紹介する。
各ページを個別に処理するのではなく、SCRIBESは構造的に類似したWebページのグループに適用可能な再利用可能な抽出スクリプトを生成する。
実験の結果,本手法はスクリプト品質が13%以上向上し,GPT-4oでは4%以上向上することがわかった。
論文 参考訳(メタデータ) (2025-10-02T09:27:15Z) - NEXT-EVAL: Next Evaluation of Traditional and LLM Web Data Record Extraction [6.09502686736443]
本稿では,Webデータ抽出のための具体的な評価フレームワークを提案する。
本フレームワークは,評価スナップショットを生成し,監視ラベルを注釈付けし,一貫したスコア付けに構造対応メトリクスを用いる。
また、LLM(Large Language Model)ベースのアプローチの入力を最適化する前処理も組み込まれている。
論文 参考訳(メタデータ) (2025-05-21T21:03:37Z) - ReaderLM-v2: Small Language Model for HTML to Markdown and JSON [7.9969849952515775]
本稿では、効率的なWebコンテンツ抽出のために設計された15億個のパラメータ言語モデルであるReaderLM-v2を提案する。
私たちのモデルは、ドキュメントを512Kまでの乱雑なHTMLを、高い精度でクリーンまたはマークダウンフォーマットに処理します。
論文 参考訳(メタデータ) (2025-03-03T03:57:04Z) - Only 5\% Attention Is All You Need: Efficient Long-range Document-level
Neural Machine Translation [70.87670058323239]
文書レベルの文脈情報を導入することにより,談話現象を扱う上で,文書レベルのニューラルネットワーク翻訳(DocNMT)が重要であることが証明されている。
最も重要な方向の1つは、ドキュメント全体を標準のTransformerモデルに直接入力することである。
本研究は,少量のトークンを選択する軽量注意に基づく追加の選択層を導入することにより,翻訳性能を20%向上させながら維持する。
論文 参考訳(メタデータ) (2023-09-25T14:33:47Z) - Understanding HTML with Large Language Models [73.92747433749271]
大規模言語モデル(LLM)は、様々な自然言語タスクにおいて例外的な性能を示している。
我々は,HTML 理解モデル (微調整 LLM ) と,その機能に関する3つのタスクの詳細な分析に貢献する。
本稿では,標準自然言語コーパスで事前訓練されたLLMが,HTML理解タスクに極めて適していることを示す。
論文 参考訳(メタデータ) (2022-10-08T07:27:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。