論文の概要: NEXT-EVAL: Next Evaluation of Traditional and LLM Web Data Record Extraction
- arxiv url: http://arxiv.org/abs/2505.17125v1
- Date: Wed, 21 May 2025 21:03:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.58836
- Title: NEXT-EVAL: Next Evaluation of Traditional and LLM Web Data Record Extraction
- Title(参考訳): NEXT-EVAL: 従来型およびLLM Webデータデータ抽出の次の評価
- Authors: Soyeon Kim, Namhee Kim, Yeonwoo Jeong,
- Abstract要約: 本稿では,Webデータ抽出のための具体的な評価フレームワークを提案する。
本フレームワークは,評価スナップショットを生成し,監視ラベルを注釈付けし,一貫したスコア付けに構造対応メトリクスを用いる。
また、LLM(Large Language Model)ベースのアプローチの入力を最適化する前処理も組み込まれている。
- 参考スコア(独自算出の注目度): 6.09502686736443
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Effective evaluation of web data record extraction methods is crucial, yet hampered by static, domain-specific benchmarks and opaque scoring practices. This makes fair comparison between traditional algorithmic techniques, which rely on structural heuristics, and Large Language Model (LLM)-based approaches, offering zero-shot extraction across diverse layouts, particularly challenging. To overcome these limitations, we introduce a concrete evaluation framework. Our framework systematically generates evaluation datasets from arbitrary MHTML snapshots, annotates XPath-based supervision labels, and employs structure-aware metrics for consistent scoring, specifically preventing text hallucination and allowing only for the assessment of positional hallucination. It also incorporates preprocessing strategies to optimize input for LLMs while preserving DOM semantics: HTML slimming, Hierarchical JSON, and Flat JSON. Additionally, we created a publicly available synthetic dataset by transforming DOM structures and modifying content. We benchmark deterministic heuristic algorithms and off-the-shelf LLMs across these multiple input formats. Our benchmarking shows that Flat JSON input enables LLMs to achieve superior extraction accuracy (F1 score of 0.9567) and minimal hallucination compared to other input formats like Slimmed HTML and Hierarchical JSON. We establish a standardized foundation for rigorous benchmarking, paving the way for the next principled advancements in web data record extraction.
- Abstract(参考訳): Webデータレコード抽出手法の効果的な評価は重要であるが、静的なドメイン固有のベンチマークと不透明なスコアリングプラクティスによって妨げられている。
これは、構造的ヒューリスティックに依存する従来のアルゴリズム技術と、Large Language Model(LLM)ベースのアプローチとの公正な比較であり、特に困難である。
これらの制約を克服するために,具体的な評価フレームワークを導入する。
本フレームワークは,任意のMHTMLスナップショットから評価データセットを体系的に生成し,XPathベースの監視ラベルに注釈を付け,一貫したスコア付け,特にテキスト幻覚の防止,位置幻覚の評価のみを可能にする構造対応メトリクスを用いる。
DOMセマンティクス(HTMLスリム化、階層JSON、フラットJSON)を保存しながら、LLMの入力を最適化するための前処理戦略も組み込まれている。
さらに、DOM構造を変換し、コンテンツを変更することで、公開可能な合成データセットを作成しました。
我々はこれらの複数の入力形式にまたがって決定論的ヒューリスティックアルゴリズムと既製のLCMをベンチマークする。
我々のベンチマークでは、Flat JSON入力はLLMがSlimmed HTMLやHierarchical JSONのような他の入力フォーマットと比較して優れた抽出精度(F1スコア0.9567)と最小限の幻覚を達成できることを示している。
我々は厳格なベンチマークのための標準化された基盤を確立し、Webデータレコード抽出における次の原則的な進歩の道を開く。
関連論文リスト
- System Log Parsing with Large Language Models: A Review [2.2779174914142346]
大規模言語モデル (LLM) はLLMに基づくログ解析の新しい研究分野を導入した。
有望な結果にもかかわらず、この比較的新しい研究分野におけるアプローチの構造化された概要は存在しない。
この研究は29 LLMベースのログ解析手法を体系的にレビューする。
論文 参考訳(メタデータ) (2025-04-07T09:41:04Z) - FineSurE: Fine-grained Summarization Evaluation using LLMs [22.62504593575933]
FineSurEは,大規模言語モデル(LLM)を用いた要約タスクに適した,きめ細かい評価器である。
また、忠実さに加えて完全性と簡潔さの基準を採用し、多次元評価を可能にしている。
論文 参考訳(メタデータ) (2024-07-01T02:20:28Z) - Spread Preference Annotation: Direct Preference Judgment for Efficient LLM Alignment [72.99676237703099]
大規模言語モデルと人間の嗜好の整合性を高める新しいフレームワークを提案する。
私たちのキーとなるアイデアは、小さな(種)データの中で人間の事前知識を活用することです。
本稿では,ノイズ認識型選好学習アルゴリズムを導入し,生成した選好データにおける品質低下のリスクを軽減する。
論文 参考訳(メタデータ) (2024-06-06T18:01:02Z) - Aligning Language Models with Demonstrated Feedback [58.834937450242975]
Demonstration ITerated Task Optimization (DITTO)は、言語モデルの出力とユーザの実証された振る舞いを直接調整する。
我々は,DITTOがニュース記事やメール,ブログ記事などのドメイン間できめ細かいスタイルやタスクアライメントを学習する能力を評価する。
論文 参考訳(メタデータ) (2024-06-02T23:13:56Z) - Element-aware Summarization with Large Language Models: Expert-aligned
Evaluation and Chain-of-Thought Method [35.181659789684545]
自動要約は、ソースドキュメントのキーアイデアを含む簡潔な要約を生成する。
CNN/DailyMailやBBC XSumからの引用は、主に幻覚と情報冗長性の点で騒々しい。
本稿では,LCMを段階的に生成するためにSumCoT(Slide Chain-of-Thought)手法を提案する。
実験結果から, ROUGE-L では, 最先端の微調整 PLM とゼロショット LLM を+4.33/+4.77 で上回った。
論文 参考訳(メタデータ) (2023-05-22T18:54:35Z) - Understanding HTML with Large Language Models [73.92747433749271]
大規模言語モデル(LLM)は、様々な自然言語タスクにおいて例外的な性能を示している。
我々は,HTML 理解モデル (微調整 LLM ) と,その機能に関する3つのタスクの詳細な分析に貢献する。
本稿では,標準自然言語コーパスで事前訓練されたLLMが,HTML理解タスクに極めて適していることを示す。
論文 参考訳(メタデータ) (2022-10-08T07:27:17Z) - Value Retrieval with Arbitrary Queries for Form-like Documents [50.5532781148902]
フォーム状文書に対する任意のクエリを用いた値検索を提案する。
本手法は,フォームのレイアウトやセマンティクスの理解に基づいて,任意のクエリのターゲット値を予測する。
本稿では,大規模モデル事前学習における文書理解を改善するためのシンプルな文書言語モデリング (simpleDLM) 戦略を提案する。
論文 参考訳(メタデータ) (2021-12-15T01:12:02Z) - Evaluating Models' Local Decision Boundaries via Contrast Sets [119.38387782979474]
テストデータの体系的なギャップを埋めるのに役立つNLPのための新しいアノテーションパラダイムを提案する。
10種類のNLPデータセットに対してコントラストセットを作成することで,コントラストセットの有効性を示す。
我々のコントラストセットは明示的には逆ではないが、モデルの性能は元のテストセットよりも大幅に低い。
論文 参考訳(メタデータ) (2020-04-06T14:47:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。