論文の概要: Hypertext Entity Extraction in Webpage
- arxiv url: http://arxiv.org/abs/2403.01698v1
- Date: Mon, 4 Mar 2024 03:21:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 20:17:54.051742
- Title: Hypertext Entity Extraction in Webpage
- Title(参考訳): webページのハイパーテキストエンティティ抽出
- Authors: Yifei Yang, Tianqiao Liu, Bo Shao, Hai Zhao, Linjun Shou, Ming Gong,
Daxin Jiang
- Abstract要約: textbfMoE ベースの textbfEntity textbfExtraction textbfFramework (textitMoEEF) を導入する。
また、textitHEEDにおけるハイパーテキスト機能の有効性と、textitMoEEFにおけるモデルコンポーネントについて分析する。
- 参考スコア(独自算出の注目度): 112.56734676713721
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Webpage entity extraction is a fundamental natural language processing task
in both research and applications. Nowadays, the majority of webpage entity
extraction models are trained on structured datasets which strive to retain
textual content and its structure information. However, existing datasets all
overlook the rich hypertext features (e.g., font color, font size) which show
their effectiveness in previous works. To this end, we first collect a
\textbf{H}ypertext \textbf{E}ntity \textbf{E}xtraction \textbf{D}ataset
(\textit{HEED}) from the e-commerce domains, scraping both the text and the
corresponding explicit hypertext features with high-quality manual entity
annotations. Furthermore, we present the \textbf{Mo}E-based \textbf{E}ntity
\textbf{E}xtraction \textbf{F}ramework (\textit{MoEEF}), which efficiently
integrates multiple features to enhance model performance by Mixture of Experts
and outperforms strong baselines, including the state-of-the-art small-scale
models and GPT-3.5-turbo. Moreover, the effectiveness of hypertext features in
\textit{HEED} and several model components in \textit{MoEEF} are analyzed.
- Abstract(参考訳): webページエンティティ抽出は、研究とアプリケーションの両方において、基本的な自然言語処理タスクである。
現在、Webページエンティティ抽出モデルの大部分は、テキストの内容とその構造情報を保持しようとする構造化データセットに基づいて訓練されている。
しかしながら、既存のデータセットはすべて、以前の作業で有効性を示すリッチハイパーテキスト機能(フォント色、フォントサイズなど)を見落としています。
この目的のために、まずeコマースドメインから \textbf{H}ypertext \textbf{E}ntity \textbf{E}xtraction \textbf{D}ataset (\textit{HEED}) を収集し、テキストとそれに対応する明示的なハイパーテキスト機能の両方を高品質なマニュアルエンティティアノテーションでスクラップする。
さらに、複数の機能を効率的に統合して、専門家の混合によるモデル性能を高め、最先端の小規模モデルやgpt-3.5-turboを含む強力なベースラインよりも優れる \textbf{mo}e-based \textbf{e}ntity \textbf{e}xtraction \textbf{f}ramework (\textit{moeef}) を提案する。
さらに, \textit{heed} のハイパーテキスト機能と \textit{moeef} のいくつかのモデルコンポーネントの有効性を解析した。
関連論文リスト
- Hypergraph based Understanding for Document Semantic Entity Recognition [65.84258776834524]
我々は,ハイパグラフアテンションを利用したハイパグラフアテンション文書セマンティックエンティティ認識フレームワークHGAを構築し,エンティティ境界とエンティティカテゴリを同時に重視する。
FUNSD, CORD, XFUNDIE で得られた結果は,本手法が意味的エンティティ認識タスクの性能を効果的に向上できることを示す。
論文 参考訳(メタデータ) (2024-07-09T14:35:49Z) - 5W1H Extraction With Large Language Models [27.409473072672277]
5W1Hフレームワークによる重要なニュース要素の抽出は、イベント抽出とテキスト要約に不可欠である。
ChatGPTは、より長いニューステキストの処理やコンテキスト内の特定の属性の分析において問題に直面している。
我々は、ゼロショット/ファウショットからのいくつかの戦略を設計し、より効率的な微調整を行い、元のニュース文書から5W1Hアスペクトを抽出する。
論文 参考訳(メタデータ) (2024-05-25T09:42:58Z) - COSMO: COntrastive Streamlined MultimOdal Model with Interleaved
Pre-Training [119.03392147066093]
近年の自己回帰視覚言語モデルは, テキスト生成タスクでは優れているが, アライメントタスクでは課題に直面している。
テキスト生成モデルに対照的な損失を導入し,言語モデルを専用テキスト処理と適応型マルチモーダルデータ処理コンポーネントに分割する。
このギャップを埋めるために、この研究は、包括的なキャプションを備えた最初のインターリーブ付きビデオテキストデータセットであるVideoDatasetNameを導入した。
論文 参考訳(メタデータ) (2024-01-01T18:58:42Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - TextDiffuser: Diffusion Models as Text Painters [118.30923824681642]
我々は、背景に忠実な視覚的に魅力的なテキストで画像を生成することに焦点を当てたTextDiffuserを紹介した。
我々は,OCRアノテーションを用いた最初の大規模テキスト画像データセットであるMARIO-10Mに,1000万の画像テキストペアをコントリビュートする。
テキストプロンプトのみまたはテキストテンプレート画像と併用して高品質なテキスト画像を作成し,テキストによる不完全な画像の再構成を行う,テキストディフューザは柔軟かつ制御可能であることを示す。
論文 参考訳(メタデータ) (2023-05-18T10:16:19Z) - TRIE++: Towards End-to-End Information Extraction from Visually Rich
Documents [51.744527199305445]
本稿では,視覚的にリッチな文書からエンド・ツー・エンドの情報抽出フレームワークを提案する。
テキスト読み出しと情報抽出は、よく設計されたマルチモーダルコンテキストブロックを介して互いに強化することができる。
フレームワークはエンドツーエンドのトレーニング可能な方法でトレーニングでき、グローバルな最適化が達成できる。
論文 参考訳(メタデータ) (2022-07-14T08:52:07Z) - StrucTexT: Structured Text Understanding with Multi-Modal Transformers [29.540122964399046]
Visually Rich Documents (VRD)における構造化テキスト理解は、ドキュメントインテリジェンスの重要な部分である。
本稿では,SrucTexTという統合フレームワークを提案する。
セグメントレベルおよびトークンレベルで構造化されたテキスト理解の手法を評価し,その手法が最先端のテキスト理解よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-06T02:57:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。