論文の概要: CoVA: Context-aware Visual Attention for Webpage Information Extraction
- arxiv url: http://arxiv.org/abs/2110.12320v1
- Date: Sun, 24 Oct 2021 00:21:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-31 18:43:44.533874
- Title: CoVA: Context-aware Visual Attention for Webpage Information Extraction
- Title(参考訳): CoVA:Webページ情報抽出のためのコンテキスト対応ビジュアルアテンション
- Authors: Anurendra Kumar, Keval Morabia, Jingjin Wang, Kevin Chen-Chuan Chang,
Alexander Schwing
- Abstract要約: WIE をコンテキスト対応 Web ページオブジェクト検出タスクとして再構築することを提案する。
我々は、外観特徴とDOMツリーからの構文構造を組み合わせた、コンテキスト認識型視覚意図ベース(CoVA)検出パイプラインを開発した。
提案手法は,従来の最先端手法を改良した新しい挑戦的ベースラインであることを示す。
- 参考スコア(独自算出の注目度): 65.11609398029783
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Webpage information extraction (WIE) is an important step to create knowledge
bases. For this, classical WIE methods leverage the Document Object Model (DOM)
tree of a website. However, use of the DOM tree poses significant challenges as
context and appearance are encoded in an abstract manner. To address this
challenge we propose to reformulate WIE as a context-aware Webpage Object
Detection task. Specifically, we develop a Context-aware Visual Attention-based
(CoVA) detection pipeline which combines appearance features with syntactical
structure from the DOM tree. To study the approach we collect a new large-scale
dataset of e-commerce websites for which we manually annotate every web element
with four labels: product price, product title, product image and background.
On this dataset we show that the proposed CoVA approach is a new challenging
baseline which improves upon prior state-of-the-art methods.
- Abstract(参考訳): Webページ情報抽出(WIE)は知識基盤を構築するための重要なステップである。
そのため、古典的なWIEメソッドはWebサイトのドキュメントオブジェクトモデル(DOM)ツリーを利用する。
しかし、DOMツリーの使用はコンテキストや外観が抽象的な方法でエンコードされるため、大きな課題となる。
この課題に対処するために,wieを文脈認識型webページオブジェクト検出タスクとして再編成する。
具体的には、外観特徴とDOMツリーからの構文構造を組み合わせたコンテキスト認識型視覚意図型(CoVA)検出パイプラインを開発する。
このアプローチを研究するために、私たちはeコマースウェブサイトの新しい大規模データセットを収集し、すべてのweb要素に製品価格、製品タイトル、製品イメージ、背景の4つのラベルを手作業で注釈付けします。
このデータセットでは,提案するCoVAアプローチが,従来の最先端手法を改善した新しい挑戦的ベースラインであることが示されている。
関連論文リスト
- Augmented Commonsense Knowledge for Remote Object Grounding [67.30864498454805]
エージェントナビゲーションを改善するための時間的知識グラフとして,コモンセンス情報を活用するための拡張コモンセンス知識モデル(ACK)を提案する。
ACKは知識グラフ対応のクロスモーダルとコンセプトアグリゲーションモジュールで構成され、視覚的表現と視覚的テキストデータアライメントを強化する。
我々は、より正確な局所的な行動予測につながるコモンセンスに基づく意思決定プロセスのための新しいパイプラインを追加します。
論文 参考訳(メタデータ) (2024-06-03T12:12:33Z) - Open-Vocabulary Camouflaged Object Segmentation [66.94945066779988]
OVCOS(Open-vocabulary camouflaged Object segmentation)を導入した。
我々は11,483個の手選択画像とそれに対応するオブジェクトクラスを含む大規模複合シーンデータセット(textbfOVCamo)を構築した。
クラスセマンティック知識の指導とエッジ情報と深度情報からの視覚構造的手がかりの補足を統合することにより、提案手法は効率よくカモフラージュされたオブジェクトを捕捉できる。
論文 参考訳(メタデータ) (2023-11-19T06:00:39Z) - WebFormer: The Web-page Transformer for Structure Information Extraction [44.46531405460861]
構造情報抽出は、構造化されたテキストフィールドをWebページから抽出するタスクを指す。
シーケンスモデリングを用いた最近の自然言語モデルは、Web情報抽出における最先端の性能を実証している。
本稿では、Webドキュメントから構造情報を抽出するWebページトランスフォーマーモデルであるWebFormerを紹介する。
論文 参考訳(メタデータ) (2022-02-01T04:44:02Z) - Learning Context-Aware Representations of Subtrees [0.0]
この論文は、Webページや要素分類への自然な応用による複雑で構造化されたデータの効率的な表現を学習する問題に取り組む。
ウェブページ内の要素を取り巻くコンテキストは問題に対して高い価値があり、現在悪用されていると仮定する。
この論文は、Web要素をDOMツリーのサブツリーとして分類するという問題を解決することを目的としている。
論文 参考訳(メタデータ) (2021-11-08T07:43:14Z) - Knowledge Graph Anchored Information-Extraction for Domain-Specific
Insights [1.6308268213252761]
新しいドメイン内で特定の情報ニーズを満たすためにタスクベースのアプローチを使用します。
美術NLP技術の状態を構成したパイプラインを使用して、インスタンスレベルのセマンティック構造を自動的に抽出する。
論文 参考訳(メタデータ) (2021-04-18T19:28:10Z) - Simplified DOM Trees for Transferable Attribute Extraction from the Web [15.728164692696689]
Webページを考えると、構造化されたオブジェクトと関心のあるさまざまな属性の抽出は、さまざまな下流アプリケーションを容易にします。
既存のアプローチは、DOMツリーノードのタグ付けタスクとして問題を定式化する。
本稿では,各ノードの有用なコンテキストを効率的に取得することで,この問題に取り組むための新しい転送可能な手法であるSimpDOMを提案する。
論文 参考訳(メタデータ) (2021-01-07T07:41:55Z) - ZeroShotCeres: Zero-Shot Relation Extraction from Semi-Structured
Webpages [66.45377533562417]
本稿では,以前は見つからなかったテンプレートを用いたWebページからの「ゼロショット」オープンドメイン関係抽出手法を提案する。
我々のモデルは、グラフニューラルネットワークに基づくアプローチを使用して、Webページ上のテキストフィールドのリッチな表現を構築します。
論文 参考訳(メタデータ) (2020-05-14T16:15:58Z) - SciREX: A Challenge Dataset for Document-Level Information Extraction [56.83748634747753]
ドキュメントレベルで大規模な情報抽出データセットを作成するのは難しい。
複数のIEタスクを含む文書レベルのIEデータセットであるSciREXを紹介する。
我々は、従来の最先端のIEモデルをドキュメントレベルのIEに拡張する強力なベースラインとして、ニューラルモデルを開発する。
論文 参考訳(メタデータ) (2020-05-01T17:30:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。