論文の概要: Semantic Parsing of Interpage Relations
- arxiv url: http://arxiv.org/abs/2205.13530v1
- Date: Thu, 26 May 2022 17:50:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-27 13:23:30.353202
- Title: Semantic Parsing of Interpage Relations
- Title(参考訳): ページ間関係のセマンティック解析
- Authors: Mehmet Arif Demirta\c{s}, Berke Oral, Mehmet Yasin Akp{\i}nar, Onur
Deniz
- Abstract要約: 本稿では,ページ間関係のセマンティック解析としてタスクを形式化し,ページ間の依存関係抽出のためのエンドツーエンドアプローチを提案する。
また、ページ依存のセグメンテーション、分類、解析に使用されるページ埋め込みを協調的に最適化するマルチタスクトレーニング手法を設計する。
実験の結果,提案手法は,意味解析の点数41ポイント,ページストリームセグメンテーションの点数33ポイント,ナイーブベースライン上のページ分類の点数45ポイントに向上した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Page-level analysis of documents has been a topic of interest in digitization
efforts, and multimodal approaches have been applied to both classification and
page stream segmentation. In this work, we focus on capturing finer semantic
relations between pages of a multi-page document. To this end, we formalize the
task as semantic parsing of interpage relations and we propose an end-to-end
approach for interpage dependency extraction, inspired by the dependency
parsing literature. We further design a multi-task training approach to jointly
optimize for page embeddings to be used in segmentation, classification, and
parsing of the page dependencies using textual and visual features extracted
from the pages. Moreover, we also combine the features from two modalities to
obtain multimodal page embeddings. To the best of our knowledge, this is the
first study to extract rich semantic interpage relations from multi-page
documents. Our experimental results show that the proposed method increased LAS
by 41 percentage points for semantic parsing, increased accuracy by 33
percentage points for page stream segmentation, and 45 percentage points for
page classification over a naive baseline.
- Abstract(参考訳): 文書のページレベルの分析は、デジタル化の取り組みに注目され、分類とページストリームセグメンテーションの両方にマルチモーダルなアプローチが適用されている。
本研究では,多ページ文書のページ間の意味関係を捉えることに焦点を当てた。
そこで我々は,ページ間関係のセマンティック解析としてタスクを形式化し,依存関係解析の文献から着想を得た,ページ間依存関係抽出のためのエンドツーエンドアプローチを提案する。
さらに,ページから抽出したテキスト的・視覚的特徴を用いて,ページ依存のセグメンテーション,分類,解析に使用されるページ埋め込みを共同で最適化するマルチタスクトレーニング手法も設計する。
さらに,2つのモダリティの特徴を組み合わせることで,マルチモーダルなページ埋め込みを実現する。
我々の知る限りでは、マルチページ文書からリッチなセマンティックなページ間関係を抽出する最初の研究である。
実験の結果,提案手法は,意味解析の点数41ポイント,ページストリームセグメンテーションの点数33ポイント,ナイーブベースライン上のページ分類の点数45ポイントに向上した。
関連論文リスト
- Unified Multi-Modal Interleaved Document Representation for Information Retrieval [57.65409208879344]
我々は、異なるモダリティでインターリーブされた文書を均等に埋め込み、より包括的でニュアンスのある文書表現を生成する。
具体的には、テキスト、画像、テーブルの処理と統合を統一されたフォーマットと表現に統合する、近年のビジョン言語モデルの能力を活用して、これを実現する。
論文 参考訳(メタデータ) (2024-10-03T17:49:09Z) - ReSel: N-ary Relation Extraction from Scientific Text and Tables by
Learning to Retrieve and Select [53.071352033539526]
学術論文からN-ary関係を抽出する問題について考察する。
提案手法であるReSelは,このタスクを2段階のプロシージャに分解する。
3つの科学的情報抽出データセットに対する実験により、ReSelは最先端のベースラインを大きく上回っていることがわかった。
論文 参考訳(メタデータ) (2022-10-26T02:28:02Z) - TRIE++: Towards End-to-End Information Extraction from Visually Rich
Documents [51.744527199305445]
本稿では,視覚的にリッチな文書からエンド・ツー・エンドの情報抽出フレームワークを提案する。
テキスト読み出しと情報抽出は、よく設計されたマルチモーダルコンテキストブロックを介して互いに強化することができる。
フレームワークはエンドツーエンドのトレーニング可能な方法でトレーニングでき、グローバルな最適化が達成できる。
論文 参考訳(メタデータ) (2022-07-14T08:52:07Z) - Page Segmentation using Visual Adjacency Analysis [5.9521013526545925]
本稿では,局所化隣接領域の視覚的解析に基づく新しいページセグメンテーション手法を提案する。
DOM属性とビジュアル分析を組み合わせて、特定のページの機能を構築し、教師なしクラスタリングをガイドします。
実世界の35のWebページに対するアプローチを評価し,セグメンテーションの有効性と効率について検討した。
論文 参考訳(メタデータ) (2021-12-11T00:20:30Z) - Modeling Endorsement for Multi-Document Abstractive Summarization [10.166639983949887]
単一文書の要約と多文書の要約の重大な違いは、文書の中で健全なコンテンツがどのように現れるかである。
本稿では,複数文書要約における文書間補完効果とその活用をモデル化する。
提案手法は各文書から合成を生成し,他の文書から有意な内容を識別する支援者として機能する。
論文 参考訳(メタデータ) (2021-10-15T03:55:42Z) - iFacetSum: Coreference-based Interactive Faceted Summarization for
Multi-Document Exploration [63.272359227081836]
iFacetSumは、インタラクティブな要約と顔検索を統合している。
微粒なファセットは、クロスドキュメントのコア参照パイプラインに基づいて自動的に生成される。
論文 参考訳(メタデータ) (2021-09-23T20:01:11Z) - Matching Visual Features to Hierarchical Semantic Topics for Image
Paragraph Captioning [50.08729005865331]
本稿では,階層的トピック誘導画像段落生成フレームワークを開発した。
複数の抽象レベルでの画像とテキストの相関をキャプチャするために、変分推論ネットワークを設計します。
段落生成を導くために、学習した階層的トピックと視覚的特徴を言語モデルに統合する。
論文 参考訳(メタデータ) (2021-05-10T06:55:39Z) - Topical Change Detection in Documents via Embeddings of Long Sequences [4.13878392637062]
テキストセグメンテーションのタスクを独立した教師付き予測タスクとして定式化する。
類似セクションの段落を微調整することで、学習した特徴がトピック情報をエンコードすることを示すことができます。
文レベルで操作する従来のアプローチとは異なり、我々は常により広いコンテキストを使用します。
論文 参考訳(メタデータ) (2020-12-07T12:09:37Z) - WikiAsp: A Dataset for Multi-domain Aspect-based Summarization [69.13865812754058]
マルチドメインアスペクトベースの要約のための大規模データセットであるWikiAspを提案する。
具体的には、アスペクトアノテーションのプロキシとして、各記事のセクションタイトルとバウンダリを使用して、20の異なるドメインからウィキペディア記事を使用してデータセットを構築します。
その結果,既存の要約モデルがこの設定で直面する重要な課題,例えば引用されたソースの適切な代名詞処理,時間に敏感なイベントの一貫した説明などが浮き彫りになった。
論文 参考訳(メタデータ) (2020-11-16T10:02:52Z) - An Evaluation of DNN Architectures for Page Segmentation of Historical
Newspapers [0.0]
我々は11種類の異なるDeep Neural Networksバックボーンアーキテクチャと9つの異なるタイリングとスケーリング構成を評価し、テキスト、テーブル、テーブル列を分離する。
本稿では,ラベル数とトレーニングページ数がセグメンテーション品質に与える影響を,マシューズ相関係数を用いて測定する。
この結果から,Inception-ResNet-v2とEfficientNetのバックボーンが最適であることがわかった。
論文 参考訳(メタデータ) (2020-04-15T20:05:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。