論文の概要: Doc2SoarGraph: Discrete Reasoning over Visually-Rich Table-Text
Documents via Semantic-Oriented Hierarchical Graphs
- arxiv url: http://arxiv.org/abs/2305.01938v3
- Date: Thu, 22 Feb 2024 12:12:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-23 19:11:44.265937
- Title: Doc2SoarGraph: Discrete Reasoning over Visually-Rich Table-Text
Documents via Semantic-Oriented Hierarchical Graphs
- Title(参考訳): Doc2SoarGraph: セマンティック指向階層グラフによるビジュアルリッチテーブルテキストドキュメントの離散推論
- Authors: Fengbin Zhu, Chao Wang, Fuli Feng, Zifeng Ren, Moxin Li, Tat-Seng Chua
- Abstract要約: 視覚的にリッチなテーブルテキスト文書に答えるTAT-DQAを提案する。
具体的には、離散推論機能を強化した新しいDoc2SoarGraphフレームワークを提案する。
我々は,TAT-DQAデータセットに関する広範な実験を行い,提案したフレームワークは,テストセット上でのエクサクティマッチ(EM)とF1スコアでそれぞれ17.73%,F1スコアで16.91%の最高のベースラインモデルを上回る結果を得た。
- 参考スコア(独自算出の注目度): 79.0426838808629
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Discrete reasoning over table-text documents (e.g., financial reports) gains
increasing attention in recent two years. Existing works mostly simplify this
challenge by manually selecting and transforming document pages to structured
tables and paragraphs, hindering their practical application. In this work, we
explore a more realistic problem setting in the form of TAT-DQA, i.e. to answer
the question over a visually-rich table-text document. Specifically, we propose
a novel Doc2SoarGraph framework with enhanced discrete reasoning capability by
harnessing the differences and correlations among different elements (e.g.,
quantities, dates) of the given question and document with Semantic-oriented
hierarchical Graph structures. We conduct extensive experiments on TAT-DQA
dataset, and the results show that our proposed framework outperforms the best
baseline model by 17.73% and 16.91% in terms of Exact Match (EM) and F1 score
respectively on the test set, achieving the new state-of-the-art.
- Abstract(参考訳): テーブルテキスト文書(例えば財務報告)に対する離散的推論は、近年2年間で注目を集めている。
既存の作業は、ドキュメントページを構造化テーブルや段落に手動で選択・変換することで、この課題を単純化する。
本研究では,より現実的なTAT-DQA形式,すなわち視覚的にリッチなテーブルテキスト文書の解答について検討する。
具体的には,与えられた質問と文書の異なる要素(量,日付など)間の差異と相関を意味的指向の階層的グラフ構造で活用し,離散的推論能力を高めた新しいdoc2soargraphフレームワークを提案する。
tat-dqaデータセットに関する広範な実験を行い,提案フレームワークが,テストセット上で17.73%,16.91%の精度マッチング(em)とf1スコアで,最高のベースラインモデルを上回って,新たな最先端を実現したことを示す。
関連論文リスト
- Enhancing Visually-Rich Document Understanding via Layout Structure
Modeling [91.07963806829237]
レイアウトの知識をモデルに注入する新しい文書理解モデルであるGraphLMを提案する。
我々は、FUNSD、XFUND、CORDなど様々なベンチマークでモデルを評価し、最先端の結果を得た。
論文 参考訳(メタデータ) (2023-08-15T13:53:52Z) - Data augmentation on graphs for table type classification [1.1859913430860336]
グラフニューラルネットワークを用いてテーブルの分類を行い、使用中のメッセージパッシングアルゴリズムのテーブル構造を利用する。
我々は,グラフベースの表表現に適したデータ拡張手法を提案することで,有望な予備結果を実現する。
論文 参考訳(メタデータ) (2022-08-23T21:54:46Z) - Towards Complex Document Understanding By Discrete Reasoning [77.91722463958743]
VQA(Document Visual Question Answering)は、自然言語による質問に答えるために、視覚的に豊富なドキュメントを理解することを目的としている。
我々は3,067の文書ページと16,558の質問応答ペアからなる新しいドキュメントVQAデータセットTAT-DQAを紹介する。
我々は,テキスト,レイアウト,視覚画像など,多要素の情報を考慮に入れたMHSTという新しいモデルを開発し,異なるタイプの質問にインテリジェントに対処する。
論文 参考訳(メタデータ) (2022-07-25T01:43:19Z) - Document-Level Relation Extraction with Sentences Importance Estimation
and Focusing [52.069206266557266]
文書レベルの関係抽出(DocRE)は、複数の文の文書から2つのエンティティ間の関係を決定することを目的としている。
我々はDocREのための文重要度スコアと文集中損失を設計するSIEF(Sentence Estimation and Focusing)フレームワークを提案する。
2つのドメインの実験結果から、SIEFは全体的なパフォーマンスを改善するだけでなく、DocREモデルをより堅牢にします。
論文 参考訳(メタデータ) (2022-04-27T03:20:07Z) - HiTab: A Hierarchical Table Dataset for Question Answering and Natural
Language Generation [35.73434495391091]
階層テーブルは、計算と意味論の暗黙の関係と同様に、階層的な索引付けによって既存の手法に挑戦する。
この研究は、階層テーブル上で質問応答(QA)と自然言語生成(NLG)を研究する研究コミュニティのための、自由でオープンなデータセットであるHiTabを提示する。
論文 参考訳(メタデータ) (2021-08-15T10:14:21Z) - BASS: Boosting Abstractive Summarization with Unified Semantic Graph [49.48925904426591]
BASSは、統合されたセマンティックグラフに基づく抽象的な要約を促進するためのフレームワークである。
文書表現と要約生成の両方を改善するために,グラフベースのエンコーダデコーダモデルを提案する。
実験結果から,提案アーキテクチャは長期文書および複数文書要約タスクに大幅な改善をもたらすことが示された。
論文 参考訳(メタデータ) (2021-05-25T16:20:48Z) - Retrieving Complex Tables with Multi-Granular Graph Representation
Learning [20.72341939868327]
自然言語テーブル検索の課題は,自然言語クエリに基づいて意味的に関連するテーブルを検索することである。
既存の学習システムは、テーブルがデータフレームとして構成されているという仮定に基づいて、テーブルをプレーンテキストとして扱う。
多粒グラフ表現学習を用いた一般化可能なNLTRフレームワークであるグラフベーステーブル検索(GTR)を提案する。
論文 参考訳(メタデータ) (2021-05-04T20:19:03Z) - A Graph Representation of Semi-structured Data for Web Question
Answering [96.46484690047491]
本稿では、半構造化データとそれらの関係の構成要素の体系的分類に基づいて、Webテーブルとリストのグラフ表現を提案する。
本手法は,最先端のベースラインに対してF1スコアを3.90ポイント向上させる。
論文 参考訳(メタデータ) (2020-10-14T04:01:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。