Fugu-MT 論文翻訳(概要): Doc2SoarGraph: Discrete Reasoning over Visually-Rich Table-Text Documents with Semantic-Oriented Hierarchical Graphs

論文の概要: Doc2SoarGraph: Discrete Reasoning over Visually-Rich Table-Text Documents with Semantic-Oriented Hierarchical Graphs

arxiv url: http://arxiv.org/abs/2305.01938v2
Date: Thu, 4 May 2023 10:02:39 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-05 11:48:32.136989
Title: Doc2SoarGraph: Discrete Reasoning over Visually-Rich Table-Text Documents with Semantic-Oriented Hierarchical Graphs
Title（参考訳）: Doc2SoarGraph: セマンティック指向階層グラフによるビジュアルリッチテーブルテキストドキュメントの離散推論
Authors: Fengbin Zhu, Chao Wang, Fuli Feng, Zifeng Ren, Moxin Li, Tat-Seng Chua
Abstract要約: 視覚的にリッチなテーブルテキスト文書に答えるTAT-DQAを提案する。具体的には、離散推論機能を強化した新しいDoc2SoarGraphフレームワークを提案する。我々は,TAT-DQAデータセットに関する広範な実験を行い,提案したフレームワークは,テストセット上でのエクサクティマッチ(EM)とF1スコアでそれぞれ17.73%,F1スコアで16.91%の最高のベースラインモデルを上回る結果を得た。
参考スコア（独自算出の注目度）: 73.30885855192423
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Discrete reasoning over table-text documents (e.g., financial reports) gains increasing attention in recent two years. Existing works mostly simplify this challenge by manually selecting and transforming document pages to structured tables and paragraphs, hindering their practical application. In this work, we explore a more realistic problem setting in the form of TAT-DQA, i.e. to answer the question over a visually-rich table-text document. Specifically, we propose a novel Doc2SoarGraph framework with enhanced discrete reasoning capability by harnessing the differences and correlations among different elements (e.g., quantities, dates) of the given question and document with Semantic-oriented hierarchical Graph structures. We conduct extensive experiments on TAT-DQA dataset, and the results show that our proposed framework outperforms the best baseline model by 17.73% and 16.91% in terms of Exact Match (EM) and F1 score respectively on the test set, achieving the new state-of-the-art.
Abstract（参考訳）: テーブルテキスト文書(例えば財務報告)に対する離散的推論は、近年2年間で注目を集めている。既存の作業は、ドキュメントページを構造化テーブルや段落に手動で選択・変換することで、この課題を単純化する。本研究では,より現実的なTAT-DQA形式,すなわち視覚的にリッチなテーブルテキスト文書の解答について検討する。具体的には,与えられた質問と文書の異なる要素(量,日付など)間の差異と相関を意味的指向の階層的グラフ構造で活用し,離散的推論能力を高めた新しいdoc2soargraphフレームワークを提案する。 tat-dqaデータセットに関する広範な実験を行い,提案フレームワークが,テストセット上で17.73%,16.91%の精度マッチング(em)とf1スコアで,最高のベースラインモデルを上回って,新たな最先端を実現したことを示す。

関連論文リスト

EvidFuse: Writing-Time Evidence Learning for Consistent Text-Chart Data Reporting [31.185433601906738]
データ駆動型レポートのためのテキストチャートインターリーブ生成のためのトレーニング不要なマルチエージェントフレームワークである textbfEvidFuse を提案する。 EvidFuseは2つの協力的なコンポーネントを通じて、長い形式のドラフトから可視化分析を分離する。 LLM-as-a-judgeと人によるチャート品質評価、チャートテキストアライメント、レポートレベルの有用性の両方において、トップランクを獲得している。
論文参考訳（メタデータ） (2026-01-09T02:41:54Z)
BookRAG: A Hierarchical Structure-aware Index-based Approach for Retrieval-Augmented Generation on Complex Documents [11.158307125677375]
Retrieval-Augmented Generation (RAG)は、外部の複雑なドキュメントから非常に関連性の高い情報をクエリする。本稿では,階層構造を持つ文書を対象とした新しいRAG手法であるBookRAGを紹介する。 BookRAGは最先端のパフォーマンスを実現し、検索リコールとQA精度の両方において、ベースラインを著しく上回っている。
論文参考訳（メタデータ） (2025-12-03T03:40:49Z)
Graph-based Document Structure Analysis [26.79096546002763]
本稿では,新しいグラフベース文書構造解析(gDSA)タスクを提案する。このタスクでは、モデルが文書要素を検出するだけでなく、グラフ構造の形で空間的および論理的関係を生成する必要がある。関係グラフに基づく文書構造解析データセット(GraphDoc)を80Kの文書画像と4.13Mの関連アノテーションで構築する。
論文参考訳（メタデータ） (2025-02-04T17:16:14Z)
Enhancing Visually-Rich Document Understanding via Layout Structure Modeling [91.07963806829237]
レイアウトの知識をモデルに注入する新しい文書理解モデルであるGraphLMを提案する。我々は、FUNSD、XFUND、CORDなど様々なベンチマークでモデルを評価し、最先端の結果を得た。
論文参考訳（メタデータ） (2023-08-15T13:53:52Z)
Data augmentation on graphs for table type classification [1.1859913430860336]
グラフニューラルネットワークを用いてテーブルの分類を行い、使用中のメッセージパッシングアルゴリズムのテーブル構造を利用する。我々は,グラフベースの表表現に適したデータ拡張手法を提案することで,有望な予備結果を実現する。
論文参考訳（メタデータ） (2022-08-23T21:54:46Z)
Towards Complex Document Understanding By Discrete Reasoning [77.91722463958743]
VQA(Document Visual Question Answering)は、自然言語による質問に答えるために、視覚的に豊富なドキュメントを理解することを目的としている。我々は3,067の文書ページと16,558の質問応答ペアからなる新しいドキュメントVQAデータセットTAT-DQAを紹介する。我々は,テキスト,レイアウト,視覚画像など,多要素の情報を考慮に入れたMHSTという新しいモデルを開発し,異なるタイプの質問にインテリジェントに対処する。
論文参考訳（メタデータ） (2022-07-25T01:43:19Z)
Document-Level Relation Extraction with Sentences Importance Estimation and Focusing [52.069206266557266]
文書レベルの関係抽出(DocRE)は、複数の文の文書から2つのエンティティ間の関係を決定することを目的としている。我々はDocREのための文重要度スコアと文集中損失を設計するSIEF(Sentence Estimation and Focusing)フレームワークを提案する。 2つのドメインの実験結果から、SIEFは全体的なパフォーマンスを改善するだけでなく、DocREモデルをより堅牢にします。
論文参考訳（メタデータ） (2022-04-27T03:20:07Z)
HiTab: A Hierarchical Table Dataset for Question Answering and Natural Language Generation [35.73434495391091]
階層テーブルは、計算と意味論の暗黙の関係と同様に、階層的な索引付けによって既存の手法に挑戦する。この研究は、階層テーブル上で質問応答(QA)と自然言語生成(NLG)を研究する研究コミュニティのための、自由でオープンなデータセットであるHiTabを提示する。
論文参考訳（メタデータ） (2021-08-15T10:14:21Z)
BASS: Boosting Abstractive Summarization with Unified Semantic Graph [49.48925904426591]
BASSは、統合されたセマンティックグラフに基づく抽象的な要約を促進するためのフレームワークである。文書表現と要約生成の両方を改善するために,グラフベースのエンコーダデコーダモデルを提案する。実験結果から,提案アーキテクチャは長期文書および複数文書要約タスクに大幅な改善をもたらすことが示された。
論文参考訳（メタデータ） (2021-05-25T16:20:48Z)
Retrieving Complex Tables with Multi-Granular Graph Representation Learning [20.72341939868327]
自然言語テーブル検索の課題は,自然言語クエリに基づいて意味的に関連するテーブルを検索することである。既存の学習システムは、テーブルがデータフレームとして構成されているという仮定に基づいて、テーブルをプレーンテキストとして扱う。多粒グラフ表現学習を用いた一般化可能なNLTRフレームワークであるグラフベーステーブル検索(GTR)を提案する。
論文参考訳（メタデータ） (2021-05-04T20:19:03Z)
A Graph Representation of Semi-structured Data for Web Question Answering [96.46484690047491]
本稿では、半構造化データとそれらの関係の構成要素の体系的分類に基づいて、Webテーブルとリストのグラフ表現を提案する。本手法は,最先端のベースラインに対してF1スコアを3.90ポイント向上させる。
論文参考訳（メタデータ） (2020-10-14T04:01:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。