論文の概要: Evaluation of Table Representations to Answer Questions from Tables in Documents : A Case Study using 3GPP Specifications
- arxiv url: http://arxiv.org/abs/2408.17008v1
- Date: Fri, 30 Aug 2024 04:40:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-02 16:29:13.310438
- Title: Evaluation of Table Representations to Answer Questions from Tables in Documents : A Case Study using 3GPP Specifications
- Title(参考訳): 文書における表からの質問への回答のための表表現の評価 : 3GPP仕様を用いた事例研究
- Authors: Sujoy Roychowdhury, Sumit Soman, HG Ranjani, Avantika Sharma, Neeraj Gunda, Sai Krishna Bala,
- Abstract要約: 関連するチャンクの点におけるテーブルの表現は明確ではない。
各セルに対応するテーブルヘッダ情報を含むローレベル表現は、検索性能を向上させる。
- 参考スコア(独自算出の注目度): 0.650923326742559
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the ubiquitous use of document corpora for question answering, one important aspect which is especially relevant for technical documents is the ability to extract information from tables which are interspersed with text. The major challenge in this is that unlike free-flow text or isolated set of tables, the representation of a table in terms of what is a relevant chunk is not obvious. We conduct a series of experiments examining various representations of tabular data interspersed with text to understand the relative benefits of different representations. We choose a corpus of $3^{rd}$ Generation Partnership Project (3GPP) documents since they are heavily interspersed with tables. We create expert curated dataset of question answers to evaluate our approach. We conclude that row level representations with corresponding table header information being included in every cell improves the performance of the retrieval, thus leveraging the structural information present in the tabular data.
- Abstract(参考訳): 質問応答に文書コーパスをユビキタスに使用することにより、特に技術文書に関係のある重要な側面は、テキストが散在するテーブルから情報を抽出する能力である。
この大きな課題は、自由フローテキストや孤立したテーブルの集合とは異なり、関連するチャンクの点でテーブルの表現が明確でないことである。
本研究では,テキストに散在する表型データの様々な表現を検証し,異なる表現の相対的利点を理解する。
3GPP(Generation Partnership Project)という3GPP(Generation Partnership Project)のドキュメントのコーパスを選択します。
我々のアプローチを評価するために、専門家による質問回答のデータセットを作成します。
各セルに対応するテーブルヘッダ情報を含む行レベルの表現は,検索性能を向上し,表データに表される構造情報を活用することができる。
関連論文リスト
- DocTabQA: Answering Questions from Long Documents Using Tables [16.3130447078524]
本稿では,DocTabQAと呼ばれる質問応答(QA)の新たな問題設定について検討する。
この設定内では、長いドキュメントが与えられたら、答を文書の内容から直接導かれる構造化テーブルに整理することで質問に答えることが目的である。
我々はQTabAデータセットを導入し,300の財務文書と1.5kの質問表を手作業でアノテートした。
本稿では,DocTabTalkと呼ばれる2段階のフレームワークについて述べる。
論文 参考訳(メタデータ) (2024-08-21T10:01:12Z) - QFMTS: Generating Query-Focused Summaries over Multi-Table Inputs [63.98556480088152]
表要約は、情報を簡潔で分かりやすいテキスト要約に凝縮するための重要な課題である。
本稿では,クエリ中心のマルチテーブル要約を導入することで,これらの制約に対処する新しい手法を提案する。
提案手法は,テーブルシリアライズモジュール,要約コントローラ,および大規模言語モデルからなり,ユーザの情報要求に合わせたクエリ依存のテーブル要約を生成する。
論文 参考訳(メタデータ) (2024-05-08T15:05:55Z) - QTSumm: Query-Focused Summarization over Tabular Data [58.62152746690958]
人々は主に、データ分析を行うか、特定の質問に答えるためにテーブルをコンサルティングします。
そこで本研究では,テキスト生成モデルに人間的な推論を行なわなければならない,クエリ中心のテーブル要約タスクを新たに定義する。
このタスクには,2,934テーブル上の7,111の人間注釈付きクエリ-サマリーペアを含む,QTSummという新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2023-05-23T17:43:51Z) - Doc2SoarGraph: Discrete Reasoning over Visually-Rich Table-Text
Documents via Semantic-Oriented Hierarchical Graphs [79.0426838808629]
視覚的にリッチなテーブルテキスト文書に答えるTAT-DQAを提案する。
具体的には、離散推論機能を強化した新しいDoc2SoarGraphフレームワークを提案する。
我々は,TAT-DQAデータセットに関する広範な実験を行い,提案したフレームワークは,テストセット上でのエクサクティマッチ(EM)とF1スコアでそれぞれ17.73%,F1スコアで16.91%の最高のベースラインモデルを上回る結果を得た。
論文 参考訳(メタデータ) (2023-05-03T07:30:32Z) - TabIQA: Table Questions Answering on Business Document Images [3.9993134366218857]
本稿では,ビジネス文書イメージに関する疑問に答えるために,TabIQAという新しいパイプラインを提案する。
TabIQAは、1)最先端のディープラーニング技術を組み合わせて、画像からテーブルの内容と構造情報を抽出し、2)数値データ、テキストベース情報、構造化テーブルからの複雑なクエリに関する様々な質問に答える。
論文 参考訳(メタデータ) (2023-03-27T06:31:21Z) - Graph Neural Networks and Representation Embedding for Table Extraction
in PDF Documents [1.1859913430860336]
この研究の主な貢献は、グラフニューラルネットワークを利用したテーブル抽出の問題に取り組むことである。
PubLayNetおよびPubTables-1Mデータセットに提供される情報をマージして得られた新しいデータセットに対する提案手法を実験的に評価した。
論文 参考訳(メタデータ) (2022-08-23T21:36:01Z) - Towards Complex Document Understanding By Discrete Reasoning [77.91722463958743]
VQA(Document Visual Question Answering)は、自然言語による質問に答えるために、視覚的に豊富なドキュメントを理解することを目的としている。
我々は3,067の文書ページと16,558の質問応答ペアからなる新しいドキュメントVQAデータセットTAT-DQAを紹介する。
我々は,テキスト,レイアウト,視覚画像など,多要素の情報を考慮に入れたMHSTという新しいモデルを開発し,異なるタイプの質問にインテリジェントに対処する。
論文 参考訳(メタデータ) (2022-07-25T01:43:19Z) - Table Retrieval May Not Necessitate Table-specific Model Design [83.27735758203089]
テーブル検索のタスクに焦点をあてて、"テーブル固有のモデル設計はテーブル検索に必要か?
自然質問データセット (NQ-table) の表に基づく分析の結果, 70%以上の症例では構造が無視できる役割を担っていることがわかった。
次に、テーブル構造、すなわち補助列/カラム埋め込み、ハードアテンションマスク、ソフトリレーションに基づくアテンションバイアスを明示的にエンコードする3つのモジュールを実験する。
いずれも大きな改善は得られず、テーブル固有のモデル設計がテーブル検索に不要である可能性が示唆された。
論文 参考訳(メタデータ) (2022-05-19T20:35:23Z) - Representations for Question Answering from Documents with Tables and
Text [22.522986299412807]
周囲のテキストからの情報をもとに表表現を精緻化することで、表からの質問応答の向上を目指します。
また,全文からの質問応答のためのテキストと表に基づく予測を組み合わせるための有効な方法を提案する。
論文 参考訳(メタデータ) (2021-01-26T05:52:20Z) - A Graph Representation of Semi-structured Data for Web Question
Answering [96.46484690047491]
本稿では、半構造化データとそれらの関係の構成要素の体系的分類に基づいて、Webテーブルとリストのグラフ表現を提案する。
本手法は,最先端のベースラインに対してF1スコアを3.90ポイント向上させる。
論文 参考訳(メタデータ) (2020-10-14T04:01:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。