論文の概要: How Robust are the Tabular QA Models for Scientific Tables? A Study using Customized Dataset
- arxiv url: http://arxiv.org/abs/2404.00401v1
- Date: Sat, 30 Mar 2024 15:48:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 03:59:36.725304
- Title: How Robust are the Tabular QA Models for Scientific Tables? A Study using Customized Dataset
- Title(参考訳): 科学テーブルのタブラルQAモデルについて : カスタマイズデータセットを用いた検討
- Authors: Akash Ghosh, B Venkata Sahith, Niloy Ganguly, Pawan Goyal, Mayank Singh,
- Abstract要約: SciTabQAは、科学的異種データに対する質問応答を研究する革新的なデータセットである。
3つの最先端のタブラルQAモデルをベンチマークした結果、最良のF1スコアは0.462であることがわかった。
- 参考スコア(独自算出の注目度): 23.822733961152103
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Question-answering (QA) on hybrid scientific tabular and textual data deals with scientific information, and relies on complex numerical reasoning. In recent years, while tabular QA has seen rapid progress, understanding their robustness on scientific information is lacking due to absence of any benchmark dataset. To investigate the robustness of the existing state-of-the-art QA models on scientific hybrid tabular data, we propose a new dataset, "SciTabQA", consisting of 822 question-answer pairs from scientific tables and their descriptions. With the help of this dataset, we assess the state-of-the-art Tabular QA models based on their ability (i) to use heterogeneous information requiring both structured data (table) and unstructured data (text) and (ii) to perform complex scientific reasoning tasks. In essence, we check the capability of the models to interpret scientific tables and text. Our experiments show that "SciTabQA" is an innovative dataset to study question-answering over scientific heterogeneous data. We benchmark three state-of-the-art Tabular QA models, and find that the best F1 score is only 0.462.
- Abstract(参考訳): ハイブリッド科学表表とテキストデータに関する質問回答(QA)は、科学的情報を扱うものであり、複雑な数値推論に依存している。
近年、表形式のQAは急速に進歩しているが、ベンチマークデータセットが欠如しているため、科学的情報に対する堅牢性は欠如している。
従来のQAモデルの科学的ハイブリッド表データに対するロバスト性を検討するため,科学表から822組の質問応答対からなる新しいデータセット「SciTabQA」とその記述を提案する。
このデータセットの助けを借りて、その能力に基づいて最先端のタブラルQAモデルを評価する。
一 構造化データ(テーブル)及び非構造化データ(テキスト)の両方を必要とする異種情報を使用すること
(ii)複雑な科学的推論を行う。
本質的には、科学的な表やテキストを解釈するモデルの能力を確認する。
実験の結果,「SciTabQA」は科学的異種データに対する質問応答研究の革新的なデータセットであることがわかった。
3つの最先端のタブラルQAモデルをベンチマークした結果、最良のF1スコアは0.462であることがわかった。
関連論文リスト
- KET-QA: A Dataset for Knowledge Enhanced Table Question Answering [63.56707527868466]
本研究では,TableQAの外部知識源として知識ベース(KB)を用いることを提案する。
すべての質問は、答えるテーブルとサブグラフの両方からの情報を統合する必要がある。
我々は,膨大な知識サブグラフから関連する情報を抽出するために,レトリバー・レゾナー構造パイプラインモデルを設計する。
論文 参考訳(メタデータ) (2024-05-13T18:26:32Z) - Why Tabular Foundation Models Should Be a Research Priority [65.75744962286538]
タブラルデータは、多くの分野において支配的なモダリティであるが、研究の注意がほとんど与えられず、スケールとパワーの面ではかなり遅れている。
私たちは現在、表形式の基礎モデル、あるいはLTM(Large Tabular Model)と呼ばれるものの開発を始める時が来たと信じています。
論文 参考訳(メタデータ) (2024-05-02T10:05:16Z) - Towards Controlled Table-to-Text Generation with Scientific Reasoning [46.87189607486007]
本稿では,科学的文書分析の自動化を目的とした,科学的データに対するユーザの嗜好に合致する,流動的で論理的な記述を生成するための新しいタスクを提案する。
学術文献から抽出したテーブル記述ペアからなる新しい挑戦的データセットSciTabを構築し,強調されたセルとそれに対応するドメイン固有知識ベースを構築した。
その結果、大規模なモデルでは、ユーザの好みに合わせて正確なコンテンツを生成するのに苦労していることがわかりました。
論文 参考訳(メタデータ) (2023-12-08T22:57:35Z) - QTSumm: Query-Focused Summarization over Tabular Data [58.62152746690958]
人々は主に、データ分析を行うか、特定の質問に答えるためにテーブルをコンサルティングします。
そこで本研究では,テキスト生成モデルに人間的な推論を行なわなければならない,クエリ中心のテーブル要約タスクを新たに定義する。
このタスクには,2,934テーブル上の7,111の人間注釈付きクエリ-サマリーペアを含む,QTSummという新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2023-05-23T17:43:51Z) - Towards Complex Document Understanding By Discrete Reasoning [77.91722463958743]
VQA(Document Visual Question Answering)は、自然言語による質問に答えるために、視覚的に豊富なドキュメントを理解することを目的としている。
我々は3,067の文書ページと16,558の質問応答ペアからなる新しいドキュメントVQAデータセットTAT-DQAを紹介する。
我々は,テキスト,レイアウト,視覚画像など,多要素の情報を考慮に入れたMHSTという新しいモデルを開発し,異なるタイプの質問にインテリジェントに対処する。
論文 参考訳(メタデータ) (2022-07-25T01:43:19Z) - Why do tree-based models still outperform deep learning on tabular data? [0.0]
木をベースとしたモデルが中規模データの最先端のままであることを示す。
木系モデルとニューラルネットワーク(NN)の異なる帰納バイアスに関する実証的研究を行う。
論文 参考訳(メタデータ) (2022-07-18T08:36:08Z) - OmniTab: Pretraining with Natural and Synthetic Data for Few-shot
Table-based Question Answering [106.73213656603453]
最小限のアノテーションによるテーブルベースのQAモデルを構築した。
本稿では、自然データと合成データの両方を消費する全能事前学習手法を提案する。
論文 参考訳(メタデータ) (2022-07-08T01:23:45Z) - TAT-QA: A Question Answering Benchmark on a Hybrid of Tabular and
Textual Content in Finance [71.76018597965378]
TAT-QAと呼ばれるタブラデータとテクスチャデータの両方を含む新しい大規模な質問応答データセットを構築します。
本稿では,テーブルとテキストの両方を推論可能な新しいQAモデルであるTAGOPを提案する。
論文 参考訳(メタデータ) (2021-05-17T06:12:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。