論文の概要: FREB-TQA: A Fine-Grained Robustness Evaluation Benchmark for Table Question Answering
- arxiv url: http://arxiv.org/abs/2404.18585v1
- Date: Mon, 29 Apr 2024 10:55:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-30 13:57:37.680298
- Title: FREB-TQA: A Fine-Grained Robustness Evaluation Benchmark for Table Question Answering
- Title(参考訳): FREB-TQA:テーブル質問応答のための微粒化ロバスト性評価ベンチマーク
- Authors: Wei Zhou, Mohsen Mesgar, Heike Adel, Annemarie Friedrich,
- Abstract要約: TQA(Table Question Answering)は、質問に対する回答を表データに基づいて作成することを目的としている。
以前の研究では、TQAモデルにはロバスト性が欠如していることが示されており、この問題の根本原因と性質を理解することは、ほとんど不明である。
本稿では,TQAシステムのロバスト性を詳細に評価するために,3つの主要なデシラタを定式化する。
i) 表構造の変化にかかわらず, 質問に答えるべきであり, (ii) バイアスではなく, 関連細胞の内容に基づいて回答し, (iii) 頑健な数値推論能力を示す。
- 参考スコア(独自算出の注目度): 16.790216473975146
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Table Question Answering (TQA) aims at composing an answer to a question based on tabular data. While prior research has shown that TQA models lack robustness, understanding the underlying cause and nature of this issue remains predominantly unclear, posing a significant obstacle to the development of robust TQA systems. In this paper, we formalize three major desiderata for a fine-grained evaluation of robustness of TQA systems. They should (i) answer questions regardless of alterations in table structure, (ii) base their responses on the content of relevant cells rather than on biases, and (iii) demonstrate robust numerical reasoning capabilities. To investigate these aspects, we create and publish a novel TQA evaluation benchmark in English. Our extensive experimental analysis reveals that none of the examined state-of-the-art TQA systems consistently excels in these three aspects. Our benchmark is a crucial instrument for monitoring the behavior of TQA systems and paves the way for the development of robust TQA systems. We release our benchmark publicly.
- Abstract(参考訳): TQA(Table Question Answering)は、質問に対する回答を表データに基づいて作成することを目的としている。
以前の研究では、TQAモデルにはロバスト性がないことが示されているが、この問題の根本原因と性質を理解することは、主に不明であり、ロバストなTQAシステムの開発に重大な障害を生じさせている。
本稿では,TQAシステムのロバスト性を詳細に評価するために,3つの主要なデシラタを定式化する。
すべきである。
一 表構造の変更にかかわらず、質問に答えること。
(二)その応答はバイアスではなく関連細胞の内容に基づいており、
(三)頑健な数値推論能力を示す。
これらの側面を調査するために、我々は英語で新しいTQA評価ベンチマークを作成し、公開する。
調査対象となったTQAシステムはいずれも,これら3つの点において常に優れていなかった。
当社のベンチマークは,TQAシステムの挙動をモニタリングする上で重要な指標であり,堅牢なTQAシステムの開発への道を開くものである。
ベンチマークを公開しています。
関連論文リスト
- KET-QA: A Dataset for Knowledge Enhanced Table Question Answering [63.56707527868466]
本研究では,TableQAの外部知識源として知識ベース(KB)を用いることを提案する。
すべての質問は、答えるテーブルとサブグラフの両方からの情報を統合する必要がある。
我々は,膨大な知識サブグラフから関連する情報を抽出するために,レトリバー・レゾナー構造パイプラインモデルを設計する。
論文 参考訳(メタデータ) (2024-05-13T18:26:32Z) - RobuT: A Systematic Study of Table QA Robustness Against Human-Annotated
Adversarial Perturbations [13.900589860309488]
RobuTは既存のテーブルQAデータセット(WTQ、Wiki-Weak、SQA)の上に構築されている
以上の結果から,現状のテーブルQAモデルと大規模言語モデル(GPT-3など)の双方が,これらの対向集合に数発の学習フェールを持つことが明らかとなった。
本稿では,大規模言語モデルを用いて,学習力を高めるための逆例を生成することで,この問題に対処することを提案する。
論文 参考訳(メタデータ) (2023-06-25T19:23:21Z) - IfQA: A Dataset for Open-domain Question Answering under Counterfactual
Presuppositions [54.23087908182134]
本稿では,QA(FifQA)と呼ばれる,最初の大規模対実的オープンドメイン質問応答(QA)ベンチマークを紹介する。
IfQAデータセットには3,800以上の質問が含まれている。
IfQAベンチマークによって引き起こされるユニークな課題は、検索と対実的推論の両方に関して、オープンドメインのQA研究を促進することである。
論文 参考訳(メタデータ) (2023-05-23T12:43:19Z) - Improving Visual Question Answering Models through Robustness Analysis
and In-Context Learning with a Chain of Basic Questions [70.70725223310401]
本研究は,VQAモデルのロバスト性を評価するために,基本質問と呼ばれる意味的関連質問を利用する新しい手法を提案する。
実験により,提案手法はVQAモデルのロバスト性を効果的に解析することを示した。
論文 参考訳(メタデータ) (2023-04-06T15:32:35Z) - Do I have the Knowledge to Answer? Investigating Answerability of
Knowledge Base Questions [25.13991044303459]
GrailQAbilityは、未解決のKBQAデータセットである。
3つの最先端KBQAモデルを用いて実験したところ、3つのモデル全てが性能低下に悩まされていることがわかった。
このことはKBQAシステムを解答不能に堅牢にするためのさらなる研究の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2022-12-20T12:00:26Z) - RoMQA: A Benchmark for Robust, Multi-evidence, Multi-answer Question
Answering [87.18962441714976]
堅牢でマルチエビデンスな質問応答(QA)のための最初のベンチマークであるRoMQAを紹介します。
我々は、最先端の大規模言語モデルをゼロショット、少数ショット、微調整設定で評価し、RoMQAが難しいことを発見した。
以上の結果から,RoMQAは大規模言語モデルにとって難しいベンチマークであり,より堅牢なQA手法を構築するための定量的なテストを提供する。
論文 参考訳(メタデータ) (2022-10-25T21:39:36Z) - Evaluation of Question Answering Systems: Complexity of judging a
natural language [3.4771957347698583]
質問応答システム(QA)は、自然言語処理(NLP)において最も重要かつ急速に発展している研究課題の一つである。
本調査では,QAの枠組み,QAパラダイム,ベンチマークデータセット,およびQAシステムの定量的評価のための評価手法の体系的概要について述べる。
論文 参考訳(メタデータ) (2022-09-10T12:29:04Z) - Improving Unsupervised Question Answering via Summarization-Informed
Question Generation [47.96911338198302]
質問生成 (QG) とは, 質問文, 質問文, 質問文, 質問文, 質問文, 質問文, 質問文, 質問文, 質問文, 質問文, 質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、
我々は、自由なニュース要約データを使用し、宣言文を依存性解析、名前付きエンティティ認識、セマンティックロールラベリングを用いて適切な質問に変換する。
得られた質問は、元のニュース記事と組み合わせて、エンドツーエンドのニューラルQGモデルをトレーニングする。
論文 参考訳(メタデータ) (2021-09-16T13:08:43Z) - TAT-QA: A Question Answering Benchmark on a Hybrid of Tabular and
Textual Content in Finance [71.76018597965378]
TAT-QAと呼ばれるタブラデータとテクスチャデータの両方を含む新しい大規模な質問応答データセットを構築します。
本稿では,テーブルとテキストの両方を推論可能な新しいQAモデルであるTAGOPを提案する。
論文 参考訳(メタデータ) (2021-05-17T06:12:06Z) - Summary-Oriented Question Generation for Informational Queries [23.72999724312676]
主文書のトピックに焦点をあてた自己説明的質問を,適切な長さのパスで答えられるようにすることを目的としている。
本モデルでは,NQデータセット(20.1BLEU-4)上でのSQ生成のSOTA性能を示す。
我々はさらに,本モデルをドメイン外のニュース記事に適用し,ゴールド質問の欠如によるQAシステムによる評価を行い,私たちのモデルがニュース記事に対してより良いSQを生成することを実証し,人間による評価によるさらなる確認を行う。
論文 参考訳(メタデータ) (2020-10-19T17:30:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。