論文の概要: Towards Robust Numerical Question Answering: Diagnosing Numerical
Capabilities of NLP Systems
- arxiv url: http://arxiv.org/abs/2211.07455v1
- Date: Mon, 14 Nov 2022 15:32:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-15 17:38:45.031516
- Title: Towards Robust Numerical Question Answering: Diagnosing Numerical
Capabilities of NLP Systems
- Title(参考訳): 頑健な数値質問応答に向けて:NLPシステムの数値能力の診断
- Authors: Jialiang Xu, Mengyu Zhou, Xinyi He, Shi Han, Dongmei Zhang
- Abstract要約: 我々は,一連の数値質問応答システムとデータセットを用いて,数値能力診断を行う。
例えば、Graph2TreeはASDiv-a上のエクストラの摂動に対して53.83%の絶対精度低下を経験した。
また,データ拡張として摂動を適用することで,システムの堅牢な数値能力の欠如を緩和する効果についても検討した。
- 参考スコア(独自算出の注目度): 33.80991462412644
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Numerical Question Answering is the task of answering questions that require
numerical capabilities. Previous works introduce general adversarial attacks to
Numerical Question Answering, while not systematically exploring numerical
capabilities specific to the topic. In this paper, we propose to conduct
numerical capability diagnosis on a series of Numerical Question Answering
systems and datasets. A series of numerical capabilities are highlighted, and
corresponding dataset perturbations are designed. Empirical results indicate
that existing systems are severely challenged by these perturbations. E.g.,
Graph2Tree experienced a 53.83% absolute accuracy drop against the ``Extra''
perturbation on ASDiv-a, and BART experienced 13.80% accuracy drop against the
``Language'' perturbation on the numerical subset of DROP. As a counteracting
approach, we also investigate the effectiveness of applying perturbations as
data augmentation to relieve systems' lack of robust numerical capabilities.
With experiment analysis and empirical studies, it is demonstrated that
Numerical Question Answering with robust numerical capabilities is still to a
large extent an open question. We discuss future directions of Numerical
Question Answering and summarize guidelines on future dataset collection and
system design.
- Abstract(参考訳): 数値質問回答は数値能力を必要とする質問に答えるタスクである。
従来の研究は、数値質問回答に一般的な敵攻撃を導入しているが、このトピックに特有な数値能力について体系的に調べることはなかった。
本稿では,一連の数値質問応答システムとデータセットを用いて,数値能力診断を行う。
一連の数値機能を強調し、対応するデータセット摂動を設計する。
実証的な結果は、既存のシステムはこれらの摂動によって深刻な課題を被っていることを示している。
例えば、Graph2Tree は ASDiv-a 上の ``Extra'' の摂動に対して 53.83% の絶対精度低下を経験し、BART は 13.80% の精度低下を DROP の数値部分集合における ``Language' の摂動に対して経験した。
また,データ拡張として摂動を適用し,システムの堅牢な数値能力の欠如を緩和する効果についても検討した。
実験分析および実験研究により,頑健な数値的能力を持つ数値的質問応答はいまだにオープンな質問であることが示された。
数値質問応答の今後の方向性について議論し,今後のデータセット収集とシステム設計に関するガイドラインを要約する。
関連論文リスト
- Case-Based Reasoning Approach for Solving Financial Question Answering [5.10832476049103]
FinQAは財務文書の数値推論データセットを導入した。
ケースベース推論(CBR)を用いた数値推論問題に対する新しいアプローチを提案する。
本モデルでは,質問に対処する関連事例を検索し,検索した事例と文脈情報に基づいて回答を生成する。
論文 参考訳(メタデータ) (2024-05-18T10:06:55Z) - UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - FERMAT: An Alternative to Accuracy for Numerical Reasoning [11.893004722079557]
数値推論は、既存のデータセットの単一スコアを用いて測定される。
我々は、FERMATと呼ばれる、英語の数値推論のための多視点評価セットを導入する。
FerMATは、数理解、数学的操作、訓練依存など、様々な重要な数値推論の側面でモデルを評価する。
論文 参考訳(メタデータ) (2023-05-27T15:00:45Z) - Finite Sample Identification of Bilinear Dynamical Systems [29.973598501311233]
未知の双線形系を高い確率で所望の精度で推定する方法を示す。
サンプルの複雑性と統計的誤差率は, 軌道長, 系の寸法, 入力サイズで最適である。
論文 参考訳(メタデータ) (2022-08-29T22:34:22Z) - Causal Discovery from Sparse Time-Series Data Using Echo State Network [0.0]
時系列データ間の因果関係の発見は、症状の原因の診断に役立つ。
本稿では,2つの部分から構成される新しいシステムを提案する。第1部はガウスプロセス回帰を,第2部はエコー状態ネットワークを活用する。
本稿では,対応するマシューズ相関係数 (MCC) と受信器動作特性曲線 (ROC) について報告する。
論文 参考訳(メタデータ) (2022-01-09T05:55:47Z) - Coupled and Uncoupled Dynamic Mode Decomposition in Multi-Compartmental
Systems with Applications to Epidemiological and Additive Manufacturing
Problems [58.720142291102135]
非線形問題に適用した場合,動的分解(DMD)は強力なツールである可能性が示唆された。
特に,Covid-19に対する連続遅延SIRDモデルに対する興味深い数値的応用を示す。
論文 参考訳(メタデータ) (2021-10-12T21:42:14Z) - As Easy as 1, 2, 3: Behavioural Testing of NMT Systems for Numerical
Translation [51.20569527047729]
誤訳された数字は、金銭的損失や医療的誤報などの深刻な影響を引き起こす可能性がある。
本研究では,ニューラルネットワーク翻訳システムの動作テストによる数値テキストへの堅牢性に関する総合的な評価法を開発した。
論文 参考訳(メタデータ) (2021-07-18T04:09:47Z) - A New Score for Adaptive Tests in Bayesian and Credal Networks [64.80185026979883]
テストは、そのシークエンスと質問数とが、テイカーの推定スキルに基づいて動的に調整されるときに適応する。
後部確率のモードに基づいて、別のスコアの族を提示するので、説明し易い。
論文 参考訳(メタデータ) (2021-05-25T20:35:42Z) - ClarQ: A large-scale and diverse dataset for Clarification Question
Generation [67.1162903046619]
そこで我々は,スタックエクスチェンジから抽出したポストコメンデーションに基づいて,多様な,大規模な明確化質問データセットの作成を支援する,新しいブートストラップフレームワークを考案した。
質問応答の下流タスクに適用することで,新たに作成したデータセットの有用性を定量的に示す。
我々はこのデータセットを公開し、ダイアログと質問応答システムの拡張という大きな目標を掲げて、質問生成の分野の研究を促進する。
論文 参考訳(メタデータ) (2020-06-10T17:56:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。