論文の概要: Shortcomings of Question Answering Based Factuality Frameworks for Error
Localization
- arxiv url: http://arxiv.org/abs/2210.06748v1
- Date: Thu, 13 Oct 2022 05:23:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-14 15:40:51.412718
- Title: Shortcomings of Question Answering Based Factuality Frameworks for Error
Localization
- Title(参考訳): 質問応答に基づく誤り局所化のためのファクチュアリティフレームワークの欠点
- Authors: Ryo Kamoi, Tanya Goyal, Greg Durrett
- Abstract要約: 質問応答(QA)に基づく事実性指標は、生成した要約の誤り範囲を正しく識別できないことを示す。
このようなローカライゼーションが不十分な理由として,QGモジュールが生成した質問は,非実数的な要約から誤りを継承することが多く,さらに下流モジュールに伝播する。
本実験は,より強力なQAモデルとQGモデルでのみ修正できないQAフレームワークを用いた局所化に関する根本的な問題が存在することを確定的に示す。
- 参考スコア(独自算出の注目度): 51.01957350348377
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite recent progress in abstractive summarization, models often generate
summaries with factual errors. Numerous approaches to detect these errors have
been proposed, the most popular of which are question answering (QA)-based
factuality metrics. These have been shown to work well at predicting
summary-level factuality and have potential to localize errors within
summaries, but this latter capability has not been systematically evaluated in
past research. In this paper, we conduct the first such analysis and find that,
contrary to our expectations, QA-based frameworks fail to correctly identify
error spans in generated summaries and are outperformed by trivial exact match
baselines. Our analysis reveals a major reason for such poor localization:
questions generated by the QG module often inherit errors from non-factual
summaries which are then propagated further into downstream modules. Moreover,
even human-in-the-loop question generation cannot easily offset these problems.
Our experiments conclusively show that there exist fundamental issues with
localization using the QA framework which cannot be fixed solely by stronger QA
and QG models.
- Abstract(参考訳): 抽象的要約の最近の進歩にもかかわらず、モデルはしばしば事実的誤りを伴う要約を生成する。
これらの誤りを検出するための多くのアプローチが提案されており、最も一般的なのが質問応答(QA)に基づく事実性指標である。
これらは要約レベルの事実性を予測し、要約内でエラーをローカライズする可能性があることが示されているが、この後者の能力は過去の研究では体系的に評価されていない。
本稿では,まずこのような分析を行い,QAベースのフレームワークが生成した要約のエラースパンを正しく識別できず,正確な一致ベースラインによって性能が向上していることを確認した。
このようなローカライゼーションが不十分な理由として,QGモジュールが生成した質問は,非実数的な要約から誤りを継承することが多く,さらに下流モジュールに伝播する。
さらに、ループ内質問生成でさえ、これらの問題を容易に相殺することはできない。
本実験は,より強力なQAモデルとQGモデルでのみ修正できないQAフレームワークを用いた局所化に関する根本的な問題が存在することを示す。
関連論文リスト
- PAGER: A Framework for Failure Analysis of Deep Regression Models [30.370133888519387]
PAGER (Principled Analysis of Generalization Errors in Regressors) は、深い回帰モデルにおける障害を体系的に検出し、特徴付けるフレームワークである。
PAGERは正確な一般化の領域を識別し、配布外およびサポート外シナリオにおける障害ケースを検出する。
論文 参考訳(メタデータ) (2023-09-20T00:37:35Z) - Advancing Counterfactual Inference through Nonlinear Quantile Regression [77.28323341329461]
ニューラルネットワークで実装された効率的かつ効果的な対実的推論のためのフレームワークを提案する。
提案手法は、推定された反事実結果から見つからないデータまでを一般化する能力を高める。
複数のデータセットで実施した実証実験の結果は、我々の理論的な主張に対する説得力のある支持を提供する。
論文 参考訳(メタデータ) (2023-06-09T08:30:51Z) - Improving Visual Question Answering Models through Robustness Analysis
and In-Context Learning with a Chain of Basic Questions [70.70725223310401]
本研究は,VQAモデルのロバスト性を評価するために,基本質問と呼ばれる意味的関連質問を利用する新しい手法を提案する。
実験により,提案手法はVQAモデルのロバスト性を効果的に解析することを示した。
論文 参考訳(メタデータ) (2023-04-06T15:32:35Z) - A Call to Reflect on Evaluation Practices for Failure Detection in Image
Classification [0.491574468325115]
本稿では,信頼度評価関数のベンチマーク化を初めて実現した大規模実証的研究について述べる。
簡便なソフトマックス応答ベースラインを全体の最高の実行方法として明らかにすることは、現在の評価の劇的な欠点を浮き彫りにする。
論文 参考訳(メタデータ) (2022-11-28T12:25:27Z) - Towards Improving Faithfulness in Abstractive Summarization [37.19777407790153]
本稿では,抽象的な要約における忠実度を改善するために,FES(Fithfulness Enhanced Summarization Model)を提案する。
我々のモデルはCNN/DMとXSumの実験において強いベースラインを上回ります。
論文 参考訳(メタデータ) (2022-10-04T19:52:09Z) - Factual Error Correction for Abstractive Summaries Using Entity
Retrieval [57.01193722520597]
本稿では,エンティティ検索後処理に基づく効率的な事実誤り訂正システムRFECを提案する。
RFECは、原文と対象要約とを比較して、原文から証拠文を検索する。
次に、RFECは、エビデンス文を考慮し、要約中のエンティティレベルのエラーを検出し、エビデンス文から正確なエンティティに置換する。
論文 参考訳(メタデータ) (2022-04-18T11:35:02Z) - Stateful Offline Contextual Policy Evaluation and Learning [88.9134799076718]
我々は、シーケンシャルデータから、政治以外の評価と学習について研究する。
動的パーソナライズされた価格設定などの問題の因果構造を形式化する。
本報告では,本クラスにおけるアウト・オブ・サンプル・ポリシーの性能改善について述べる。
論文 参考訳(メタデータ) (2021-10-19T16:15:56Z) - Can Question Generation Debias Question Answering Models? A Case Study
on Question-Context Lexical Overlap [25.80004272277982]
最近のニューラルQGモデルは、高い語彙重なり合う質問を生成することに偏っている。
語彙重なりが低い質問を補足する同義語に基づく手法を提案する。
論文 参考訳(メタデータ) (2021-09-23T09:53:54Z) - When and Why does a Model Fail? A Human-in-the-loop Error Detection
Framework for Sentiment Analysis [12.23497603132782]
本稿では,説明可能な特徴に基づく感情分析のための誤り検出フレームワークを提案する。
実験結果から,ループ内介入が限定された場合,未確認データの誤モデル予測を高精度に検出できることが示唆された。
論文 参考訳(メタデータ) (2021-06-02T05:45:42Z) - Loss re-scaling VQA: Revisiting the LanguagePrior Problem from a
Class-imbalance View [129.392671317356]
本稿では,クラス不均衡の観点から,VQAにおける言語先行問題を理解することを提案する。
これは、なぜVQAモデルが頻繁に、そして明らかに間違った答えをもたらすのかを明確に示している。
また,顔認識や画像分類などの他のコンピュータビジョンタスクに対して,クラス不均衡解釈方式の有効性を正当化する。
論文 参考訳(メタデータ) (2020-10-30T00:57:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。