論文の概要: Shortcomings of Question Answering Based Factuality Frameworks for Error
Localization
- arxiv url: http://arxiv.org/abs/2210.06748v1
- Date: Thu, 13 Oct 2022 05:23:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-14 15:40:51.412718
- Title: Shortcomings of Question Answering Based Factuality Frameworks for Error
Localization
- Title(参考訳): 質問応答に基づく誤り局所化のためのファクチュアリティフレームワークの欠点
- Authors: Ryo Kamoi, Tanya Goyal, Greg Durrett
- Abstract要約: 質問応答(QA)に基づく事実性指標は、生成した要約の誤り範囲を正しく識別できないことを示す。
このようなローカライゼーションが不十分な理由として,QGモジュールが生成した質問は,非実数的な要約から誤りを継承することが多く,さらに下流モジュールに伝播する。
本実験は,より強力なQAモデルとQGモデルでのみ修正できないQAフレームワークを用いた局所化に関する根本的な問題が存在することを確定的に示す。
- 参考スコア(独自算出の注目度): 51.01957350348377
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite recent progress in abstractive summarization, models often generate
summaries with factual errors. Numerous approaches to detect these errors have
been proposed, the most popular of which are question answering (QA)-based
factuality metrics. These have been shown to work well at predicting
summary-level factuality and have potential to localize errors within
summaries, but this latter capability has not been systematically evaluated in
past research. In this paper, we conduct the first such analysis and find that,
contrary to our expectations, QA-based frameworks fail to correctly identify
error spans in generated summaries and are outperformed by trivial exact match
baselines. Our analysis reveals a major reason for such poor localization:
questions generated by the QG module often inherit errors from non-factual
summaries which are then propagated further into downstream modules. Moreover,
even human-in-the-loop question generation cannot easily offset these problems.
Our experiments conclusively show that there exist fundamental issues with
localization using the QA framework which cannot be fixed solely by stronger QA
and QG models.
- Abstract(参考訳): 抽象的要約の最近の進歩にもかかわらず、モデルはしばしば事実的誤りを伴う要約を生成する。
これらの誤りを検出するための多くのアプローチが提案されており、最も一般的なのが質問応答(QA)に基づく事実性指標である。
これらは要約レベルの事実性を予測し、要約内でエラーをローカライズする可能性があることが示されているが、この後者の能力は過去の研究では体系的に評価されていない。
本稿では,まずこのような分析を行い,QAベースのフレームワークが生成した要約のエラースパンを正しく識別できず,正確な一致ベースラインによって性能が向上していることを確認した。
このようなローカライゼーションが不十分な理由として,QGモジュールが生成した質問は,非実数的な要約から誤りを継承することが多く,さらに下流モジュールに伝播する。
さらに、ループ内質問生成でさえ、これらの問題を容易に相殺することはできない。
本実験は,より強力なQAモデルとQGモデルでのみ修正できないQAフレームワークを用いた局所化に関する根本的な問題が存在することを示す。
関連論文リスト
- Alice in Wonderland: Simple Tasks Showing Complete Reasoning Breakdown in State-Of-the-Art Large Language Models [13.532180752491954]
利用可能な最大規模でトレーニングされた最先端モデルの機能と推論能力の劇的な破壊を実演する。
モデルは、問題の解決に影響を与えない、微妙な問題バリエーションでさえも強い変動を示すため、その分解は劇的である。
これらの初期観測は、現在世代の大言語モデルが主張する能力の再評価を急激に促すものである。
論文 参考訳(メタデータ) (2024-06-04T07:43:33Z) - What's under the hood: Investigating Automatic Metrics on Meeting Summarization [7.234196390284036]
会議要約は、オンライン交流の増加を考慮した重要な課題となっている。
現在のデフォルトのメトリクスは、観測可能なエラーをキャプチャするのに苦労しており、相関が弱い。
特定のエラーに正確に反応するのはサブセットのみであり、ほとんどの相関関係は、エラーが要約品質に与える影響を反映していないか、あるいは失敗していることを示している。
論文 参考訳(メタデータ) (2024-04-17T07:15:07Z) - Syn-QA2: Evaluating False Assumptions in Long-tail Questions with Synthetic QA Datasets [7.52684798377727]
合成された質問応答(QA)データセットの集合であるSyn-(QA)$2$を紹介する。
先行研究の結果を反映して,QAにおける誤った仮定は困難であることが判明した。
検出タスクは、自然発生の質問よりも長い尾の質問の方が難しい。
論文 参考訳(メタデータ) (2024-03-18T18:01:26Z) - AMRFact: Enhancing Summarization Factuality Evaluation with AMR-Driven Negative Samples Generation [57.8363998797433]
抽象的意味表現(AMR)を用いた摂動要約を生成するフレームワークであるAMRFactを提案する。
提案手法は,AMRグラフに一貫した要約を解析し,制御された事実不整合を注入して負の例を生成し,一貫性のない事実不整合要約を高い誤差型カバレッジで生成する。
論文 参考訳(メタデータ) (2023-11-16T02:56:29Z) - Advancing Counterfactual Inference through Nonlinear Quantile Regression [77.28323341329461]
ニューラルネットワークで実装された効率的かつ効果的な対実的推論のためのフレームワークを提案する。
提案手法は、推定された反事実結果から見つからないデータまでを一般化する能力を高める。
複数のデータセットで実施した実証実験の結果は、我々の理論的な主張に対する説得力のある支持を提供する。
論文 参考訳(メタデータ) (2023-06-09T08:30:51Z) - A Call to Reflect on Evaluation Practices for Failure Detection in Image
Classification [0.491574468325115]
本稿では,信頼度評価関数のベンチマーク化を初めて実現した大規模実証的研究について述べる。
簡便なソフトマックス応答ベースラインを全体の最高の実行方法として明らかにすることは、現在の評価の劇的な欠点を浮き彫りにする。
論文 参考訳(メタデータ) (2022-11-28T12:25:27Z) - Factual Error Correction for Abstractive Summaries Using Entity
Retrieval [57.01193722520597]
本稿では,エンティティ検索後処理に基づく効率的な事実誤り訂正システムRFECを提案する。
RFECは、原文と対象要約とを比較して、原文から証拠文を検索する。
次に、RFECは、エビデンス文を考慮し、要約中のエンティティレベルのエラーを検出し、エビデンス文から正確なエンティティに置換する。
論文 参考訳(メタデータ) (2022-04-18T11:35:02Z) - Stateful Offline Contextual Policy Evaluation and Learning [88.9134799076718]
我々は、シーケンシャルデータから、政治以外の評価と学習について研究する。
動的パーソナライズされた価格設定などの問題の因果構造を形式化する。
本報告では,本クラスにおけるアウト・オブ・サンプル・ポリシーの性能改善について述べる。
論文 参考訳(メタデータ) (2021-10-19T16:15:56Z) - Can Question Generation Debias Question Answering Models? A Case Study
on Question-Context Lexical Overlap [25.80004272277982]
最近のニューラルQGモデルは、高い語彙重なり合う質問を生成することに偏っている。
語彙重なりが低い質問を補足する同義語に基づく手法を提案する。
論文 参考訳(メタデータ) (2021-09-23T09:53:54Z) - Loss re-scaling VQA: Revisiting the LanguagePrior Problem from a
Class-imbalance View [129.392671317356]
本稿では,クラス不均衡の観点から,VQAにおける言語先行問題を理解することを提案する。
これは、なぜVQAモデルが頻繁に、そして明らかに間違った答えをもたらすのかを明確に示している。
また,顔認識や画像分類などの他のコンピュータビジョンタスクに対して,クラス不均衡解釈方式の有効性を正当化する。
論文 参考訳(メタデータ) (2020-10-30T00:57:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。