Fugu-MT 論文翻訳(概要): Shortcomings of Question Answering Based Factuality Frameworks for Error Localization

論文の概要: Shortcomings of Question Answering Based Factuality Frameworks for Error Localization

arxiv url: http://arxiv.org/abs/2210.06748v1
Date: Thu, 13 Oct 2022 05:23:38 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-14 15:40:51.412718
Title: Shortcomings of Question Answering Based Factuality Frameworks for Error Localization
Title（参考訳）: 質問応答に基づく誤り局所化のためのファクチュアリティフレームワークの欠点
Authors: Ryo Kamoi, Tanya Goyal, Greg Durrett
Abstract要約: 質問応答(QA)に基づく事実性指標は、生成した要約の誤り範囲を正しく識別できないことを示す。このようなローカライゼーションが不十分な理由として,QGモジュールが生成した質問は,非実数的な要約から誤りを継承することが多く,さらに下流モジュールに伝播する。本実験は,より強力なQAモデルとQGモデルでのみ修正できないQAフレームワークを用いた局所化に関する根本的な問題が存在することを確定的に示す。
参考スコア（独自算出の注目度）: 51.01957350348377
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Despite recent progress in abstractive summarization, models often generate summaries with factual errors. Numerous approaches to detect these errors have been proposed, the most popular of which are question answering (QA)-based factuality metrics. These have been shown to work well at predicting summary-level factuality and have potential to localize errors within summaries, but this latter capability has not been systematically evaluated in past research. In this paper, we conduct the first such analysis and find that, contrary to our expectations, QA-based frameworks fail to correctly identify error spans in generated summaries and are outperformed by trivial exact match baselines. Our analysis reveals a major reason for such poor localization: questions generated by the QG module often inherit errors from non-factual summaries which are then propagated further into downstream modules. Moreover, even human-in-the-loop question generation cannot easily offset these problems. Our experiments conclusively show that there exist fundamental issues with localization using the QA framework which cannot be fixed solely by stronger QA and QG models.
Abstract（参考訳）: 抽象的要約の最近の進歩にもかかわらず、モデルはしばしば事実的誤りを伴う要約を生成する。これらの誤りを検出するための多くのアプローチが提案されており、最も一般的なのが質問応答(QA)に基づく事実性指標である。これらは要約レベルの事実性を予測し、要約内でエラーをローカライズする可能性があることが示されているが、この後者の能力は過去の研究では体系的に評価されていない。本稿では,まずこのような分析を行い,QAベースのフレームワークが生成した要約のエラースパンを正しく識別できず,正確な一致ベースラインによって性能が向上していることを確認した。このようなローカライゼーションが不十分な理由として,QGモジュールが生成した質問は,非実数的な要約から誤りを継承することが多く,さらに下流モジュールに伝播する。さらに、ループ内質問生成でさえ、これらの問題を容易に相殺することはできない。本実験は,より強力なQAモデルとQGモデルでのみ修正できないQAフレームワークを用いた局所化に関する根本的な問題が存在することを示す。

関連論文リスト

Faithfulness-Aware Uncertainty Quantification for Fact-Checking the Output of Retrieval Augmented Generation [108.13261761812517]
本稿では,RAG出力における幻覚検出の新しい手法であるFRANQ(Fithfulness-based Retrieval Augmented Uncertainty Quantification)を紹介する。本稿では,事実性と忠実性の両方に注釈を付したQAデータセットを提案する。
論文参考訳（メタデータ） (2025-05-27T11:56:59Z)
Right Answer, Wrong Score: Uncovering the Inconsistencies of LLM Evaluation in Multiple-Choice Question Answering [78.89231943329885]
大規模言語モデル(LLM)を評価するために最も広く使われているタスクの1つは、Multiple-Choice Question Answering (MCQA)である。本研究は,MCQA評価戦略の不整合を軽視し,不正確かつ誤ったモデル比較に繋がる可能性がある。
論文参考訳（メタデータ） (2025-03-19T08:45:03Z)
Is Q-learning an Ill-posed Problem? [2.4424095531386234]
本稿では,連続環境におけるQ-ラーニングの不安定性について検討する。比較的単純なベンチマークでも、Q-ラーニングの基本課題は本質的に悪用され、失敗しがちであることを示す。
論文参考訳（メタデータ） (2025-02-20T08:42:30Z)
Causality can systematically address the monsters under the bench(marks) [64.36592889550431]
ベンチマークはさまざまなバイアス、アーティファクト、リークに悩まされている。モデルは、調査の不十分な障害モードのため、信頼できない振る舞いをする可能性がある。因果関係はこれらの課題を体系的に解決するための理想的な枠組みを提供します
論文参考訳（メタデータ） (2025-02-07T17:01:37Z)
Bridging Internal Probability and Self-Consistency for Effective and Efficient LLM Reasoning [53.25336975467293]
パープレキシティや自己整合性などの手法の第一理論誤差分解解析について述べる。パープレキシティ法は、適切な整合関数が存在しないため、かなりのモデル誤差に悩まされる。本稿では、自己整合性とパープレキシティを統合したReasoning-Pruning Perplexity Consistency(RPC)と、低確率推論経路を排除したReasoning Pruningを提案する。
論文参考訳（メタデータ） (2025-02-01T18:09:49Z)
Alice in Wonderland: Simple Tasks Showing Complete Reasoning Breakdown in State-Of-the-Art Large Language Models [13.532180752491954]
利用可能な最大規模でトレーニングされた最先端モデルの機能と推論能力の劇的な破壊を実演する。モデルは、問題の解決に影響を与えない、微妙な問題バリエーションでさえも強い変動を示すため、その分解は劇的である。これらの初期観測は、現在世代の大言語モデルが主張する能力の再評価を急激に促すものである。
論文参考訳（メタデータ） (2024-06-04T07:43:33Z)
What's under the hood: Investigating Automatic Metrics on Meeting Summarization [7.234196390284036]
会議要約は、オンライン交流の増加を考慮した重要な課題となっている。現在のデフォルトのメトリクスは、観測可能なエラーをキャプチャするのに苦労しており、相関が弱い。特定のエラーに正確に反応するのはサブセットのみであり、ほとんどの相関関係は、エラーが要約品質に与える影響を反映していないか、あるいは失敗していることを示している。
論文参考訳（メタデータ） (2024-04-17T07:15:07Z)
Syn-QA2: Evaluating False Assumptions in Long-tail Questions with Synthetic QA Datasets [7.52684798377727]
合成された質問応答(QA)データセットの集合であるSyn-(QA)$2$を紹介する。先行研究の結果を反映して,QAにおける誤った仮定は困難であることが判明した。検出タスクは、自然発生の質問よりも長い尾の質問の方が難しい。
論文参考訳（メタデータ） (2024-03-18T18:01:26Z)
AMRFact: Enhancing Summarization Factuality Evaluation with AMR-Driven Negative Samples Generation [57.8363998797433]
抽象的意味表現(AMR)を用いた摂動要約を生成するフレームワークであるAMRFactを提案する。提案手法は,AMRグラフに一貫した要約を解析し,制御された事実不整合を注入して負の例を生成し,一貫性のない事実不整合要約を高い誤差型カバレッジで生成する。
論文参考訳（メタデータ） (2023-11-16T02:56:29Z)
Advancing Counterfactual Inference through Nonlinear Quantile Regression [77.28323341329461]
ニューラルネットワークで実装された効率的かつ効果的な対実的推論のためのフレームワークを提案する。提案手法は、推定された反事実結果から見つからないデータまでを一般化する能力を高める。複数のデータセットで実施した実証実験の結果は、我々の理論的な主張に対する説得力のある支持を提供する。
論文参考訳（メタデータ） (2023-06-09T08:30:51Z)
A Call to Reflect on Evaluation Practices for Failure Detection in Image Classification [0.491574468325115]
本稿では,信頼度評価関数のベンチマーク化を初めて実現した大規模実証的研究について述べる。簡便なソフトマックス応答ベースラインを全体の最高の実行方法として明らかにすることは、現在の評価の劇的な欠点を浮き彫りにする。
論文参考訳（メタデータ） (2022-11-28T12:25:27Z)
Factual Error Correction for Abstractive Summaries Using Entity Retrieval [57.01193722520597]
本稿では,エンティティ検索後処理に基づく効率的な事実誤り訂正システムRFECを提案する。 RFECは、原文と対象要約とを比較して、原文から証拠文を検索する。次に、RFECは、エビデンス文を考慮し、要約中のエンティティレベルのエラーを検出し、エビデンス文から正確なエンティティに置換する。
論文参考訳（メタデータ） (2022-04-18T11:35:02Z)
Stateful Offline Contextual Policy Evaluation and Learning [88.9134799076718]
我々は、シーケンシャルデータから、政治以外の評価と学習について研究する。動的パーソナライズされた価格設定などの問題の因果構造を形式化する。本報告では,本クラスにおけるアウト・オブ・サンプル・ポリシーの性能改善について述べる。
論文参考訳（メタデータ） (2021-10-19T16:15:56Z)
Can Question Generation Debias Question Answering Models? A Case Study on Question-Context Lexical Overlap [25.80004272277982]
最近のニューラルQGモデルは、高い語彙重なり合う質問を生成することに偏っている。語彙重なりが低い質問を補足する同義語に基づく手法を提案する。
論文参考訳（メタデータ） (2021-09-23T09:53:54Z)
Loss re-scaling VQA: Revisiting the LanguagePrior Problem from a Class-imbalance View [129.392671317356]
本稿では,クラス不均衡の観点から,VQAにおける言語先行問題を理解することを提案する。これは、なぜVQAモデルが頻繁に、そして明らかに間違った答えをもたらすのかを明確に示している。また,顔認識や画像分類などの他のコンピュータビジョンタスクに対して,クラス不均衡解釈方式の有効性を正当化する。
論文参考訳（メタデータ） (2020-10-30T00:57:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。