論文の概要: Localizing and Mitigating Errors in Long-form Question Answering
- arxiv url: http://arxiv.org/abs/2407.11930v3
- Date: Mon, 4 Nov 2024 10:30:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-08 20:59:00.505719
- Title: Localizing and Mitigating Errors in Long-form Question Answering
- Title(参考訳): 長文質問応答における誤りの局所化と緩和
- Authors: Rachneet Sachdeva, Yixiao Song, Mohit Iyyer, Iryna Gurevych,
- Abstract要約: LFQA(Long-form Question answering)は、複雑な質問に対して徹底的で深い回答を提供し、理解を深めることを目的としている。
この研究は、人書きおよびモデル生成LFQA回答の局所的エラーアノテーションを備えた最初の幻覚データセットであるHaluQuestQAを紹介する。
- 参考スコア(独自算出の注目度): 79.63372684264921
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Long-form question answering (LFQA) aims to provide thorough and in-depth answers to complex questions, enhancing comprehension. However, such detailed responses are prone to hallucinations and factual inconsistencies, challenging their faithful evaluation. This work introduces HaluQuestQA, the first hallucination dataset with localized error annotations for human-written and model-generated LFQA answers. HaluQuestQA comprises 698 QA pairs with 1.8k span-level error annotations for five different error types by expert annotators, along with preference judgments. Using our collected data, we thoroughly analyze the shortcomings of long-form answers and find that they lack comprehensiveness and provide unhelpful references. We train an automatic feedback model on this dataset that predicts error spans with incomplete information and provides associated explanations. Finally, we propose a prompt-based approach, Error-informed refinement, that uses signals from the learned feedback model to refine generated answers, which we show reduces errors and improves answer quality across multiple models. Furthermore, humans find answers generated by our approach comprehensive and highly prefer them (84%) over the baseline answers.
- Abstract(参考訳): LFQA(Long-form Question answering)は、複雑な質問に対して徹底的で深い回答を提供し、理解を深めることを目的としている。
しかし、このような詳細な反応は幻覚や事実の矛盾を招きやすく、彼らの忠実な評価に挑戦する。
この研究は、人書きおよびモデル生成LFQA回答の局所的エラーアノテーションを備えた最初の幻覚データセットであるHaluQuestQAを紹介する。
HaluQuestQAは、専門家アノテータによる5つの異なるエラータイプに対して、1.8kのスパンレベルのエラーアノテーションを備えた698のQAペアと、好みの判断を含む。
収集したデータを用いて、長文回答の欠点を徹底的に分析し、それらが包括性を欠いていることを発見し、不完全な参照を提供する。
このデータセットに自動フィードバックモデルをトレーニングし、不完全な情報にまたがるエラーを予測し、関連する説明を提供する。
最後に、学習したフィードバックモデルからの信号を用いて、誤りの低減と複数のモデル間の回答品質の向上を図った、プロンプトベースの手法であるError-informed refinementを提案する。
さらに、人間は我々のアプローチによって生み出された答えを包括的に見つけ、ベースラインの答えよりもそれらを非常に好んでいる(84%)。
関連論文リスト
- I Could've Asked That: Reformulating Unanswerable Questions [89.93173151422636]
我々は、解決不可能な質問を改定するためのオープンソースおよびプロプライエタリなモデルを評価する。
GPT-4とLlama2-7Bは、それぞれ26%と12%しか質問を修正できなかった。
ベンチマークとコードを公開して実験を再現します。
論文 参考訳(メタデータ) (2024-07-24T17:59:07Z) - Long-form Question Answering: An Iterative Planning-Retrieval-Generation
Approach [28.849548176802262]
長文質問応答(LFQA)は,段落の形で詳細な回答を生成するため,課題となる。
本稿では,反復計画,検索,生成を伴うLFQAモデルを提案する。
我々のモデルはLFQAタスクの様々なテキストおよび実測値の最先端モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-11-15T21:22:27Z) - Chain-of-Verification Reduces Hallucination in Large Language Models [80.99318041981776]
言語モデルが与える反応を考慮し、誤りを訂正する能力について検討する。
モデルが最初に初期応答をドラフトするChain-of-Verification (CoVe) 法を開発した。
ウィキデータからクローズドブックMultiSpanQAまで,さまざまなタスクにおける幻覚の減少を示す。
論文 参考訳(メタデータ) (2023-09-20T17:50:55Z) - Getting MoRE out of Mixture of Language Model Reasoning Experts [71.61176122960464]
多様な特殊言語モデルを組み込んだMixture-of-Reasoning-Experts (MoRE) フレームワークを提案する。
実例,マルチホップ,数学的,コモンセンス推論など,さまざまな推論カテゴリに最適化されたプロンプトを備えたバックボーン言語モデルを特化する。
人間の研究では、専門家による予測と回答の選択プロセスが、アノテータがシステムの出力を信頼するタイミングをより正確に調整するのに役立ちます。
論文 参考訳(メタデータ) (2023-05-24T02:00:51Z) - Model Analysis & Evaluation for Ambiguous Question Answering [0.0]
質問回答モデルは、しばしば矛盾する情報の断片を組み合わせた長文の回答を生成するために必要である。
この分野の最近の進歩は、流動的な応答を発生させる強力な能力を示しているが、いくつかの研究課題は未解決のままである。
これらの側面を徹底的に調査し、現在のアプローチの限界について貴重な洞察を提供することを目指しています。
論文 参考訳(メタデータ) (2023-05-21T15:20:20Z) - Teaching language models to support answers with verified quotes [12.296242080730831]
オープンブック”QAモデルをトレーニングし、その一方で、その主張に関する具体的な証拠を引用しています。
2800億のパラメータモデルであるGopherCiteは、高品質なサポートエビデンスで回答を生成し、不確実な場合には回答を控えることができます。
論文 参考訳(メタデータ) (2022-03-21T17:26:29Z) - AnswerSumm: A Manually-Curated Dataset and Pipeline for Answer
Summarization [73.91543616777064]
Stack OverflowやYahoo!のようなコミュニティ質問回答(CQA)フォーラムには、幅広いコミュニティベースの質問に対する回答の豊富なリソースが含まれている。
回答の要約の1つのゴールは、回答の視点の範囲を反映した要約を作成することである。
本研究は,専門言語学者による解答要約のための4,631個のCQAスレッドからなる新しいデータセットを導入する。
論文 参考訳(メタデータ) (2021-11-11T21:48:02Z) - Hurdles to Progress in Long-form Question Answering [34.805039943215284]
タスクの定式化は評価とデータセットの作成に関する根本的な課題を提起する。
まず,最先端性能を実現するために,注意の疎化とコントラストレトリバー学習による新しいシステムを設計する。
論文 参考訳(メタデータ) (2021-03-10T20:32:30Z) - A Wrong Answer or a Wrong Question? An Intricate Relationship between
Question Reformulation and Answer Selection in Conversational Question
Answering [15.355557454305776]
会話の文脈における質問書き直し(QR)は、この現象により多くの光を放つことができることを示す。
TREC CAsT と QuAC (CANARD) のデータセットを用いて解析を行った。
論文 参考訳(メタデータ) (2020-10-13T06:29:51Z) - TACRED Revisited: A Thorough Evaluation of the TACRED Relation
Extraction Task [80.38130122127882]
TACREDはリレーショナル抽出(RE)において最も大きく、最も広く使われているクラウドソースデータセットの1つである
パフォーマンスの天井に到達したのか、改善の余地はあるのか?
ラベルエラーは絶対F1テストエラーの8%を占めており、例の50%以上を可逆化する必要がある。
論文 参考訳(メタデータ) (2020-04-30T15:07:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。