論文の概要: Evaluating Correctness and Faithfulness of Instruction-Following Models for Question Answering
- arxiv url: http://arxiv.org/abs/2307.16877v2
- Date: Wed, 17 Apr 2024 17:52:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-18 19:50:03.714687
- Title: Evaluating Correctness and Faithfulness of Instruction-Following Models for Question Answering
- Title(参考訳): 質問応答に対する指示追従モデルの正確性と忠実度の評価
- Authors: Vaibhav Adlakha, Parishad BehnamGhader, Xing Han Lu, Nicholas Meade, Siva Reddy,
- Abstract要約: Retriever-augmented instruction-following modelは、質問応答のための微調整アプローチ(QA)の魅力的な代替品である
モデル応答は自然で流動的である傾向にあるが、追加の冗長性により、モデルパフォーマンスを正確に定量化するために従来のQA評価指標は信頼できない。
1) ユーザの情報要求(正確性)をどの程度満足させるか,2) 提供された知識(忠実性)に基づいて応答を生成するか,という2つの次元に沿って,これらのモデルを評価するために,自動評価と人的評価の両方を用いる。
- 参考スコア(独自算出の注目度): 26.34649731975005
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retriever-augmented instruction-following models are attractive alternatives to fine-tuned approaches for information-seeking tasks such as question answering (QA). By simply prepending retrieved documents in its input along with an instruction, these models can be adapted to various information domains and tasks without additional fine-tuning. While the model responses tend to be natural and fluent, the additional verbosity makes traditional QA evaluation metrics such as exact match (EM) and F1 unreliable for accurately quantifying model performance. In this work, we investigate the performance of instruction-following models across three information-seeking QA tasks. We use both automatic and human evaluation to evaluate these models along two dimensions: 1) how well they satisfy the user's information need (correctness), and 2) whether they produce a response based on the provided knowledge (faithfulness). Guided by human evaluation and analysis, we highlight the shortcomings of traditional metrics for both correctness and faithfulness. We then propose simple token-overlap based and model-based metrics that reflect the true performance of these models. Our analysis reveals that instruction-following models are competitive, and sometimes even outperform fine-tuned models for correctness. However, these models struggle to stick to the provided knowledge and often hallucinate in their responses. We hope our work encourages a more holistic evaluation of instruction-following models for QA. Our code and data is available at https://github.com/McGill-NLP/instruct-qa
- Abstract(参考訳): Retriever-augmented instruction-following modelは、質問応答(QA)のような情報検索タスクのための微調整されたアプローチの魅力的な代替品である。
取得した文書をインストラクションとともに入力にプリプレッションすることで、これらのモデルは追加の微調整なしで様々な情報領域やタスクに適応することができる。
モデル応答は自然で流動的である傾向にあるが、追加の冗長性により、モデル性能を正確に定量化するための正確なマッチング(EM)やF1のような従来のQA評価指標は信頼できない。
本研究では,3つの情報探索QAタスクにおける命令追従モデルの性能について検討する。
我々は、これらのモデルを2次元に沿って評価するために、自動評価と人的評価の両方を使用します。
1)ユーザの情報ニーズ(正確性)をどの程度満足させるか、そして
2) 提供された知識(信心性)に基づいて回答を得られるか否か。
人間の評価と分析によって導かれ、正確性と忠実性の両方において従来の指標の欠点を強調した。
次に、これらのモデルの真のパフォーマンスを反映した単純なトークンオーバーラップとモデルベースのメトリクスを提案する。
分析の結果,命令追従モデルは競争力があり,時には微調整モデルよりも精度が高いことが判明した。
しかし、これらのモデルは提供された知識に固執し、しばしばその反応に幻覚を与えるのに苦労する。
我々の研究は、QAのための命令追従モデルのより包括的な評価を促進することを願っている。
私たちのコードとデータはhttps://github.com/McGill-NLP/instruct-qaで公開されています。
関連論文リスト
- Reasoning and Tools for Human-Level Forecasting [0.4261908132550109]
本稿では,Reasoning and Tools for Forecasting (RTF)について紹介する。
我々は,競争予測プラットフォームからの質問でモデルを評価し,本手法が人間の予測に勝るものであることを実証した。
論文 参考訳(メタデータ) (2024-08-21T23:42:06Z) - Estimating Knowledge in Large Language Models Without Generating a Single Token [12.913172023910203]
大規模言語モデル(LLM)における知識を評価するための現在の手法は、モデルをクエリし、生成した応答を評価する。
本研究では,モデルがテキストを生成する前に評価を行うことができるかどうかを問う。
様々なLLMを用いた実験では、内部の主題表現を訓練した単純なプローブであるKEENが、両方のタスクで成功することが示された。
論文 参考訳(メタデータ) (2024-06-18T14:45:50Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - StreamingQA: A Benchmark for Adaptation to New Knowledge over Time in
Question Answering Models [31.43391633383255]
提案する大規模データセットであるStreamingQAを構築した。
プレトレーニングでは見られない新しい記事を読むことで、四半期毎にモデルを評価します。
我々は,大惨な忘れを回避しつつ,パラメトリックモデルをフルリトレーニングなしで更新可能であることを示す。
論文 参考訳(メタデータ) (2022-05-23T15:33:41Z) - Learning to Perturb Word Embeddings for Out-of-distribution QA [55.103586220757464]
本論文では,入力問題と文脈の単語埋め込みを意味論を変化させることなく学習するノイズ発生器に基づく簡便かつ効果的なDA法を提案する。
ひとつのソースデータセットに,5つの異なるターゲットドメインに埋め込むことで,トレーニングされたQAモデルのパフォーマンスを検証する。
特に、私たちのトレーニングを受けたモデルは、240K以上の人工的なQAペアでトレーニングされたモデルよりも優れています。
論文 参考訳(メタデータ) (2021-05-06T14:12:26Z) - When Can Models Learn From Explanations? A Formal Framework for
Understanding the Roles of Explanation Data [84.87772675171412]
個々のデータポイントの説明がモデリング性能を向上させる状況について検討する。
e-SNLI、TACRED、SemEvalの3つの既存のデータセットを使って説明します。
論文 参考訳(メタデータ) (2021-02-03T18:57:08Z) - What do we expect from Multiple-choice QA Systems? [70.86513724662302]
複数のMultiple Choice Question Answering(MCQA)データセット上で,トップパフォーマンスモデルを検討する。
このようなモデルから得られる可能性のある一連の期待値に対して、モデル入力のゼロ情報摂動を用いて評価する。
論文 参考訳(メタデータ) (2020-11-20T21:27:10Z) - Template-Based Question Generation from Retrieved Sentences for Improved
Unsupervised Question Answering [98.48363619128108]
擬似学習データを用いてQAモデルを訓練するための教師なしアプローチを提案する。
関連した検索文に簡単なテンプレートを適用してQA学習のための質問を生成すると、元の文脈文よりも、下流QAのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2020-04-24T17:57:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。