論文の概要: Evaluating Quality of Answers for Retrieval-Augmented Generation: A Strong LLM Is All You Need
- arxiv url: http://arxiv.org/abs/2406.18064v3
- Date: Thu, 07 Nov 2024 04:03:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-08 19:36:30.545040
- Title: Evaluating Quality of Answers for Retrieval-Augmented Generation: A Strong LLM Is All You Need
- Title(参考訳): 検索・拡張世代に対する回答の質評価:強力なLLMがすべて必要である
- Authors: Yang Wang, Alberto Garcia Hernandez, Roman Kyslyi, Nicholas Kersting,
- Abstract要約: 本稿では,vRAG-Evalを用いた検索・拡張生成(RAG)アプリケーションにおける回答品質評価の総合的研究について述べる。
品質面の階調をバイナリスコアにマッピングし、受け入れまたは拒否の決定を示す。
このアプローチは、明確な意思決定の意見が不可欠である現実的なビジネスコンテキストに適合します。
- 参考スコア(独自算出の注目度): 3.3624592634336814
- License:
- Abstract: We present a comprehensive study of answer quality evaluation in Retrieval-Augmented Generation (RAG) applications using vRAG-Eval, a novel grading system that is designed to assess correctness, completeness, and honesty. We further map the grading of quality aspects aforementioned into a binary score, indicating an accept or reject decision, mirroring the intuitive "thumbs-up" or "thumbs-down" gesture commonly used in chat applications. This approach suits factual business contexts where a clear decision opinion is essential. Our assessment applies vRAG-Eval to two Large Language Models (LLMs), evaluating the quality of answers generated by a vanilla RAG application. We compare these evaluations with human expert judgments and find a substantial alignment between GPT-4's assessments and those of human experts, reaching 83% agreement on accept or reject decisions. This study highlights the potential of LLMs as reliable evaluators in closed-domain, closed-ended settings, particularly when human evaluations require significant resources.
- Abstract(参考訳): 本稿では, 精度, 完全性, 誠実さを評価できる新しいグレーディングシステムであるvRAG-Evalを用いた検索・拡張生成(RAG)アプリケーションにおける応答品質評価の総合的研究について述べる。
さらに、上記の品質面の階調をバイナリスコアにマッピングし、チャットアプリケーションで一般的に使用される直感的な"thumbs-up"や"thumbs-down"のジェスチャーを反映して、受け入れまたは拒否の決定を示す。
このアプローチは、明確な意思決定の意見が不可欠である現実的なビジネスコンテキストに適合します。
我々の評価は2つの大言語モデル(LLM)にvRAG-Evalを適用し、バニラRAGアプリケーションによって生成される回答の質を評価する。
これらの評価を人的専門家の判断と比較し、GPT-4の評価と人的専門家の判断とを実質的に一致させ、決定を受諾または拒否することに関して83%の合意に達した。
本研究は, 閉領域, 閉領域設定における信頼性評価器としてのLCMの可能性, 特に人的評価が重要な資源を必要とする場合について述べる。
関連論文リスト
- Do RAG Systems Cover What Matters? Evaluating and Optimizing Responses with Sub-Question Coverage [74.70255719194819]
サブクエストカバレッジに基づく新しいフレームワークを導入し、RAGシステムが質問の異なる面にどのように対処するかを計測する。
このフレームワークを使用して、You.com、Perplexity AI、Bing Chatの3つの商用生成応答エンジンを評価します。
すべての回答エンジンは、バックグラウンドやフォローアップよりも、コアサブクエストを頻繁にカバーしていますが、コアサブクエストの約50%を見逃しています。
論文 参考訳(メタデータ) (2024-10-20T22:59:34Z) - MIRROR: A Novel Approach for the Automated Evaluation of Open-Ended Question Generation [0.4857223913212445]
自動質問生成システムによって生成される質問に対する評価プロセスを自動化する新しいシステムMIRRORを提案する。
その結果,MIRRORと呼ばれるフィードバックに基づく手法を用いることで,人間の評価指標,すなわち妥当性,適切性,新規性,複雑性,文法性のスコアが向上した。
論文 参考訳(メタデータ) (2024-10-16T12:24:42Z) - Ranking Generated Answers: On the Agreement of Retrieval Models with Humans on Consumer Health Questions [25.158868133182025]
本稿では,生成型大規模言語モデル(LLM)の出力を評価する手法を提案する。
我々の採点法は, 専門家の嗜好と相関する。
生成した回答の質がモデルのサイズによって向上する、よく知られた事実を検証して検証する。
論文 参考訳(メタデータ) (2024-08-19T09:27:45Z) - Accurate and Nuanced Open-QA Evaluation Through Textual Entailment [4.762213968673381]
本稿では,より情報的かつ汎用的な解答を識別するために,解答の包含関係について検討する。
提案するエンテーメントに基づく評価では,回答間の推論ギャップを定量化することにより,ボーナスや部分マークの割り当てが可能である。
論文 参考訳(メタデータ) (2024-05-26T21:33:27Z) - Prometheus 2: An Open Source Language Model Specialized in Evaluating Other Language Models [92.66784679667441]
プロメテウス2は、人間とGPT-4の判断を密接に反映するより強力な評価器である。
ユーザ定義評価基準でグループ化された、直接評価とペアのランキングフォーマットの両方を処理できる。
4つの直接評価ベンチマークと4つのペアのランキングベンチマークで、Prometheus 2は人間と独自のLM判事との相関と合意を最も高く評価している。
論文 参考訳(メタデータ) (2024-05-02T17:59:35Z) - HD-Eval: Aligning Large Language Model Evaluators Through Hierarchical
Criteria Decomposition [92.17397504834825]
HD-Evalは、大規模な言語モデル評価ツールと人間の好みを反復的に調整するフレームワークである。
HD-Evalは、人間の専門家の評価思想から本質を継承し、LLMに基づく評価器のアライメントを強化する。
3つの評価領域に関する広範囲な実験は、HD-Evalのさらなる整合状態評価器の優位性を実証している。
論文 参考訳(メタデータ) (2024-02-24T08:01:32Z) - Style Over Substance: Evaluation Biases for Large Language Models [17.13064447978519]
本研究では,大規模言語モデル(LLM)とともに,クラウドソースおよびエキスパートアノテータの挙動について検討する。
この結果から, 事実的誤りに対する回答は, 短すぎる, 文法的誤りを含む回答よりも好意的に評価され, 評価過程の偏りが示唆された。
評価面を1つのスコアにマージするのではなく,複数の次元にまたがるマシン生成テキストを独立に評価することを提案する。
論文 参考訳(メタデータ) (2023-07-06T14:42:01Z) - A Critical Evaluation of Evaluations for Long-form Question Answering [48.51361567469683]
LFQA(Long-form Question answering)は、幅広い質問に答えることができるが、その柔軟性は評価に大きな課題をもたらす。
本研究は,人的・自動的な評価の実践を網羅した,長文回答の評価を初めて対象とした研究である。
論文 参考訳(メタデータ) (2023-05-29T16:54:24Z) - Evaluate What You Can't Evaluate: Unassessable Quality for Generated Response [56.25966921370483]
大規模な言語モデルに基づく参照不要評価器の使用には課題がある。
参照なし評価器は、異なるセマンティクス応答を持つオープンな例により適している。
対話応答の質を評価するため, LLM に基づく推論不要評価器の使用にはリスクがある。
論文 参考訳(メタデータ) (2023-05-24T02:52:48Z) - Revisiting the Gold Standard: Grounding Summarization Evaluation with
Robust Human Evaluation [136.16507050034755]
要約のための既存の人間の評価研究は、アノテータ間の合意が低かったり、スケールが不十分だったりしている。
細粒度セマンティック・ユニットをベースとした改良された要約サリエンス・プロトコルであるAtomic Content Units (ACUs)を提案する。
ロバスト・サムライゼーション・アセスメント(RoSE)ベンチマークは,28の上位性能システム上で22,000の要約レベルのアノテーションからなる大規模な人的評価データセットである。
論文 参考訳(メタデータ) (2022-12-15T17:26:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。