論文の概要: Chatbot Arena Meets Nuggets: Towards Explanations and Diagnostics in the Evaluation of LLM Responses
- arxiv url: http://arxiv.org/abs/2504.20006v2
- Date: Sun, 25 May 2025 20:51:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 14:32:54.45563
- Title: Chatbot Arena Meets Nuggets: Towards Explanations and Diagnostics in the Evaluation of LLM Responses
- Title(参考訳): チャットボットアリーナとナゲット:LCM反応の評価における説明と診断に向けて
- Authors: Sahel Sharifymoghaddam, Shivani Upadhyay, Nandan Thakur, Ronak Pradeep, Jimmy Lin,
- Abstract要約: 当社のAutoNuggetizerフレームワークを使用して,LMArenaが提供する約7Kの検索アリーナバトルからのデータを分析する。
その結果,ナゲットスコアとヒトの嗜好との間に有意な相関が認められた。
- 参考スコア(独自算出の注目度): 45.2769075498271
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Battles, or side-by-side comparisons in so-called arenas that elicit human preferences, have emerged as a popular approach for assessing the output quality of LLMs. Recently, this idea has been extended to retrieval-augmented generation (RAG) systems. While undoubtedly representing an advance in evaluation, battles have at least two drawbacks, particularly in the context of complex information-seeking queries: they are neither explanatory nor diagnostic. Recently, the nugget evaluation methodology has emerged as a promising approach to evaluate the quality of RAG answers. Nuggets decompose long-form LLM-generated answers into atomic facts, highlighting important pieces of information necessary in a "good" response. In this work, we apply our AutoNuggetizer framework to analyze data from roughly 7K Search Arena battles provided by LMArena in a fully automatic manner. Our results show a significant correlation between nugget scores and human preferences, showcasing promise in our approach to explainable and diagnostic system evaluations. All the code necessary to reproduce results in our work is available in https://github.com/castorini/lmsys_nuggetize.
- Abstract(参考訳): 人間の嗜好を喚起するいわゆるアリーナでの戦闘は、LLMの出力品質を評価するための一般的なアプローチとして現れている。
近年、このアイデアは検索強化世代(RAG)システムに拡張されている。
明らかに評価の進歩を表しているが、戦闘には少なくとも2つの欠点があり、特に複雑な情報検索クエリの文脈では、説明的でも診断的でもない。
近年, ナゲット評価手法がRAG回答の質を評価するための有望なアプローチとして出現している。
ナゲットはLLM生成の長文の回答を原子的な事実に分解し、「良い」応答に必要な重要な情報を強調している。
本研究では,このAutoNuggetizerフレームワークを用いて,LMArenaが提供する約7K検索アリーナ戦のデータを,完全に自動で解析する。
その結果,ナゲットスコアとヒトの嗜好との間に有意な相関がみられた。
私たちの作業の結果を再現するのに必要なコードは、https://github.com/castorini/lmsys_nuggetize.comで利用可能です。
関連論文リスト
- The Great Nugget Recall: Automating Fact Extraction and RAG Evaluation with Large Language Models [53.12387628636912]
本稿では,人間のアノテーションに対して評価を行う自動評価フレームワークを提案する。
この手法は2003年にTREC Question Answering (QA) Trackのために開発された。
完全自動ナゲット評価から得られるスコアと人間に基づく変種とのランニングレベルでの強い一致を観察する。
論文 参考訳(メタデータ) (2025-04-21T12:55:06Z) - On the Influence of Context Size and Model Choice in Retrieval-Augmented Generation Systems [5.69361786082969]
Retrieval-augmented Generation (RAG)は、大規模言語モデル(LLM)の拡張手法として登場した。
我々は,様々なコンテキストサイズ,BM25,セマンティック検索を検索として評価し,8つの基本LLMについて検討した。
以上の結果から, 最終QA成績は最大15スニペットで着実に改善するが, 停滞あるいは低下がみられた。
論文 参考訳(メタデータ) (2025-02-20T17:34:34Z) - Addressing Hallucinations with RAG and NMISS in Italian Healthcare LLM Chatbots [0.0]
大規模言語モデル(LLM)の幻覚に対する検出と緩和を併用する
NMISS(Negative Missing Information Scoring System)を導入して検出を行う間、質問応答型検索拡張生成(RAG)フレームワークで緩和を実現する。
この組み合わせアプローチは、LLMにおける幻覚の低減とより正確な評価に関する新たな洞察を提供する。
論文 参考訳(メタデータ) (2024-12-05T15:11:12Z) - Comprehensive and Practical Evaluation of Retrieval-Augmented Generation Systems for Medical Question Answering [70.44269982045415]
Retrieval-augmented Generation (RAG) は,大規模言語モデル (LLM) の性能向上のための有望なアプローチとして登場した。
医療用QAデータセットに様々な補助的要素を提供するMedRGB(MedRGB)を導入する。
実験結果から,検索した文書のノイズや誤情報の処理能力に限界があることが判明した。
論文 参考訳(メタデータ) (2024-11-14T06:19:18Z) - Do RAG Systems Cover What Matters? Evaluating and Optimizing Responses with Sub-Question Coverage [74.70255719194819]
サブクエストカバレッジに基づく新しいフレームワークを導入し、RAGシステムが質問の異なる面にどのように対処するかを計測する。
このフレームワークを使用して、You.com、Perplexity AI、Bing Chatの3つの商用生成応答エンジンを評価します。
すべての回答エンジンは、バックグラウンドやフォローアップよりも、コアサブクエストを頻繁にカバーしていますが、コアサブクエストの約50%を見逃しています。
論文 参考訳(メタデータ) (2024-10-20T22:59:34Z) - Ranking Generated Answers: On the Agreement of Retrieval Models with Humans on Consumer Health Questions [25.158868133182025]
本稿では,生成型大規模言語モデル(LLM)の出力を評価する手法を提案する。
我々は、注釈付き文書コレクションで訓練されたランキングモデルを、明示的な妥当性の代用として用いている。
ユーザ研究において,本手法は人間専門家の嗜好と相関する。
論文 参考訳(メタデータ) (2024-08-19T09:27:45Z) - RAG-QA Arena: Evaluating Domain Robustness for Long-form Retrieval Augmented Question Answering [61.19126689470398]
Long-form RobustQA (LFRQA)は、7つの異なるドメインにわたる26Kクエリと大きなコーパスをカバーする新しいデータセットである。
RAG-QAアリーナと人間の回答品質判断は高い相関関係にあることを示す。
最も競争力のあるLLMの回答の41.3%のみがLFRQAの回答に好まれており、RAG-QAアリーナは将来の研究の挑戦的な評価プラットフォームであることを示している。
論文 参考訳(メタデータ) (2024-07-19T03:02:51Z) - Evaluating the Retrieval Component in LLM-Based Question Answering Systems [1.7013938542585922]
本研究では,Retrieval-Augmented Generation (RAG)ベースのチャットボットにおける検索者評価のためのベースラインを提案する。
以上の結果から, この評価フレームワークは, 検索者の動作状況をよりよく把握できることを示した。
本手法では,無関係な文脈を無視するLLMの強みと,その応答における潜在的な誤りや幻覚を考察する。
論文 参考訳(メタデータ) (2024-06-10T16:46:22Z) - PICK: Polished & Informed Candidate Scoring for Knowledge-Grounded
Dialogue Systems [59.1250765143521]
現在の知識接地対話システムは、生成された応答を人間に好まれる品質に合わせるのに失敗することが多い。
我々は,世代別再描画フレームワークであるPolseed & Informed Candidate Scoring (PICK)を提案する。
対話履歴に関連性を維持しつつ,より忠実な応答を生成するためのPICKの有効性を示す。
論文 参考訳(メタデータ) (2023-09-19T08:27:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。