Fugu-MT 論文翻訳(概要): Chatbot Arena Meets Nuggets: Towards Explanations and Diagnostics in the Evaluation of LLM Responses

論文の概要: Chatbot Arena Meets Nuggets: Towards Explanations and Diagnostics in the Evaluation of LLM Responses

arxiv url: http://arxiv.org/abs/2504.20006v1
Date: Mon, 28 Apr 2025 17:24:36 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-02 19:15:54.535584
Title: Chatbot Arena Meets Nuggets: Towards Explanations and Diagnostics in the Evaluation of LLM Responses
Title（参考訳）: チャットボットアリーナとナゲット:LCM反応の評価における説明と診断に向けて
Authors: Sahel Sharifymoghaddam, Shivani Upadhyay, Nandan Thakur, Ronak Pradeep, Jimmy Lin,
Abstract要約: 当社のAutoNuggetizerフレームワークを使用して,LMArenaが提供する約7Kの検索アリーナバトルからのデータを分析する。その結果,ナゲットスコアとヒトの嗜好との間に有意な相関が認められた。
参考スコア（独自算出の注目度）: 45.2769075498271
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Battles, or side-by-side comparisons in so called arenas that elicit human preferences, have emerged as a popular approach to assessing the output quality of LLMs. Recently, this idea has been extended to retrieval-augmented generation (RAG) systems. While undoubtedly representing an advance in evaluation, battles have at least two drawbacks, particularly in the context of complex information-seeking queries: they are neither explanatory nor diagnostic. Recently, the nugget evaluation methodology has emerged as a promising approach to evaluate the quality of RAG answers. Nuggets decompose long-form LLM-generated answers into atomic facts, highlighting important pieces of information necessary in a "good" response. In this work, we apply our AutoNuggetizer framework to analyze data from roughly 7K Search Arena battles provided by LMArena in a fully automatic manner. Our results show a significant correlation between nugget scores and human preferences, showcasing promise in our approach to explainable and diagnostic system evaluations.
Abstract（参考訳）: 戦い(Battles)とは、人間の嗜好を引き出すいわゆるアリーナにおける側面比較であり、LLMの出力品質を評価するための一般的なアプローチとして現れている。近年、このアイデアは検索強化世代(RAG)システムに拡張されている。明らかに評価の進歩を表しているが、戦闘には少なくとも2つの欠点があり、特に複雑な情報検索クエリの文脈では、説明的でも診断的でもない。近年, ナゲット評価手法がRAG回答の質を評価するための有望なアプローチとして出現している。ナゲットはLLM生成の長文の回答を原子的な事実に分解し、「良い」応答に必要な重要な情報を強調している。本研究では,このAutoNuggetizerフレームワークを用いて,LMArenaが提供する約7K検索アリーナ戦のデータを,完全に自動で解析する。その結果,ナゲットスコアとヒトの嗜好との間に有意な相関がみられた。

関連論文リスト

ReAG: Reasoning-Augmented Generation for Knowledge-based Visual Question Answering [54.72902502486611]
ReAG(Reasoning-Augmented Multimodal RAG)は、粗い部分ときめ細かい部分の検索と、無関係な通路をフィルタリングする批評家モデルを組み合わせた手法である。 ReAGは従来の手法よりも優れており、解答精度が向上し、検索された証拠に根ざした解釈可能な推論を提供する。
論文参考訳（メタデータ） (2025-11-27T19:01:02Z)
Towards Agentic RAG with Deep Reasoning: A Survey of RAG-Reasoning Systems in LLMs [69.10441885629787]
Retrieval-Augmented Generation (RAG) は、外部知識を注入することによって、Large Language Models (LLM) の事実性を高める。逆に、純粋に推論指向のアプローチは、しばしば幻覚的あるいは誤った事実を必要とする。この調査は両鎖を統一的推論-検索の観点から合成する。
論文参考訳（メタデータ） (2025-07-13T03:29:41Z)
Reinforced Informativeness Optimization for Long-Form Retrieval-Augmented Generation [77.10390725623125]
LFQA(Long-form Question answering)は、大規模言語モデルに固有の課題を提示する。 RioRAGは、強化情報性最適化を通じて長めのRAGを進化させる新しい強化学習フレームワークである。
論文参考訳（メタデータ） (2025-05-27T07:34:41Z)
The Great Nugget Recall: Automating Fact Extraction and RAG Evaluation with Large Language Models [53.12387628636912]
本稿では,人間のアノテーションに対して評価を行う自動評価フレームワークを提案する。この手法は2003年にTREC Question Answering (QA) Trackのために開発された。完全自動ナゲット評価から得られるスコアと人間に基づく変種とのランニングレベルでの強い一致を観察する。
論文参考訳（メタデータ） (2025-04-21T12:55:06Z)
On the Influence of Context Size and Model Choice in Retrieval-Augmented Generation Systems [5.69361786082969]
Retrieval-augmented Generation (RAG)は、大規模言語モデル(LLM)の拡張手法として登場した。我々は,様々なコンテキストサイズ,BM25,セマンティック検索を検索として評価し,8つの基本LLMについて検討した。以上の結果から, 最終QA成績は最大15スニペットで着実に改善するが, 停滞あるいは低下がみられた。
論文参考訳（メタデータ） (2025-02-20T17:34:34Z)
Addressing Hallucinations with RAG and NMISS in Italian Healthcare LLM Chatbots [0.0]
大規模言語モデル(LLM)の幻覚に対する検出と緩和を併用する NMISS(Negative Missing Information Scoring System)を導入して検出を行う間、質問応答型検索拡張生成(RAG)フレームワークで緩和を実現する。この組み合わせアプローチは、LLMにおける幻覚の低減とより正確な評価に関する新たな洞察を提供する。
論文参考訳（メタデータ） (2024-12-05T15:11:12Z)
Comprehensive and Practical Evaluation of Retrieval-Augmented Generation Systems for Medical Question Answering [70.44269982045415]
Retrieval-augmented Generation (RAG) は,大規模言語モデル (LLM) の性能向上のための有望なアプローチとして登場した。医療用QAデータセットに様々な補助的要素を提供するMedRGB(MedRGB)を導入する。実験結果から,検索した文書のノイズや誤情報の処理能力に限界があることが判明した。
論文参考訳（メタデータ） (2024-11-14T06:19:18Z)
Do RAG Systems Cover What Matters? Evaluating and Optimizing Responses with Sub-Question Coverage [74.70255719194819]
サブクエストカバレッジに基づく新しいフレームワークを導入し、RAGシステムが質問の異なる面にどのように対処するかを計測する。このフレームワークを使用して、You.com、Perplexity AI、Bing Chatの3つの商用生成応答エンジンを評価します。すべての回答エンジンは、バックグラウンドやフォローアップよりも、コアサブクエストを頻繁にカバーしていますが、コアサブクエストの約50%を見逃しています。
論文参考訳（メタデータ） (2024-10-20T22:59:34Z)
Ranking Generated Answers: On the Agreement of Retrieval Models with Humans on Consumer Health Questions [25.158868133182025]
本稿では,生成型大規模言語モデル(LLM)の出力を評価する手法を提案する。我々は、注釈付き文書コレクションで訓練されたランキングモデルを、明示的な妥当性の代用として用いている。ユーザ研究において,本手法は人間専門家の嗜好と相関する。
論文参考訳（メタデータ） (2024-08-19T09:27:45Z)
RAG-QA Arena: Evaluating Domain Robustness for Long-form Retrieval Augmented Question Answering [61.19126689470398]
Long-form RobustQA (LFRQA)は、7つの異なるドメインにわたる26Kクエリと大きなコーパスをカバーする新しいデータセットである。 RAG-QAアリーナと人間の回答品質判断は高い相関関係にあることを示す。最も競争力のあるLLMの回答の41.3%のみがLFRQAの回答に好まれており、RAG-QAアリーナは将来の研究の挑戦的な評価プラットフォームであることを示している。
論文参考訳（メタデータ） (2024-07-19T03:02:51Z)
Evaluating the Retrieval Component in LLM-Based Question Answering Systems [1.7013938542585922]
本研究では,Retrieval-Augmented Generation (RAG)ベースのチャットボットにおける検索者評価のためのベースラインを提案する。以上の結果から, この評価フレームワークは, 検索者の動作状況をよりよく把握できることを示した。本手法では,無関係な文脈を無視するLLMの強みと,その応答における潜在的な誤りや幻覚を考察する。
論文参考訳（メタデータ） (2024-06-10T16:46:22Z)
PICK: Polished & Informed Candidate Scoring for Knowledge-Grounded Dialogue Systems [59.1250765143521]
現在の知識接地対話システムは、生成された応答を人間に好まれる品質に合わせるのに失敗することが多い。我々は,世代別再描画フレームワークであるPolseed & Informed Candidate Scoring (PICK)を提案する。対話履歴に関連性を維持しつつ,より忠実な応答を生成するためのPICKの有効性を示す。
論文参考訳（メタデータ） (2023-09-19T08:27:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。