論文の概要: The Viability of Crowdsourcing for RAG Evaluation
- arxiv url: http://arxiv.org/abs/2504.15689v1
- Date: Tue, 22 Apr 2025 08:13:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-30 21:37:14.704773
- Title: The Viability of Crowdsourcing for RAG Evaluation
- Title(参考訳): RAG評価のためのクラウドソーシングの可能性
- Authors: Lukas Gienapp, Tim Hagen, Maik Fröbe, Matthias Hagen, Benno Stein, Martin Potthast, Harrisen Scells,
- Abstract要約: 我々は,TREC RAG'24トラックの301トピックに対する903人の書き起こしと903人のLLM生成応答からなるCrowd RAG Corpus 2025(CrowdRAG-25)を提示する。
本分析は,RAGの筆記行動とRAG評価のためのクラウドソーシングの実現可能性について考察した。
- 参考スコア(独自算出の注目度): 39.275627272019925
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: How good are humans at writing and judging responses in retrieval-augmented generation (RAG) scenarios? To answer this question, we investigate the efficacy of crowdsourcing for RAG through two complementary studies: response writing and response utility judgment. We present the Crowd RAG Corpus 2025 (CrowdRAG-25), which consists of 903 human-written and 903 LLM-generated responses for the 301 topics of the TREC RAG'24 track, across the three discourse styles 'bulleted list', 'essay', and 'news'. For a selection of 65 topics, the corpus further contains 47,320 pairwise human judgments and 10,556 pairwise LLM judgments across seven utility dimensions (e.g., coverage and coherence). Our analyses give insights into human writing behavior for RAG and the viability of crowdsourcing for RAG evaluation. Human pairwise judgments provide reliable and cost-effective results compared to LLM-based pairwise or human/LLM-based pointwise judgments, as well as automated comparisons with human-written reference responses. All our data and tools are freely available.
- Abstract(参考訳): 検索強化世代(RAG)シナリオにおける反応の書き方と判断法は,人間がどの程度優れているか?
本稿では,RAGに対するクラウドソーシングの有効性について,応答書面と応答効用判定の2つの相補的な研究を通して検討する。
本稿では, TREC RAG'24トラックの301トピックに対する903人書きと903 LLM生成の応答からなるクラウドRAGコーパス2025(CrowdRAG-25)について, 3つの談話スタイル「バブルリスト」, 「エッセイ」, 「ニューズ」について紹介する。
65のトピックを選択するために、コーパスはさらに47,320対の人間の判断と、7つのユーティリティ次元(例えば、カバレッジとコヒーレンス)にわたる10,556対のLCM判断を含む。
本分析は,RAGの筆記行動とRAG評価のためのクラウドソーシングの実現可能性について考察した。
人間のペアワイズ判定は、LLMベースのペアワイズや人間/LLMベースのポイントワイズ判定と比較して信頼性が高く、コスト効率が良い。
データとツールはすべて無償で利用可能です。
関連論文リスト
- Support Evaluation for the TREC 2024 RAG Track: Comparing Human versus LLM Judges [53.12387628636912]
RAG評価において重要な要素は、引用された文書の情報が回答をサポートするかどうかである。
TREC 2024 RAG Trackの36項目について,45件の参加者を大規模に比較検討した。
以上の結果から,手動によるオフスクラッチ評価の56%では,ヒトとGPT-4oの予測が完全に一致していることが示唆された。
論文 参考訳(メタデータ) (2025-04-21T16:20:43Z) - A Human-AI Comparative Analysis of Prompt Sensitivity in LLM-Based Relevance Judgment [15.255877686845773]
大規模言語モデル(LLM)は、情報検索(IR)タスクの関連判断を自動化するために、ますます使われている。
LLMに基づく妥当性判定の堅牢性と信頼性を評価するため,課題に対する迅速な感度の影響を系統的に検討した。
論文 参考訳(メタデータ) (2025-04-16T18:17:19Z) - HREF: Human Response-Guided Evaluation of Instruction Following in Language Models [61.273153125847166]
我々は新しい評価ベンチマークHREF(Human Response-Guided Evaluation of Instruction following)を開発した。
HREFは信頼性の高い評価を提供するだけでなく、個々のタスクのパフォーマンスを強調し、汚染を受けない。
本稿では,評価セットのサイズ,判断モデル,ベースラインモデル,プロンプトテンプレートなど,HREFにおける鍵設計選択の影響について検討する。
論文 参考訳(メタデータ) (2024-12-20T03:26:47Z) - GLIDER: Grading LLM Interactions and Decisions using Explainable Ranking [0.9614204956530676]
我々は,任意のユーザ定義基準に基づいて任意のテキスト入力および関連するコンテキストをスコアできる,強力な3B評価用LLMであるGLIDERを紹介する。
GLIDERは、FLASK上のGPT-4oよりもピアソンの相関が高く、事前評価モデルよりも大幅に優れていた。
きめ細かいスコア付け、多言語推論、強調表示をサポートし、685のドメインと183の基準でトレーニングされた。
論文 参考訳(メタデータ) (2024-12-18T18:41:12Z) - A Large-Scale Study of Relevance Assessments with Large Language Models: An Initial Look [52.114284476700874]
本稿では,4つの異なる関連性評価手法が展開された大規模評価(TREC 2024 RAG Track)の結果について報告する。
自動生成UMBRELA判定は、完全に手動による判断を置き換えて、実行レベルの有効性を正確に捉えることができる。
意外なことに、LLMアシストは完全な手作業による評価と相関を増さないようで、人間のループプロセスに関連するコストは明らかな有意義な利益をもたらすものではないことを示唆している。
論文 参考訳(メタデータ) (2024-11-13T01:12:35Z) - ELOQ: Resources for Enhancing LLM Detection of Out-of-Scope Questions [52.33835101586687]
大規模言語モデル(LLM)は、会話型AIシステムにおいて、ユーザの問い合わせに対する応答を生成するために広く使われている。
本研究では,文書コーパスから多様なスコープ外質問を効率的に生成する誘導幻覚に基づく手法を提案する。
論文 参考訳(メタデータ) (2024-10-18T16:11:29Z) - RAG-QA Arena: Evaluating Domain Robustness for Long-form Retrieval Augmented Question Answering [61.19126689470398]
Long-form RobustQA (LFRQA)は、7つの異なるドメインにわたる26Kクエリと大きなコーパスをカバーする新しいデータセットである。
RAG-QAアリーナと人間の回答品質判断は高い相関関係にあることを示す。
最も競争力のあるLLMの回答の41.3%のみがLFRQAの回答に好まれており、RAG-QAアリーナは将来の研究の挑戦的な評価プラットフォームであることを示している。
論文 参考訳(メタデータ) (2024-07-19T03:02:51Z) - RADE: Reference-Assisted Dialogue Evaluation for Open-Domain Dialogue [37.82954848948347]
マルチタスク学習フレームワークを用いた参照支援対話評価(RADE)手法を提案する。
RADEは、参照と候補のレスポンスを明示的に比較して、全体のスコアを予測する。
3つのデータセットと2つの既存のベンチマーク実験により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2023-09-15T04:47:19Z) - Perspectives on Large Language Models for Relevance Judgment [56.935731584323996]
大型言語モデル(LLM)は、関連判断を支援することができると主張している。
自動判定が検索システムの評価に確実に利用できるかどうかは不明である。
論文 参考訳(メタデータ) (2023-04-13T13:08:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。