論文の概要: Human-Centered Evaluation of RAG outputs: a framework and questionnaire for human-AI collaboration
- arxiv url: http://arxiv.org/abs/2509.26205v1
- Date: Tue, 30 Sep 2025 13:08:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 14:45:00.137346
- Title: Human-Centered Evaluation of RAG outputs: a framework and questionnaire for human-AI collaboration
- Title(参考訳): RAG出力の人間中心評価--人間-AI協調のための枠組みとアンケート
- Authors: Aline Mangold, Kiran Hoffmann,
- Abstract要約: 我々は12次元にわたるRAG出力を評価する質問紙を設計した。
我々は,人間レーダと人間-LLMのペアからのフィードバックを取り入れた。
その結果、大規模言語モデル(LLM)はメートル法記述やスケールラベルに確実に焦点を合わせているが、テキストフォーマットのバリエーションを検出するには弱点があることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Retrieval-augmented generation (RAG) systems are increasingly deployed in user-facing applications, yet systematic, human-centered evaluation of their outputs remains underexplored. Building on Gienapp's utility-dimension framework, we designed a human-centred questionnaire that assesses RAG outputs across 12 dimensions. We iteratively refined the questionnaire through several rounds of ratings on a set of query-output pairs and semantic discussions. Ultimately, we incorporated feedback from both a human rater and a human-LLM pair. Results indicate that while large language models (LLMs) reliably focus on metric descriptions and scale labels, they exhibit weaknesses in detecting textual format variations. Humans struggled to focus strictly on metric descriptions and labels. LLM ratings and explanations were viewed as a helpful support, but numeric LLM and human ratings lacked agreement. The final questionnaire extends the initial framework by focusing on user intent, text structuring, and information verifiability.
- Abstract(参考訳): Retrieval-augmented Generation (RAG) システムは、ユーザ向けアプリケーションにますますデプロイされているが、そのアウトプットの体系的、人間中心的な評価は、まだ過小評価されている。
ジエナップの実用次元の枠組みに基づいて,12次元にわたるRAG出力を評価する人間中心アンケートを考案した。
質問文とセマンティックな議論のセットに基づいて,質問文を複数回評価することで,質問文を反復的に改善した。
最終的に、人間レーダと人間-LLMのペアからのフィードバックを取り入れました。
その結果、大規模言語モデル(LLM)はメートル法記述やスケールラベルに確実に焦点を合わせているが、テキストフォーマットのバリエーションを検出するには弱点があることがわかった。
人間はメートル法の記述やラベルに厳密に焦点を合わせるのに苦労した。
LLMのレーティングと説明は役に立つものと見なされたが、数値的なLLMと人間のレーティングは一致しなかった。
最終アンケートは、ユーザ意図、テキスト構造化、および情報検証性に焦点を当てて、初期フレームワークを拡張した。
関連論文リスト
- Using Natural Language Explanations to Rescale Human Judgments [81.66697572357477]
大規模言語モデル(LLM)を用いて順序付けアノテーションと説明を再スケールする手法を提案する。
我々は、アノテータのLikert評価とそれに対応する説明をLLMに入力し、スコア付けルーリックに固定された数値スコアを生成する。
提案手法は,合意に影響を及ぼさずに生の判断を再スケールし,そのスコアを同一のスコア付けルーリックに接する人間の判断に近づける。
論文 参考訳(メタデータ) (2023-05-24T06:19:14Z) - Large Language Models are Diverse Role-Players for Summarization
Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。
BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。
目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-27T10:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。