論文の概要: Conversational Gold: Evaluating Personalized Conversational Search System using Gold Nuggets
- arxiv url: http://arxiv.org/abs/2503.09902v1
- Date: Wed, 12 Mar 2025 23:44:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 15:50:37.501468
- Title: Conversational Gold: Evaluating Personalized Conversational Search System using Gold Nuggets
- Title(参考訳): 会話ゴールド:ゴールドナゲットを用いた個人化会話検索システムの評価
- Authors: Zahra Abbasiantaeb, Simon Lupart, Leif Azzopardi, Jeffery Dalton, Mohammad Aliannejadi,
- Abstract要約: 本稿では,RAGシステムによって生成された応答の検索効率と関連性を評価するための新しいリソースを提案する。
我々のデータセットは、TREC iKAT 2024コレクションに拡張され、17の会話と20,575の関連パスアセスメントを含む。
- 参考スコア(独自算出の注目度): 8.734527090842139
- License:
- Abstract: The rise of personalized conversational search systems has been driven by advancements in Large Language Models (LLMs), enabling these systems to retrieve and generate answers for complex information needs. However, the automatic evaluation of responses generated by Retrieval Augmented Generation (RAG) systems remains an understudied challenge. In this paper, we introduce a new resource for assessing the retrieval effectiveness and relevance of response generated by RAG systems, using a nugget-based evaluation framework. Built upon the foundation of TREC iKAT 2023, our dataset extends to the TREC iKAT 2024 collection, which includes 17 conversations and 20,575 relevance passage assessments, together with 2,279 extracted gold nuggets, and 62 manually written gold answers from NIST assessors. While maintaining the core structure of its predecessor, this new collection enables a deeper exploration of generation tasks in conversational settings. Key improvements in iKAT 2024 include: (1) ``gold nuggets'' -- concise, essential pieces of information extracted from relevant passages of the collection -- which serve as a foundation for automatic response evaluation; (2) manually written answers to provide a gold standard for response evaluation; (3) unanswerable questions to evaluate model hallucination; (4) expanded user personas, providing richer contextual grounding; and (5) a transition from Personal Text Knowledge Base (PTKB) ranking to PTKB classification and selection. Built on this resource, we provide a framework for long-form answer generation evaluation, involving nuggets extraction and nuggets matching, linked to retrieval. This establishes a solid resource for advancing research in personalized conversational search and long-form answer generation. Our resources are publicly available at https://github.com/irlabamsterdam/CONE-RAG.
- Abstract(参考訳): パーソナライズされた対話型検索システムの台頭は、Large Language Models (LLMs) の進歩によって推進され、これらのシステムが複雑な情報要求に対する回答を検索して生成することができるようになった。
しかし,Retrieval Augmented Generation(RAG)システムによる応答の自動評価は,まだ未検討の課題である。
本稿では,Nugget ベースの評価フレームワークを用いて,RAG システムによって生成された応答の検索の有効性と妥当性を評価するための新しいリソースを提案する。
TREC iKAT 2023の基盤として構築されたデータセットは、TREC iKAT 2024コレクションに拡張され、17の会話と20,575の関連パスアセスメント、さらに2,279の抽出された金ナゲット、62の手書きによるNISTアセスメントが含まれている。
この新たなコレクションは、前者のコア構造を維持しながら、会話設定における生成タスクのより深い探索を可能にする。
iKAT 2024 の主な改良点として,(1) 「ゴールドナゲット」 -- コレクションの関連通路から抽出した,簡潔で重要な情報 -- 自動応答評価の基礎となる,(2) 応答評価のためのゴールド標準を提供するための手作業による回答,(3) モデル幻覚を評価するための解決不可能な質問,(4) ユーザペルソナの拡大, よりリッチなコンテキストベースの提供,(5) PTKB分類と選択への遷移がある。
このリソースを基盤として,検索にリンクしたナゲット抽出とナゲットマッチングを含む,長文回答生成評価のためのフレームワークを提供する。
これにより、パーソナライズされた会話検索と長文回答生成の研究を進めるための確かなリソースが確立される。
私たちのリソースはhttps://github.com/irlabamsterdam/CONE-RAG.comで公開されています。
関連論文リスト
- Initial Nugget Evaluation Results for the TREC 2024 RAG Track with the AutoNuggetizer Framework [53.12387628636912]
本報告では、TREC 2024 Retrieval-Augmented Generation (RAG) Trackの部分的な結果について概説する。
我々は、情報アクセスの継続的な進歩の障壁としてRAG評価を特定した。
論文 参考訳(メタデータ) (2024-11-14T17:25:43Z) - Do RAG Systems Cover What Matters? Evaluating and Optimizing Responses with Sub-Question Coverage [74.70255719194819]
サブクエストカバレッジに基づく新しいフレームワークを導入し、RAGシステムが質問の異なる面にどのように対処するかを計測する。
このフレームワークを使用して、You.com、Perplexity AI、Bing Chatの3つの商用生成応答エンジンを評価します。
すべての回答エンジンは、バックグラウンドやフォローアップよりも、コアサブクエストを頻繁にカバーしていますが、コアサブクエストの約50%を見逃しています。
論文 参考訳(メタデータ) (2024-10-20T22:59:34Z) - The 2nd FutureDial Challenge: Dialog Systems with Retrieval Augmented Generation (FutureDial-RAG) [23.849336345191556]
この課題は、3000近い高品質なダイアログを備えた実際の顧客サービスデータセットであるMobileCS2データセットの上に構築されている。
本稿では,知識検索のためのトラック1と応答生成のためのトラック2という2つのタスクを定義する。
我々は,2つのトラックのベースラインシステムを構築し,そのシステムが正確な検索を行い,情報的かつ一貫性のある応答を生成できるかどうかを計測する。
論文 参考訳(メタデータ) (2024-05-21T07:35:21Z) - TREC iKAT 2023: A Test Collection for Evaluating Conversational and Interactive Knowledge Assistants [10.511277428023305]
TREC Interactive Knowledge Assistance Track (iKAT) コレクションは、研究者が会話検索エージェント(CSA)をテストおよび評価できるようにすることを目的としている。
このコレクションには、20のトピックにまたがる36のパーソナライズされた対話が含まれており、それぞれにパーソナライズされたユーザペルソナを定義するPersonal Text Knowledge Base (PTKB)が組み合わされている。
約26,000の通路を持つ344の旋回は、関連性の評価、および4つの重要な次元(妥当性、完全性、基底性、自然性)で生成された応答に関する追加評価として提供される。
論文 参考訳(メタデータ) (2024-05-04T11:22:16Z) - PICK: Polished & Informed Candidate Scoring for Knowledge-Grounded
Dialogue Systems [59.1250765143521]
現在の知識接地対話システムは、生成された応答を人間に好まれる品質に合わせるのに失敗することが多い。
我々は,世代別再描画フレームワークであるPolseed & Informed Candidate Scoring (PICK)を提案する。
対話履歴に関連性を維持しつつ,より忠実な応答を生成するためのPICKの有効性を示す。
論文 参考訳(メタデータ) (2023-09-19T08:27:09Z) - FCC: Fusing Conversation History and Candidate Provenance for Contextual
Response Ranking in Dialogue Systems [53.89014188309486]
複数のチャネルからコンテキスト情報を統合できるフレキシブルなニューラルネットワークフレームワークを提案する。
会話応答ランキングタスクの評価に広く用いられているMSDialogデータセット上で,本モデルの評価を行った。
論文 参考訳(メタデータ) (2023-03-31T23:58:28Z) - Reranking Overgenerated Responses for End-to-End Task-Oriented Dialogue
Systems [71.33737787564966]
エンド・ツー・エンド(E2E)タスク指向対話システム(ToD)は、いわゆる「いいね!
本稿では,システムによって当初過剰に生成された応答リストから高品質な項目を選択する方法を提案する。
本研究では,最先端のE2E ToDシステムを2.4BLEU,3.2ROUGE,2.8 METEORで改善し,新たなピーク値を得た。
論文 参考訳(メタデータ) (2022-11-07T15:59:49Z) - Open-Retrieval Conversational Question Answering [62.11228261293487]
オープン検索型対話型質問応答 (ORConvQA) の設定を導入する。
ORConvQAのエンド・ツー・エンドシステムを構築し,レトリバー,リランカ,およびすべてトランスフォーマーをベースとしたリーダを特徴とする。
論文 参考訳(メタデータ) (2020-05-22T19:39:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。