論文の概要: Conversational Gold: Evaluating Personalized Conversational Search System using Gold Nuggets
- arxiv url: http://arxiv.org/abs/2503.09902v1
- Date: Wed, 12 Mar 2025 23:44:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 21:36:22.462085
- Title: Conversational Gold: Evaluating Personalized Conversational Search System using Gold Nuggets
- Title(参考訳): 会話ゴールド:ゴールドナゲットを用いた個人化会話検索システムの評価
- Authors: Zahra Abbasiantaeb, Simon Lupart, Leif Azzopardi, Jeffery Dalton, Mohammad Aliannejadi,
- Abstract要約: 本稿では,RAGシステムによって生成された応答の検索効率と関連性を評価するための新しいリソースを提案する。
我々のデータセットは、TREC iKAT 2024コレクションに拡張され、17の会話と20,575の関連パスアセスメントを含む。
- 参考スコア(独自算出の注目度): 8.734527090842139
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rise of personalized conversational search systems has been driven by advancements in Large Language Models (LLMs), enabling these systems to retrieve and generate answers for complex information needs. However, the automatic evaluation of responses generated by Retrieval Augmented Generation (RAG) systems remains an understudied challenge. In this paper, we introduce a new resource for assessing the retrieval effectiveness and relevance of response generated by RAG systems, using a nugget-based evaluation framework. Built upon the foundation of TREC iKAT 2023, our dataset extends to the TREC iKAT 2024 collection, which includes 17 conversations and 20,575 relevance passage assessments, together with 2,279 extracted gold nuggets, and 62 manually written gold answers from NIST assessors. While maintaining the core structure of its predecessor, this new collection enables a deeper exploration of generation tasks in conversational settings. Key improvements in iKAT 2024 include: (1) ``gold nuggets'' -- concise, essential pieces of information extracted from relevant passages of the collection -- which serve as a foundation for automatic response evaluation; (2) manually written answers to provide a gold standard for response evaluation; (3) unanswerable questions to evaluate model hallucination; (4) expanded user personas, providing richer contextual grounding; and (5) a transition from Personal Text Knowledge Base (PTKB) ranking to PTKB classification and selection. Built on this resource, we provide a framework for long-form answer generation evaluation, involving nuggets extraction and nuggets matching, linked to retrieval. This establishes a solid resource for advancing research in personalized conversational search and long-form answer generation. Our resources are publicly available at https://github.com/irlabamsterdam/CONE-RAG.
- Abstract(参考訳): パーソナライズされた対話型検索システムの台頭は、Large Language Models (LLMs) の進歩によって推進され、これらのシステムが複雑な情報要求に対する回答を検索して生成することができるようになった。
しかし,Retrieval Augmented Generation(RAG)システムによる応答の自動評価は,まだ未検討の課題である。
本稿では,Nugget ベースの評価フレームワークを用いて,RAG システムによって生成された応答の検索の有効性と妥当性を評価するための新しいリソースを提案する。
TREC iKAT 2023の基盤として構築されたデータセットは、TREC iKAT 2024コレクションに拡張され、17の会話と20,575の関連パスアセスメント、さらに2,279の抽出された金ナゲット、62の手書きによるNISTアセスメントが含まれている。
この新たなコレクションは、前者のコア構造を維持しながら、会話設定における生成タスクのより深い探索を可能にする。
iKAT 2024 の主な改良点として,(1) 「ゴールドナゲット」 -- コレクションの関連通路から抽出した,簡潔で重要な情報 -- 自動応答評価の基礎となる,(2) 応答評価のためのゴールド標準を提供するための手作業による回答,(3) モデル幻覚を評価するための解決不可能な質問,(4) ユーザペルソナの拡大, よりリッチなコンテキストベースの提供,(5) PTKB分類と選択への遷移がある。
このリソースを基盤として,検索にリンクしたナゲット抽出とナゲットマッチングを含む,長文回答生成評価のためのフレームワークを提供する。
これにより、パーソナライズされた会話検索と長文回答生成の研究を進めるための確かなリソースが確立される。
私たちのリソースはhttps://github.com/irlabamsterdam/CONE-RAG.comで公開されています。
関連論文リスト
- The Great Nugget Recall: Automating Fact Extraction and RAG Evaluation with Large Language Models [53.12387628636912]
本稿では,人間のアノテーションに対して評価を行う自動評価フレームワークを提案する。
この手法は2003年にTREC Question Answering (QA) Trackのために開発された。
完全自動ナゲット評価から得られるスコアと人間に基づく変種とのランニングレベルでの強い一致を観察する。
論文 参考訳(メタデータ) (2025-04-21T12:55:06Z) - Retrieval-Augmented Visual Question Answering via Built-in Autoregressive Search Engines [17.803396998387665]
Retrieval-augmented Generation (RAG)は、知識集約型視覚質問応答(VQA)タスクに対処するために登場した。
本稿では,知識に基づくVQAタスクに対する従来のRAGモデルの代替としてReAuSEを提案する。
我々のモデルは生成型検索器と正確な回答生成器の両方として機能する。
論文 参考訳(メタデータ) (2025-02-23T16:39:39Z) - From Documents to Dialogue: Building KG-RAG Enhanced AI Assistants [28.149173430599525]
我々は、知識グラフ(KG)を利用した検索型拡張生成(RAG)フレームワークを使用して、外部知識ソースから関連情報を検索する。
我々のKG-RAGシステムは、応答を生成するLLMに送信される前に、ユーザのコンテキストに付加された関連する前兆を検索する。
評価の結果,本手法は応答関連性を大幅に向上させ,無関係な回答を50%以上削減し,既存の生産システムと比較して88%以上,完全関連性のある回答を増大させることがわかった。
論文 参考訳(メタデータ) (2025-02-21T06:22:12Z) - Initial Nugget Evaluation Results for the TREC 2024 RAG Track with the AutoNuggetizer Framework [53.12387628636912]
本報告では、TREC 2024 Retrieval-Augmented Generation (RAG) Trackの部分的な結果について概説する。
我々は、情報アクセスの継続的な進歩の障壁としてRAG評価を特定した。
論文 参考訳(メタデータ) (2024-11-14T17:25:43Z) - Do RAG Systems Cover What Matters? Evaluating and Optimizing Responses with Sub-Question Coverage [74.70255719194819]
サブクエストカバレッジに基づく新しいフレームワークを導入し、RAGシステムが質問の異なる面にどのように対処するかを計測する。
このフレームワークを使用して、You.com、Perplexity AI、Bing Chatの3つの商用生成応答エンジンを評価します。
すべての回答エンジンは、バックグラウンドやフォローアップよりも、コアサブクエストを頻繁にカバーしていますが、コアサブクエストの約50%を見逃しています。
論文 参考訳(メタデータ) (2024-10-20T22:59:34Z) - TREC iKAT 2023: A Test Collection for Evaluating Conversational and Interactive Knowledge Assistants [10.511277428023305]
TREC Interactive Knowledge Assistance Track (iKAT) コレクションは、研究者が会話検索エージェント(CSA)をテストおよび評価できるようにすることを目的としている。
このコレクションには、20のトピックにまたがる36のパーソナライズされた対話が含まれており、それぞれにパーソナライズされたユーザペルソナを定義するPersonal Text Knowledge Base (PTKB)が組み合わされている。
約26,000の通路を持つ344の旋回は、関連性の評価、および4つの重要な次元(妥当性、完全性、基底性、自然性)で生成された応答に関する追加評価として提供される。
論文 参考訳(メタデータ) (2024-05-04T11:22:16Z) - Evaluating Generative Ad Hoc Information Retrieval [58.800799175084286]
生成検索システムは、しばしばクエリに対する応答として、接地された生成されたテキストを直接返す。
このような生成的アドホック検索を適切に評価するには,テキスト応答の有用性の定量化が不可欠である。
論文 参考訳(メタデータ) (2023-11-08T14:05:00Z) - FCC: Fusing Conversation History and Candidate Provenance for Contextual
Response Ranking in Dialogue Systems [53.89014188309486]
複数のチャネルからコンテキスト情報を統合できるフレキシブルなニューラルネットワークフレームワークを提案する。
会話応答ランキングタスクの評価に広く用いられているMSDialogデータセット上で,本モデルの評価を行った。
論文 参考訳(メタデータ) (2023-03-31T23:58:28Z) - Reranking Overgenerated Responses for End-to-End Task-Oriented Dialogue
Systems [71.33737787564966]
エンド・ツー・エンド(E2E)タスク指向対話システム(ToD)は、いわゆる「いいね!
本稿では,システムによって当初過剰に生成された応答リストから高品質な項目を選択する方法を提案する。
本研究では,最先端のE2E ToDシステムを2.4BLEU,3.2ROUGE,2.8 METEORで改善し,新たなピーク値を得た。
論文 参考訳(メタデータ) (2022-11-07T15:59:49Z) - Open-Retrieval Conversational Question Answering [62.11228261293487]
オープン検索型対話型質問応答 (ORConvQA) の設定を導入する。
ORConvQAのエンド・ツー・エンドシステムを構築し,レトリバー,リランカ,およびすべてトランスフォーマーをベースとしたリーダを特徴とする。
論文 参考訳(メタデータ) (2020-05-22T19:39:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。