論文の概要: WixQA: A Multi-Dataset Benchmark for Enterprise Retrieval-Augmented Generation
- arxiv url: http://arxiv.org/abs/2505.08643v1
- Date: Tue, 13 May 2025 15:02:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-14 20:57:54.629183
- Title: WixQA: A Multi-Dataset Benchmark for Enterprise Retrieval-Augmented Generation
- Title(参考訳): WixQA: エンタープライズ検索拡張ジェネレーションのためのマルチデータセットベンチマーク
- Authors: Dvir Cohen, Lin Burg, Sviatoslav Pykhnivskyi, Hagit Gur, Stanislav Kovynov, Olga Atzmon, Gilad Barkan,
- Abstract要約: 我々は、リリースされた知識ベース(KB)コーパスに精度の高いQAデータセットを含むベンチマークスイートであるWixQAを紹介する。
WixQAには、Wix.comのカスタマーサポートインタラクションから派生した3つの異なるQAデータセットが含まれている。
我々は、MITライセンス下でデータセットと一緒にKBスナップショットをリリースし、包括的なベースライン結果を提供します。
- 参考スコア(独自算出の注目度): 0.565395466029518
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieval-Augmented Generation (RAG) is a cornerstone of modern question answering (QA) systems, enabling grounded answers based on external knowledge. Although recent progress has been driven by open-domain datasets, enterprise QA systems need datasets that mirror the concrete, domain-specific issues users raise in day-to-day support scenarios. Critically, evaluating end-to-end RAG systems requires benchmarks comprising not only question--answer pairs but also the specific knowledge base (KB) snapshot from which answers were derived. To address this need, we introduce WixQA, a benchmark suite featuring QA datasets precisely grounded in the released KB corpus, enabling holistic evaluation of retrieval and generation components. WixQA includes three distinct QA datasets derived from Wix.com customer support interactions and grounded in a snapshot of the public Wix Help Center KB: (i) WixQA-ExpertWritten, 200 real user queries with expert-authored, multi-step answers; (ii) WixQA-Simulated, 200 expert-validated QA pairs distilled from user dialogues; and (iii) WixQA-Synthetic, 6,222 LLM-generated QA pairs, with one pair systematically derived from each article in the knowledge base. We release the KB snapshot alongside the datasets under MIT license and provide comprehensive baseline results, forming a unique benchmark for evaluating enterprise RAG systems in realistic enterprise environments.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG) は、現代の質問応答システム(QA)の基盤であり、外部知識に基づいた基礎的な回答を可能にする。
最近の進歩は、オープンドメインのデータセットによって推進されているが、エンタープライズQAシステムは、ユーザーが日々のサポートシナリオで提起する具体的なドメイン固有の問題を反映したデータセットを必要としている。
重要な点として、エンドツーエンドのRAGシステムを評価するには、質問対だけでなく、回答が導出された特定の知識ベース(KB)スナップショットを含むベンチマークが必要である。
このニーズに対処するために、WixQAは、リリースされたKBコーパスに正確に基盤付けられたQAデータセットを特徴付けるベンチマークスイートであり、検索および生成コンポーネントの全体的評価を可能にする。
WixQAには、Wix.comのカスタマーサポートから派生した3つの異なるQAデータセットが含まれている。
i) WixQA-ExpertWritten,200の実際のユーザクエリ。
2 WixQA-Simulated, 200 expert-validated QA pairs obtained from user dialogues, and
3) WixQA-Synthetic, 6,222 LLM- generated QA pairs, with one pair derived from each article in the knowledge base。
我々は、MITライセンス下でデータセットとともにKBスナップショットをリリースし、包括的なベースライン結果を提供し、リアルなエンタープライズ環境でエンタープライズRAGシステムを評価するためのユニークなベンチマークを作成します。
関連論文リスト
- Revolutionizing Database Q&A with Large Language Models: Comprehensive Benchmark and Evaluation [43.217701432032484]
DQABenchは、Large Language Models (LLMs)の最初の包括的なデータベースQAベンチマークである。
DQABenchは、評価データセットの生成、クリーニング、書き直しを自動化する革新的なLCMベースの手法を備えており、英語と中国語で20万以上のQAペアが別々に作られている。
さらに,本テストベッドは,QCR,RAG,TIG,Promptテンプレートエンジニアリング(PTE)といった基本的かつ先進的なコンポーネントを備えた,高度にモジュール化され,スケーラブルなデータベースQAテストベッドを提案する。
論文 参考訳(メタデータ) (2024-09-05T13:45:42Z) - Is the House Ready For Sleeptime? Generating and Evaluating Situational Queries for Embodied Question Answering [48.43453390717167]
本研究では,家庭環境における状況問合せ(S-EQA)による身体的質問回答の課題を提示し,解決する。
以前のEQAの作業とは異なり、状況的クエリでは、エージェントが複数のオブジェクト状態を正しく識別し、回答のために状態に関するコンセンサスに到達する必要がある。
本稿では, LLMの出力をラップして, 独自のコンセンサスクエリとそれに対応するコンセンサスオブジェクト情報を生成する新しいPrompt-Generate-Evaluateスキームを提案する。
論文 参考訳(メタデータ) (2024-05-08T00:45:20Z) - QASnowball: An Iterative Bootstrapping Framework for High-Quality
Question-Answering Data Generation [67.27999343730224]
QAデータ拡張のための反復型ブートストラップフレームワーク(QASnowball)を導入する。
QASnowballは、教師付きサンプルのシードセットに基づいて、大規模で高品質なQAデータを反復的に生成することができる。
本研究では, 高資源の英語シナリオと中資源の中国語シナリオで実験を行い, 実験結果から, QASnowball が生成したデータによりQAモデルを容易に作成できることが示唆された。
論文 参考訳(メタデータ) (2023-09-19T05:20:36Z) - ADMUS: A Progressive Question Answering Framework Adaptable to Multiple
Knowledge Sources [9.484792817869671]
ADMUSは,多様なデータセットに対応するために設計された,プログレッシブな知識ベース質問応答フレームワークである。
我々のフレームワークは、最小限の労力で、新しいデータセットのシームレスな統合をサポートします。
論文 参考訳(メタデータ) (2023-08-09T08:46:39Z) - A Benchmark for Generalizable and Interpretable Temporal Question
Answering over Knowledge Bases [67.33560134350427]
TempQA-WDは時間的推論のためのベンチマークデータセットである。
Wikidataは、最も頻繁にキュレーションされ、公開されている知識ベースである。
論文 参考訳(メタデータ) (2022-01-15T08:49:09Z) - OpenQA: Hybrid QA System Relying on Structured Knowledge Base as well as
Non-structured Data [15.585969737147892]
構造化KBと非構造化データに基づく知的質問応答システムOpenQAを提案する。
我々は、意味解析と深層表現学習に基づくKBQA構造化質問応答と、検索とニューラルマシン読解に基づく2段階非構造化質問応答をOpenQAに統合する。
論文 参考訳(メタデータ) (2021-12-31T09:15:39Z) - SYGMA: System for Generalizable Modular Question Answering OverKnowledge
Bases [57.89642289610301]
SYGMAは、複数の知識ベースと複数のリアソニングタイプにまたがる汎用化を容易にするモジュラーアプローチである。
本システムの有効性を,DBpediaとWikidataの2つの異なる知識ベースに属するデータセットを用いて評価することで実証する。
論文 参考訳(メタデータ) (2021-09-28T01:57:56Z) - Generating Diverse and Consistent QA pairs from Contexts with
Information-Maximizing Hierarchical Conditional VAEs [62.71505254770827]
非構造化テキストを文脈として与えられたQAペアを生成するための条件付き変分オートエンコーダ(HCVAE)を提案する。
我々のモデルは、トレーニングにわずかなデータしか使わず、両方のタスクの全てのベースラインに対して印象的なパフォーマンス向上が得られる。
論文 参考訳(メタデータ) (2020-05-28T08:26:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。