論文の概要: CLAPNQ: Cohesive Long-form Answers from Passages in Natural Questions for RAG systems
- arxiv url: http://arxiv.org/abs/2404.02103v2
- Date: Mon, 23 Dec 2024 17:01:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:52:07.031400
- Title: CLAPNQ: Cohesive Long-form Answers from Passages in Natural Questions for RAG systems
- Title(参考訳): CLAPNQ:RAGシステムに対する自然問題におけるパスからの結合型ロングフォーム回答
- Authors: Sara Rosenthal, Avirup Sil, Radu Florian, Salim Roukos,
- Abstract要約: 完全なRAGパイプラインのためのロングフォーム質問回答データセットのベンチマークであるClapNQを提示する。
ClapNQの答えは簡潔で、全文よりも3倍小さく、結束的であり、多くの場合、連続しない複数の節を統合することで、解答は流動的に構成される。
本稿では,基礎となるRAGの改善の余地がまだ残っている地域に焦点を当てた,ClapNQのベースライン実験と解析を行う。
- 参考スコア(独自算出の注目度): 25.43441142845853
- License:
- Abstract: Retrieval Augmented Generation (RAG) has become a popular application for large language models. It is preferable that successful RAG systems provide accurate answers that are supported by being grounded in a passage without any hallucinations. While considerable work is required for building a full RAG pipeline, being able to benchmark performance is also necessary. We present ClapNQ, a benchmark Long-form Question Answering dataset for the full RAG pipeline. ClapNQ includes long answers with grounded gold passages from Natural Questions (NQ) and a corpus to perform either retrieval, generation, or the full RAG pipeline. The ClapNQ answers are concise, 3x smaller than the full passage, and cohesive, meaning that the answer is composed fluently, often by integrating multiple pieces of the passage that are not contiguous. RAG models must adapt to these properties to be successful at ClapNQ. We present baseline experiments and analysis for ClapNQ that highlight areas where there is still significant room for improvement in grounded RAG. CLAPNQ is publicly available at https://github.com/primeqa/clapnq
- Abstract(参考訳): Retrieval Augmented Generation (RAG)は、大規模言語モデルの一般的なアプリケーションとなっている。
成功しているRAGシステムは、幻覚のない通路に接地することで支援される正確な答えを提供するのが好ましい。
完全なRAGパイプラインを構築するにはかなりの作業が必要だが、パフォーマンスのベンチマークも必要だ。
完全なRAGパイプラインのためのロングフォーム質問回答データセットのベンチマークであるClapNQを提示する。
ClapNQには、Natural Questions (NQ) の接地された金の通路と、検索、生成、完全なRAGパイプラインを実行するコーパスがある。
ClapNQの答えは簡潔で、全通路より3倍小さく、結束性があり、しばしば連続しない通路の複数の部分を統合することによって、解答は流動的に構成される。
RAGモデルはこれらの特性に適応し、ClarpNQで成功する必要がある。
本稿では,基礎となるRAGの改善の余地がまだ残っている地域に焦点を当てた,ClapNQのベースライン実験と解析を行う。
CLAPNQはhttps://github.com/primeqa/clapnqで公開されている。
関連論文リスト
- Toward Optimal Search and Retrieval for RAG [39.69494982983534]
Retrieval-augmented Generation (RAG)は、Large Language Models (LLM)に関連するメモリ関連の課題に対処するための有望な方法である。
ここでは、質問回答(QA)などの共通タスクに対して、レトリバーをRAGパイプラインに最適化する方法を理解することを目的としている。
論文 参考訳(メタデータ) (2024-11-11T22:06:51Z) - Do RAG Systems Cover What Matters? Evaluating and Optimizing Responses with Sub-Question Coverage [74.70255719194819]
サブクエストカバレッジに基づく新しいフレームワークを導入し、RAGシステムが質問の異なる面にどのように対処するかを計測する。
このフレームワークを使用して、You.com、Perplexity AI、Bing Chatの3つの商用生成応答エンジンを評価します。
すべての回答エンジンは、バックグラウンドやフォローアップよりも、コアサブクエストを頻繁にカバーしていますが、コアサブクエストの約50%を見逃しています。
論文 参考訳(メタデータ) (2024-10-20T22:59:34Z) - Enhancing Retrieval in QA Systems with Derived Feature Association [0.0]
Retrieval augmented generation (RAG) は、長い文脈質問応答(QA)システムにおいて標準となっている。
我々は、AI派生文書(RAIDD)からレトリーバル(Retrieval)と呼ばれるRAGシステムへの新たな拡張を提案する。
論文 参考訳(メタデータ) (2024-10-02T05:24:49Z) - RAG-QA Arena: Evaluating Domain Robustness for Long-form Retrieval Augmented Question Answering [61.19126689470398]
Long-form RobustQA (LFRQA)は、7つの異なるドメインにわたる26Kクエリと大きなコーパスをカバーする新しいデータセットである。
RAG-QAアリーナと人間の回答品質判断は高い相関関係にあることを示す。
最も競争力のあるLLMの回答の41.3%のみがLFRQAの回答に好まれており、RAG-QAアリーナは将来の研究の挑戦的な評価プラットフォームであることを示している。
論文 参考訳(メタデータ) (2024-07-19T03:02:51Z) - CRAG -- Comprehensive RAG Benchmark [58.15980697921195]
Retrieval-Augmented Generation (RAG) は、Large Language Model (LLM) の知識不足を緩和するための有望なソリューションとして最近登場した。
既存のRAGデータセットは、現実世界の質問回答(QA)タスクの多様性と動的な性質を適切に表現していない。
このギャップを埋めるために、包括的RAGベンチマーク(CRAG)を導入する。
CRAGは、Webと知識グラフ(KG)検索をシミュレートする4,409組の質問応答ペアとモックAPIの実際の質問応答ベンチマークである。
論文 参考訳(メタデータ) (2024-06-07T08:43:07Z) - Improving Question Generation with Multi-level Content Planning [70.37285816596527]
本稿では、与えられたコンテキストと回答から質問を生成する問題に対処し、特に拡張されたコンテキストをまたいだマルチホップ推論を必要とする質問に焦点をあてる。
具体的には、キーフレーズを同時に選択して完全な回答を生成するFA-modelと、生成した全回答を付加的な入力として取り込んだQ-modelの2つのコンポーネントを含む。
論文 参考訳(メタデータ) (2023-10-20T13:57:01Z) - A Practical Toolkit for Multilingual Question and Answer Generation [79.31199020420827]
我々は,マルチ言語QAGのオンラインサービスであるAutoQGと,モデル微調整,生成,評価のためのオールインワンPythonパッケージであるlmqgを紹介した。
また、事前訓練されたエンコーダ-デコーダ言語モデルのいくつかの変種を微調整した8言語でQAGモデルをリリースしています。
論文 参考訳(メタデータ) (2023-05-27T08:42:37Z) - Toward Unsupervised Realistic Visual Question Answering [70.67698100148414]
現実的なVQA(RVQA)の問題について検討し、モデルが答えられない質問(UQ)を拒絶し、答えられる質問(AQ)に答えなければならない。
1)データセットには不整合UQが多すぎること,(2)多数の注釈付きUQがトレーニングに必要とされること,の2つの欠点を最初に指摘した。
我々は、既存のVQAデータセットのAQと約29万の人間の注釈付きUQを組み合わせた新しいテストデータセットRGQAを提案する。
これは、画像と質問をランダムにペアリングして得られる擬似UQと、それを結合する。
論文 参考訳(メタデータ) (2023-03-09T06:58:29Z) - Towards Automatic Generation of Questions from Long Answers [11.198653485869935]
本稿では,従来のAQGシステムの性能評価のための新しい評価ベンチマークを提案する。
既存のAQG法の性能は,回答の長さが大きくなるにつれて著しく低下することを示した。
トランスフォーマーに基づく手法は, 従来のAQG法よりも, 自己評価や人的評価の点で優れていた。
論文 参考訳(メタデータ) (2020-04-10T16:45:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。