論文の概要: ChatQA: Surpassing GPT-4 on Conversational QA and RAG
- arxiv url: http://arxiv.org/abs/2401.10225v5
- Date: Wed, 30 Oct 2024 02:58:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-31 14:25:34.758040
- Title: ChatQA: Surpassing GPT-4 on Conversational QA and RAG
- Title(参考訳): ChatQA: 会話型QAおよびRAG上でのGPT-4の通過
- Authors: Zihan Liu, Wei Ping, Rajarshi Roy, Peng Xu, Chankyu Lee, Mohammad Shoeybi, Bryan Catanzaro,
- Abstract要約: 検索強化世代(RAG)と会話型質問応答(QA)においてGPT-4より優れたモデル群であるChatQAを紹介する。
効率的な検索のために,対話型QAに最適化された高密度検索手法を導入する。
提案するChatRAG Benchは、RAG、テーブル関連QA、算術計算、および解決不可能な質問を含むシナリオに関する総合的な評価を含む10のデータセットを含む。
- 参考スコア(独自算出の注目度): 43.34692996785167
- License:
- Abstract: In this work, we introduce ChatQA, a suite of models that outperform GPT-4 on retrieval-augmented generation (RAG) and conversational question answering (QA). To enhance generation, we propose a two-stage instruction tuning method that significantly boosts the performance of RAG. For effective retrieval, we introduce a dense retriever optimized for conversational QA, which yields results comparable to the alternative state-of-the-art query rewriting models, while substantially reducing deployment costs. We also present the ChatRAG Bench, which encompasses ten datasets covering comprehensive evaluations on RAG, table-related QA, arithmetic calculations, and scenarios involving unanswerable questions. Our ChatQA-1.0-70B (score: 54.14), built on Llama2, a weaker foundation model than GPT-4, can slightly outperform GPT-4-0613 (score: 53.90) and GPT-4-Turbo-2024-04-09 (score: 54.03) on the ChatRAG Bench, without relying on any synthetic data from OpenAI GPT models. Notably, the Llama3-ChatQA-1.5-70B model surpasses the accuracy of GPT-4-Turbo-2024-04-09, achieving a 4.4% improvement. To advance research in this field, we open-sourced the model weights, instruction tuning data, ChatRAG Bench, and retriever for the community: https://chatqa-project.github.io/.
- Abstract(参考訳): 本稿では,検索強化生成(RAG)と会話型質問応答(QA)において,GPT-4よりも優れたモデル群であるChatQAを紹介する。
そこで本研究では,RAGの性能を大幅に向上させる2段階の命令チューニング手法を提案する。
効率よく検索するために,対話型QAに最適化された高密度検索器を導入し,既存のクエリ書き換えモデルに匹敵する結果を得るとともに,展開コストを大幅に削減する。
また、RAG、テーブル関連QA、算術計算、解決不可能な質問を含むシナリオに関する総合的な評価を含む10のデータセットを含むChatRAG Benchを提案する。
我々のChatQA-1.0-70B(スコア:54.14)は、GPT-4よりも弱い基礎モデルであるLlama2上に構築され、OpenAI GPTモデルの合成データに頼ることなく、ChatRAG Bench上でGPT-4-0613(スコア:53.90)とGPT-4-Turbo-2024-04-09(スコア:54.03)をわずかに上回ることができる。
特に、Llama3-ChatQA-1.5-70BモデルはGPT-4-Turbo-2024-04-09の精度を超え、4.4%の改善を実現している。
この分野での研究を進めるために、我々はモデルウェイト、チューニングデータ、ChatRAG Bench、およびコミュニティ向けのレトリバーをオープンソース化した。
関連論文リスト
- AT-RAG: An Adaptive RAG Model Enhancing Query Efficiency with Topic Filtering and Iterative Reasoning [0.0]
本稿では,効率的な文書検索と推論のためのトピックモデリングを取り入れた新しい多段階RAGAT-RAGを提案する。
BERTopicを用いてクエリにトピックを動的に割り当て,検索精度と効率を向上する。
その結果,既存手法に比べて精度,完全性,妥当性が著しく向上した。
論文 参考訳(メタデータ) (2024-10-16T01:57:56Z) - Telco-DPR: A Hybrid Dataset for Evaluating Retrieval Models of 3GPP Technical Specifications [0.8999666725996975]
本稿では,第3世代パートナーシッププロジェクト技術文書を用いた通信分野を対象としたQAシステムを提案する。
テキストとテーブルを組み合わせたハイブリッドデータセットであるTelco-DPRが提示され、一連の合成質問/回答ペアが含まれている。
トップK精度と平均相反ランク(MRR)を用いて、検索モデルの評価と比較を行う。
提案するQAシステムは,改良されたRAGモデルと生成事前学習変換器(GPT)-4を用いて,解答精度を14%向上させる。
論文 参考訳(メタデータ) (2024-10-15T16:37:18Z) - GroUSE: A Benchmark to Evaluate Evaluators in Grounded Question Answering [0.0]
Retrieval-Augmented Generation (RAG) は、Large Language Models (LLM) をプライベートおよび最新の知識ベースと共に使用する共通のパラダイムとして登場した。
本稿では,RAG システムによって生成される接地回答を評価する際に LLM-as-a-Judge を用いる際の課題に対処する。
論文 参考訳(メタデータ) (2024-09-10T15:39:32Z) - RankRAG: Unifying Context Ranking with Retrieval-Augmented Generation in LLMs [60.38044044203333]
大規模言語モデル(LLM)は、通常、検索拡張生成(RAG)において、レトリバーからトップkコンテキストを利用する。
本稿では,RAGにおける文脈ランク付けと回答生成の両目的のために,単一のLLMをチューニング可能な新しい命令微調整フレームワークであるRanRAGを提案する。
例えば、GPT-4-0613, GPT-4-turbo-2024-0409, ChatQA-1.5, RAGベンチマークの最先端性能を備えたオープンソースモデルなどである。
論文 参考訳(メタデータ) (2024-07-02T17:59:17Z) - CRAG -- Comprehensive RAG Benchmark [58.15980697921195]
Retrieval-Augmented Generation (RAG) は、Large Language Model (LLM) の知識不足を緩和するための有望なソリューションとして最近登場した。
既存のRAGデータセットは、現実世界の質問回答(QA)タスクの多様性と動的な性質を適切に表現していない。
このギャップを埋めるために、包括的RAGベンチマーク(CRAG)を導入する。
CRAGは、Webと知識グラフ(KG)検索をシミュレートする4,409組の質問応答ペアとモックAPIの実際の質問応答ベンチマークである。
論文 参考訳(メタデータ) (2024-06-07T08:43:07Z) - The Chronicles of RAG: The Retriever, the Chunk and the Generator [0.0]
本稿では,ブラジルポルトガル語のRAGの実装,最適化,評価を行うための優れたプラクティスを提案する。
我々は最初のハリー・ポッターの本についての質問に答えるための様々な方法を探究する。
論文 参考訳(メタデータ) (2024-01-15T18:25:18Z) - Prometheus: Inducing Fine-grained Evaluation Capability in Language
Models [66.12432440863816]
我々は,GPT-4の評価能力に匹敵する,完全にオープンソースなLarge Language Model (LLM) であるPrometheusを提案する。
プロメテウスは45種類の楽譜を用いた評価において、Pearsonの0.897の相関を人間の評価値と比較した。
Prometheusは2つの人間の選好ベンチマークで最も精度が高い。
論文 参考訳(メタデータ) (2023-10-12T16:50:08Z) - QLoRA: Efficient Finetuning of Quantized LLMs [66.58009990713134]
我々は,48GBのGPU上で65Bパラメータモデルを微調整するのに十分なメモリ使用量を削減する,効率的な微調整手法QLoRAを提案する。
QLoRAは凍結した4ビット量子化事前学習言語モデルを通して低ランクアダプタ(LoRA)に逆伝搬する
最高のモデルファミリであるGuanacoは、Vicunaベンチマークでリリースされたすべてのモデルより優れています。
論文 参考訳(メタデータ) (2023-05-23T17:50:33Z) - QA4QG: Using Question Answering to Constrain Multi-Hop Question
Generation [54.136509061542775]
マルチホップ質問生成(MQG)は、入力パスの複数の情報に対する推論を必要とする複雑な質問を生成することを目的としている。
MQGのためのQA強化BARTベースのフレームワークであるQA4QGを提案する。
HotpotQAデータセットの結果は、QA4QGがすべての最先端モデルより優れていることを示している。
論文 参考訳(メタデータ) (2022-02-14T08:16:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。