Fugu-MT 論文翻訳(概要): ChatQA: Building GPT-4 Level Conversational QA Models

論文の概要: ChatQA: Building GPT-4 Level Conversational QA Models

arxiv url: http://arxiv.org/abs/2401.10225v1
Date: Thu, 18 Jan 2024 18:59:11 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-19 15:24:02.121033
Title: ChatQA: Building GPT-4 Level Conversational QA Models
Title（参考訳）: ChatQA: GPT-4レベルの会話型QAモデルの構築
Authors: Zihan Liu, Wei Ping, Rajarshi Roy, Peng Xu, Mohammad Shoeybi, Bryan Catanzaro
Abstract要約: 本稿では,対話型質問応答(QA)モデルであるChatQAを紹介し,GPT-4レベルの精度を得る。マルチターンQAデータセットに高密度検索器を微調整し、最先端のクエリ書き換えモデルに匹敵する結果を与える。
参考スコア（独自算出の注目度）: 46.4917104749712
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this work, we introduce ChatQA, a family of conversational question answering (QA) models, that obtain GPT-4 level accuracies. Specifically, we propose a two-stage instruction tuning method that can significantly improve the zero-shot conversational QA results from large language models (LLMs). To handle retrieval in conversational QA, we fine-tune a dense retriever on a multi-turn QA dataset, which provides comparable results to using the state-of-the-art query rewriting model while largely reducing deployment cost. Notably, our ChatQA-70B can outperform GPT-4 in terms of average score on 10 conversational QA datasets (54.14 vs. 53.90), without relying on any synthetic data from OpenAI GPT models.
Abstract（参考訳）: 本稿では,対話型質問応答(QA)モデルであるChatQAを紹介し,GPT-4レベルの精度を得る。具体的には,大規模言語モデル(LLM)からゼロショット対話型QA結果を大幅に改善する2段階の命令チューニング手法を提案する。対話型QAにおける検索処理を行うため,多ターンQAデータセット上で高密度検索を微調整し,最先端のクエリ書き換えモデルに匹敵する結果を得るとともに,デプロイメントコストを大幅に削減する。特に、私たちのChatQA-70Bは、OpenAI GPTモデルの合成データに頼ることなく、10の会話型QAデータセット(54.14 vs. 53.90)の平均スコアでGPT-4を上回ります。

関連論文リスト

Diagnosing and Addressing Pitfalls in KG-RAG Datasets: Toward More Reliable Benchmarking [56.27361644734853]
知識グラフ質問回答システムは、複雑なマルチホップ推論を評価するために高品質なベンチマークに依存している。広く使われているにもかかわらず、WebQSPやCWQのような一般的なデータセットは、重要な品質問題に悩まされている。我々はこれらの落とし穴を体系的に解決するLLM-in-the-loopフレームワークであるKGQAGenを紹介する。本研究は,KGQA評価を推し進めるスケーラブルなフレームワークとして,より厳密なベンチマーク構築とKGQAGenの位置づけを提唱する。
論文参考訳（メタデータ） (2025-05-29T14:44:52Z)
AT-RAG: An Adaptive RAG Model Enhancing Query Efficiency with Topic Filtering and Iterative Reasoning [0.0]
本稿では,効率的な文書検索と推論のためのトピックモデリングを取り入れた新しい多段階RAGAT-RAGを提案する。 BERTopicを用いてクエリにトピックを動的に割り当て,検索精度と効率を向上する。その結果,既存手法に比べて精度,完全性,妥当性が著しく向上した。
論文参考訳（メタデータ） (2024-10-16T01:57:56Z)
Telco-DPR: A Hybrid Dataset for Evaluating Retrieval Models of 3GPP Technical Specifications [0.8999666725996975]
本稿では,第3世代パートナーシッププロジェクト技術文書を用いた通信分野を対象としたQAシステムを提案する。テキストとテーブルを組み合わせたハイブリッドデータセットであるTelco-DPRが提示され、一連の合成質問/回答ペアが含まれている。トップK精度と平均相反ランク(MRR)を用いて、検索モデルの評価と比較を行う。提案するQAシステムは,改良されたRAGモデルと生成事前学習変換器(GPT)-4を用いて,解答精度を14%向上させる。
論文参考訳（メタデータ） (2024-10-15T16:37:18Z)
GroUSE: A Benchmark to Evaluate Evaluators in Grounded Question Answering [0.0]
Retrieval-Augmented Generation (RAG) は、Large Language Models (LLM) をプライベートおよび最新の知識ベースと共に使用する共通のパラダイムとして登場した。本稿では,RAG システムによって生成される接地回答を評価する際に LLM-as-a-Judge を用いる際の課題に対処する。
論文参考訳（メタデータ） (2024-09-10T15:39:32Z)
RankRAG: Unifying Context Ranking with Retrieval-Augmented Generation in LLMs [60.38044044203333]
大規模言語モデル(LLM)は、通常、検索拡張生成(RAG)において、レトリバーからトップkコンテキストを利用する。本稿では,RAGにおける文脈ランク付けと回答生成の両目的のために,単一のLLMをチューニング可能な新しい命令微調整フレームワークであるRanRAGを提案する。例えば、GPT-4-0613, GPT-4-turbo-2024-0409, ChatQA-1.5, RAGベンチマークの最先端性能を備えたオープンソースモデルなどである。
論文参考訳（メタデータ） (2024-07-02T17:59:17Z)
CRAG -- Comprehensive RAG Benchmark [58.15980697921195]
Retrieval-Augmented Generation (RAG) は、Large Language Model (LLM) の知識不足を緩和するための有望なソリューションとして最近登場した。既存のRAGデータセットは、現実世界の質問回答(QA)タスクの多様性と動的な性質を適切に表現していない。このギャップを埋めるために、包括的RAGベンチマーク(CRAG)を導入する。 CRAGは、Webと知識グラフ(KG)検索をシミュレートする4,409組の質問応答ペアとモックAPIの実際の質問応答ベンチマークである。
論文参考訳（メタデータ） (2024-06-07T08:43:07Z)
The Chronicles of RAG: The Retriever, the Chunk and the Generator [0.0]
本稿では,ブラジルポルトガル語のRAGの実装,最適化,評価を行うための優れたプラクティスを提案する。我々は最初のハリー・ポッターの本についての質問に答えるための様々な方法を探究する。
論文参考訳（メタデータ） (2024-01-15T18:25:18Z)
Prometheus: Inducing Fine-grained Evaluation Capability in Language Models [66.12432440863816]
我々は,GPT-4の評価能力に匹敵する,完全にオープンソースなLarge Language Model (LLM) であるPrometheusを提案する。プロメテウスは45種類の楽譜を用いた評価において、Pearsonの0.897の相関を人間の評価値と比較した。 Prometheusは2つの人間の選好ベンチマークで最も精度が高い。
論文参考訳（メタデータ） (2023-10-12T16:50:08Z)
QLoRA: Efficient Finetuning of Quantized LLMs [66.58009990713134]
我々は,48GBのGPU上で65Bパラメータモデルを微調整するのに十分なメモリ使用量を削減する,効率的な微調整手法QLoRAを提案する。 QLoRAは凍結した4ビット量子化事前学習言語モデルを通して低ランクアダプタ(LoRA)に逆伝搬する最高のモデルファミリであるGuanacoは、Vicunaベンチマークでリリースされたすべてのモデルより優れています。
論文参考訳（メタデータ） (2023-05-23T17:50:33Z)
QA4QG: Using Question Answering to Constrain Multi-Hop Question Generation [54.136509061542775]
マルチホップ質問生成(MQG)は、入力パスの複数の情報に対する推論を必要とする複雑な質問を生成することを目的としている。 MQGのためのQA強化BARTベースのフレームワークであるQA4QGを提案する。 HotpotQAデータセットの結果は、QA4QGがすべての最先端モデルより優れていることを示している。
論文参考訳（メタデータ） (2022-02-14T08:16:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。