Fugu-MT 論文翻訳(概要): RankRAG: Unifying Context Ranking with Retrieval-Augmented Generation in LLMs

論文の概要: RankRAG: Unifying Context Ranking with Retrieval-Augmented Generation in LLMs

arxiv url: http://arxiv.org/abs/2407.02485v1
Date: Tue, 2 Jul 2024 17:59:17 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-03 14:17:26.445955
Title: RankRAG: Unifying Context Ranking with Retrieval-Augmented Generation in LLMs
Title（参考訳）: RankRAG:LLMにおける検索拡張世代によるコンテキストランキングの統合
Authors: Yue Yu, Wei Ping, Zihan Liu, Boxin Wang, Jiaxuan You, Chao Zhang, Mohammad Shoeybi, Bryan Catanzaro,
Abstract要約: 大規模言語モデル(LLM)は、通常、検索拡張生成(RAG)において、レトリバーからトップkコンテキストを利用する。本稿では,RAGにおける文脈ランク付けと回答生成の両目的のために,単一のLLMをチューニング可能な新しい命令微調整フレームワークであるRanRAGを提案する。例えば、GPT-4-0613, GPT-4-turbo-2024-0409, ChatQA-1.5, RAGベンチマークの最先端性能を備えたオープンソースモデルなどである。
参考スコア（独自算出の注目度）: 60.38044044203333
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) typically utilize the top-k contexts from a retriever in retrieval-augmented generation (RAG). In this work, we propose a novel instruction fine-tuning framework RankRAG, which instruction-tunes a single LLM for the dual purpose of context ranking and answer generation in RAG. In particular, the instruction-tuned LLMs work surprisingly well by adding a small fraction of ranking data into the training blend, and outperform existing expert ranking models, including the same LLM exclusively fine-tuned on a large amount of ranking data. For generation, we compare our model with many strong baselines, including GPT-4-0613, GPT-4-turbo-2024-0409, and ChatQA-1.5, an open-sourced model with the state-of-the-art performance on RAG benchmarks. Specifically, our Llama3-RankRAG significantly outperforms Llama3-ChatQA-1.5 and GPT-4 models on nine knowledge-intensive benchmarks. In addition, it also performs comparably to GPT-4 on five RAG benchmarks in the biomedical domain without instruction fine-tuning on biomedical data, demonstrating its superb capability for generalization to new domains.
Abstract（参考訳）: 大規模言語モデル(LLM)は、通常、検索拡張生成(RAG)において、レトリバーからトップkコンテキストを利用する。本研究では,RAGにおける文脈ランク付けと回答生成の両目的のために,単一のLLMを命令チューニングする新しい命令微調整フレームワークであるRanRAGを提案する。特に、トレーニングブレンドに少数のランキングデータを追加することで、命令調整 LLM が驚くほどうまく機能し、大量のランキングデータにのみ微調整された同じ LLM を含む既存の専門家ランキングモデルよりも優れている。例えば、GPT-4-0613, GPT-4-turbo-2024-0409, ChatQA-1.5, RAGベンチマークの最先端性能を備えたオープンソースモデルなどである。具体的には、Llama3-RankRAGは9つの知識集約ベンチマークでLlama3-ChatQA-1.5とGPT-4モデルより大幅に優れています。さらに、生物医学領域の5つのRAGベンチマークにおいて、生物医学データの微調整を指示することなく、GPT-4と同等に動作し、新しい領域への一般化能力を示す。

関連論文リスト

Even Small Reasoners Should Quote Their Sources: Introducing the Pleias-RAG Model Family [6.201126992242438]
Pleias-RAG-350m と Pleias-RAG-1B は,大規模合成データセット上で中間学習を行う。引用と接地をリテラルでサポートし、RAGに関連する複数の機能を再統合する。ヨーロッパの主要言語間で一貫したRAG性能を維持している唯一のSLMである。
論文参考訳（メタデータ） (2025-04-25T10:17:04Z)
Toward General Instruction-Following Alignment for Retrieval-Augmented Generation [63.611024451010316]
Retrieval-Augmented Generation (RAG) システムの効果的な適用には、自然な指示に従うことが不可欠である。 RAGシステムにおける命令追従アライメントのための,最初の自動化,拡張性,検証可能な合成パイプラインであるVIF-RAGを提案する。
論文参考訳（メタデータ） (2024-10-12T16:30:51Z)
SFR-RAG: Towards Contextually Faithful LLMs [57.666165819196486]
Retrieval Augmented Generation (RAG) は、外部コンテキスト情報を大言語モデル(LLM)と統合し、事実の精度と妥当性を高めるパラダイムである。 SFR-RAG(SFR-RAG)について述べる。また、複数の人気かつ多様なRAGベンチマークをコンパイルする新しい評価フレームワークであるConBenchについても紹介する。
論文参考訳（メタデータ） (2024-09-16T01:08:18Z)
Performance of the Pre-Trained Large Language Model GPT-4 on Automated Short Answer Grading [0.0]
SciEntsBank と Beetle の標準ベンチマーク2-way および 3-way データセットにおける GPT-4 の性能について検討した。プレトレーニングされた汎用GPT-4 LLMの性能は手技のモデルに匹敵するが,専門訓練を施したLLMよりは劣ることがわかった。
論文参考訳（メタデータ） (2023-09-17T18:04:34Z)
Large Language Models are Effective Text Rankers with Pairwise Ranking Prompting [65.00288634420812]
Pairwise Ranking Prompting (PRP)は、大規模言語モデル(LLM)の負担を大幅に軽減する手法である。本研究は,中等級のオープンソースLCMを用いた標準ベンチマークにおいて,最先端のランク付け性能を達成した文献としては初めてである。
論文参考訳（メタデータ） (2023-06-30T11:32:25Z)
Is ChatGPT Good at Search? Investigating Large Language Models as Re-Ranking Agents [56.104476412839944]
大規模言語モデル(LLM)は、様々な言語関連タスクにまたがる顕著なゼロショットの一般化を実証している。本稿では、情報検索(IR)における関連性ランキングのためのジェネレーティブLLMについて検討する。 LLMのデータ汚染に関する懸念に対処するため,我々はNovereEvalという新しいテストセットを収集した。実世界のアプリケーションの効率を向上させるため、ChatGPTのランキング能力を小さな特殊モデルに蒸留する可能性を探る。
論文参考訳（メタデータ） (2023-04-19T10:16:03Z)
Instruction Tuning with GPT-4 [107.55078894215798]
本稿では, GPT-4を用いて命令追従データを生成し, 大規模言語モデルを微調整する試みについて述べる。命令調整型LLaMAモデルの初期実験では、52Kの英語と中国語の命令追従データがGPT-4によって生成され、新しいタスクにおけるゼロショット性能が向上することが示された。
論文参考訳（メタデータ） (2023-04-06T17:58:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。