論文の概要: Long Context RAG Performance of Large Language Models
- arxiv url: http://arxiv.org/abs/2411.03538v1
- Date: Tue, 05 Nov 2024 22:37:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-07 19:24:32.443045
- Title: Long Context RAG Performance of Large Language Models
- Title(参考訳): 大規模言語モデルにおけるLong Context RAG性能
- Authors: Quinn Leng, Jacob Portes, Sam Havens, Matei Zaharia, Michael Carbin,
- Abstract要約: 大規模言語モデル(LLM)の精度を高める重要な手法として、検索拡張生成(RAG)が登場している。
本稿では, コンテクスト長の増大が, 20のオープンソースおよび商用LLMにおけるRAG性能に与える影響について検討する。
- 参考スコア(独自算出の注目度): 29.7557824450885
- License:
- Abstract: Retrieval Augmented Generation (RAG) has emerged as a crucial technique for enhancing the accuracy of Large Language Models (LLMs) by incorporating external information. With the advent of LLMs that support increasingly longer context lengths, there is a growing interest in understanding how these models perform in RAG scenarios. Can these new long context models improve RAG performance? This paper presents a comprehensive study of the impact of increased context length on RAG performance across 20 popular open source and commercial LLMs. We ran RAG workflows while varying the total context length from 2,000 to 128,000 tokens (and 2 million tokens when possible) on three domain-specific datasets, and report key insights on the benefits and limitations of long context in RAG applications. Our findings reveal that while retrieving more documents can improve performance, only a handful of the most recent state of the art LLMs can maintain consistent accuracy at long context above 64k tokens. We also identify distinct failure modes in long context scenarios, suggesting areas for future research.
- Abstract(参考訳): 大規模言語モデル (LLMs) の精度を高めるため, 外部情報を組み込んだ検索拡張生成 (RAG) が重要な技術として出現している。
より長いコンテキスト長をサポートするLLMの出現に伴い、これらのモデルがRAGシナリオでどのように機能するかを理解することへの関心が高まっている。
これらの新しいロングコンテキストモデルはRAGのパフォーマンスを向上させることができるか?
本稿では, コンテクスト長の増大がRAG性能に与える影響を, 20のオープンソースおよび商用LCMで総合的に検討する。
RAGのワークフローを実行し、3つのドメイン固有のデータセットで2,000から128,000トークン(可能ならば200万トークン)の合計コンテキスト長を変更しながら、RAGアプリケーションの長コンテキストのメリットと制限に関する重要な洞察を報告しました。
以上の結果から,64k トークン以上の長いコンテキストで一貫した精度を維持することが可能なのは,最新の LLM のごく一部に過ぎないことが判明した。
また、長期のシナリオで異なる障害モードを特定し、将来の研究の分野を提案する。
関連論文リスト
- LaRA: Benchmarking Retrieval-Augmented Generation and Long-Context LLMs - No Silver Bullet for LC or RAG Routing [70.35888047551643]
本稿では,RAGとLC LLMを厳格に比較するための新しいベンチマークであるLaRAを提案する。
LaRAは4つのQAタスクカテゴリと3種類の自然発生長文を対象とした2,326のテストケースを含んでいる。
RAGとLCの最適選択は,モデルのパラメータサイズ,長文機能,コンテキスト長,タスクタイプ,取得したチャンクの特性など,複雑な相互作用に依存する。
論文 参考訳(メタデータ) (2025-02-14T08:04:22Z) - LongRAG: A Dual-Perspective Retrieval-Augmented Generation Paradigm for Long-Context Question Answering [27.114593394058144]
LongRAGはLCQAのための汎用的で双対的かつ堅牢なLCMベースのRAGシステムパラダイムである。
LongRAGは長文LLM(6.94%増)、アドバンストRAG(6.16%増)、バニラRAG(17.25%増)を大きく上回る
論文 参考訳(メタデータ) (2024-10-23T17:24:58Z) - Graph of Records: Boosting Retrieval Augmented Generation for Long-context Summarization with Graphs [12.878608250420832]
長文大域要約のためのRAGを強化するために,レコードのテキストグラフ(textbfGoR)を提案する。
RAG のtextitretrieve-then-generate パラダイムに着想を得て,検索したテキストチャンクと対応する LLM 生成応答のエッジを確立することでグラフを構築する。
それら間の複雑な相関関係を明らかにするために、GoRは、テキストトグラフニューラルネットワークと、自己教師型モデルトレーニングのための、精巧に設計されたTextitBERTScoreベースの目的を特徴としている。
論文 参考訳(メタデータ) (2024-10-14T18:34:29Z) - In Defense of RAG in the Era of Long-Context Language Models [17.397639724806364]
Retrieval-augmented Generation (RAG) は、過去においてコンテキストベースの回答生成の信頼性の高いソリューションである。
近年の研究では、長文LLMは長文アプリケーションにおいてRAGを著しく上回っていることが示されている。
本稿では,長文質問応答アプリケーションにおけるRAGの性能を大幅に向上させる命令保存検索拡張生成(OP-RAG)機構を提案する。
論文 参考訳(メタデータ) (2024-09-03T07:17:41Z) - ChatQA 2: Bridging the Gap to Proprietary LLMs in Long Context and RAG Capabilities [53.97515452727115]
ChatQA 2は、128Kコンテキストウィンドウを備えたLlama 3.0ベースのモデルである。
Llama3-70Bベースのコンテキストウィンドウを8Kから128Kまで拡張するためのトレーニングレシピを提案する。
RAGを用いた長文LLMの性能は,多数のチャンクを検索した場合に向上することがわかった。
論文 参考訳(メタデータ) (2024-07-19T17:35:47Z) - Leave No Document Behind: Benchmarking Long-Context LLMs with Extended Multi-Doc QA [71.04146366608904]
長いコンテキストモデリング能力は広く注目を集めており、超コンテキストウィンドウを持つLarge Language Models (LLMs) の出現につながっている。
拡張多文書質問応答(QA)によって現実的なシナリオに整合する新しい長文ベンチマークであるLoongを提案する。
Loong氏は、Spotlight Locating, Comparison, Clustering, Chain of Reasoningという、コンテキスト長の4つのタスクを紹介している。
論文 参考訳(メタデータ) (2024-06-25T09:42:56Z) - Ada-LEval: Evaluating long-context LLMs with length-adaptable benchmarks [76.43527940649939]
大規模言語モデル(LLM)の長文理解を評価するベンチマークであるAda-LEvalを紹介する。
Ada-LEvalにはTSortとBestAnswerという2つの挑戦的なサブセットが含まれている。
Ada-LEvalを用いた4つの最先端クローズドソースAPIモデルと6つのオープンソースモデルを評価した。
論文 参考訳(メタデータ) (2024-04-09T17:30:48Z) - Unsupervised Information Refinement Training of Large Language Models for Retrieval-Augmented Generation [128.01050030936028]
InFO-RAG という情報改質訓練手法を提案する。
InFO-RAGは低コストで、様々なタスクにまたがっている。
LLaMA2の性能を平均9.39%向上させる。
論文 参考訳(メタデータ) (2024-02-28T08:24:38Z) - CRUD-RAG: A Comprehensive Chinese Benchmark for Retrieval-Augmented Generation of Large Language Models [49.16989035566899]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)の能力を高める技術である。
本稿では,大規模かつ包括的なベンチマークを構築し,様々なRAGアプリケーションシナリオにおけるRAGシステムのすべてのコンポーネントを評価する。
論文 参考訳(メタデータ) (2024-01-30T14:25:32Z) - LooGLE: Can Long-Context Language Models Understand Long Contexts? [46.143956498529796]
LooGLEは、大規模言語モデルの長いコンテキスト理解のためのベンチマークである。
2022年以降に比較的新しい文書が登場し、1ドキュメントあたり24,000以上のトークンと、さまざまな領域にまたがる6,000の新たな質問が提供されている。
LooGLEにおける8つの最先端LCMの評価から,重要な所見が得られた。
論文 参考訳(メタデータ) (2023-11-08T01:45:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。