論文の概要: LaRA: Benchmarking Retrieval-Augmented Generation and Long-Context LLMs - No Silver Bullet for LC or RAG Routing
- arxiv url: http://arxiv.org/abs/2502.09977v1
- Date: Fri, 14 Feb 2025 08:04:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-17 14:47:54.480812
- Title: LaRA: Benchmarking Retrieval-Augmented Generation and Long-Context LLMs - No Silver Bullet for LC or RAG Routing
- Title(参考訳): LaRA: Retrieval-Augmented GenerationとLong-Context LLMのベンチマーク
- Authors: Kuan Li, Liwen Zhang, Yong Jiang, Pengjun Xie, Fei Huang, Shuai Wang, Minhao Cheng,
- Abstract要約: 本稿では,RAGとLC LLMを厳格に比較するための新しいベンチマークであるLaRAを提案する。
LaRAは4つのQAタスクカテゴリと3種類の自然発生長文を対象とした2,326のテストケースを含んでいる。
RAGとLCの最適選択は,モデルのパラメータサイズ,長文機能,コンテキスト長,タスクタイプ,取得したチャンクの特性など,複雑な相互作用に依存する。
- 参考スコア(独自算出の注目度): 70.35888047551643
- License:
- Abstract: Effectively incorporating external knowledge into Large Language Models (LLMs) is crucial for enhancing their capabilities and addressing real-world needs. Retrieval-Augmented Generation (RAG) offers an effective method for achieving this by retrieving the most relevant fragments into LLMs. However, the advancements in context window size for LLMs offer an alternative approach, raising the question of whether RAG remains necessary for effectively handling external knowledge. Several existing studies provide inconclusive comparisons between RAG and long-context (LC) LLMs, largely due to limitations in the benchmark designs. In this paper, we present LaRA, a novel benchmark specifically designed to rigorously compare RAG and LC LLMs. LaRA encompasses 2,326 test cases across four practical QA task categories and three types of naturally occurring long texts. Through systematic evaluation of seven open-source and four proprietary LLMs, we find that the optimal choice between RAG and LC depends on a complex interplay of factors, including the model's parameter size, long-text capabilities, context length, task type, and the characteristics of the retrieved chunks. Our findings provide actionable guidelines for practitioners to effectively leverage both RAG and LC approaches in developing and deploying LLM applications. Our code and dataset is provided at: \href{https://github.com/likuanppd/LaRA}{\textbf{https://github.com/likuanppd/LaRA}}.
- Abstract(参考訳): LLM(Large Language Models)に外部知識を効果的に組み込むことは、その能力を高め、現実世界のニーズに対処するために重要である。
Retrieval-Augmented Generation (RAG)は、最も関連するフラグメントをLLMに検索することで、これを実現する効果的な方法を提供する。
しかし、LLMのコンテキストウィンドウサイズの向上は、外部知識を効果的に扱うのにRAGが必要であるかどうかという疑問を提起する別のアプローチを提供する。
いくつかの既存の研究は、RAGとLong-context (LC) LLMの非決定的な比較を提供している。
本稿では,RAGとLC LLMの厳密な比較を目的とした新しいベンチマークであるLaRAを提案する。
LaRAは4つのQAタスクカテゴリと3種類の自然発生長文を対象とした2,326のテストケースを含んでいる。
7つのオープンソースと4つの独自のLCMを体系的に評価することにより、RAGとLCの最適な選択は、モデルのパラメータサイズ、長文機能、コンテキスト長、タスクタイプ、検索したチャンクの特性など、複雑な相互作用に依存することがわかった。
本研究は, LLM アプリケーションの開発と展開において, RAG と LC の両アプローチを効果的に活用するための実用的なガイドラインを提供する。
コードとデータセットは以下の通りである。 \href{https://github.com/likuanppd/LaRA}{\textbf{https://github.com/likuanppd/LaRA}}。
関連論文リスト
- Optimizing Knowledge Integration in Retrieval-Augmented Generation with Self-Selection [72.92366526004464]
Retrieval-Augmented Generation (RAG) は、Large Language Models (LLM) がより正確で信頼性の高い応答を生成するのに有効であることが証明されている。
本稿では,自己選択型RAGフレームワークを提案する。このフレームワークでは,内部パラメトリック知識のみで生成されたペアの応答からLLMを選択できる。
論文 参考訳(メタデータ) (2025-02-10T04:29:36Z) - Eliciting In-context Retrieval and Reasoning for Long-context Large Language Models [27.217391392240113]
長文言語モデル(LCLM)は知識ベース全体を処理し、直接検索と推論を行うことができる。
LOFTのような既存のベンチマークは、過度に単純化されたコンテキストを提供することでLCLMのパフォーマンスを過大評価することが多い。
ICR2はLCLMをより現実的なシナリオで評価するベンチマークである。
次に, LCLMの性能向上のための3つの手法を提案する。(1) 検索-then-generate fine-tuning, (2) 注意頭を用いてデコード中の長いコンテキストをフィルタリング・復調する検索-attention-probing, (3) 生成ヘッドと併用した共同検索ヘッドトレーニング。
論文 参考訳(メタデータ) (2025-01-14T16:38:33Z) - Long Context vs. RAG for LLMs: An Evaluation and Revisits [41.27137478456755]
本稿は、このトピックに関する最近の研究を再考し、その重要な洞察と相違点を明らかにする。
LCは、特にウィキペディアベースの質問に対して、質問応答ベンチマークにおいてRAGよりも優れていた。
また,既存の研究における文脈関連性の重要性を概観する,詳細な議論もおこなう。
論文 参考訳(メタデータ) (2024-12-27T14:34:37Z) - LongRAG: A Dual-Perspective Retrieval-Augmented Generation Paradigm for Long-Context Question Answering [27.114593394058144]
LongRAGはLCQAのための汎用的で双対的かつ堅牢なLCMベースのRAGシステムパラダイムである。
LongRAGは長文LLM(6.94%増)、アドバンストRAG(6.16%増)、バニラRAG(17.25%増)を大きく上回る
論文 参考訳(メタデータ) (2024-10-23T17:24:58Z) - Control Large Language Models via Divide and Conquer [94.48784966256463]
本稿では,Lexically Constrained Generation(LCG)に着目し,大規模言語モデル(LLM)のプロンプトベース制御による制御可能生成について検討する。
我々は,レキシカル制約を満たすためのLLMの性能を,プロンプトベース制御により評価し,下流アプリケーションでの有効性を検証した。
論文 参考訳(メタデータ) (2024-10-06T21:20:06Z) - RAGLAB: A Modular and Research-Oriented Unified Framework for Retrieval-Augmented Generation [54.707460684650584]
大きな言語モデル(LLM)は対話、推論、知識保持における人間レベルの能力を示す。
現在の研究は、LLMに外部知識を組み込むことによって、このボトルネックに対処している。
RAGLABはモジュール的で研究指向のオープンソースライブラリで、6つの既存のアルゴリズムを再現し、RAGアルゴリズムを調査するための包括的なエコシステムを提供する。
論文 参考訳(メタデータ) (2024-08-21T07:20:48Z) - Retrieval Augmented Generation or Long-Context LLMs? A Comprehensive Study and Hybrid Approach [26.02167477129771]
Retrieval Augmented Generation (RAG) は、Large Language Models (LLM) において、過度に長いコンテキストを効率的に処理するための強力なツールである。
RAGとLong-context (LC) LLMを比較し,両者の強みを活用することを目的とした。
本稿では, モデル自己回帰に基づいて, クエリをRAGやLCにルーティングする, 単純かつ効果的な手法であるSelf-Routeを提案する。
論文 参考訳(メタデータ) (2024-07-23T20:51:52Z) - Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。
実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。
以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文 参考訳(メタデータ) (2024-06-19T00:28:58Z) - Improving Retrieval for RAG based Question Answering Models on Financial Documents [0.046603287532620746]
本稿では,RAGパイプラインの既存の制約について検討し,テキスト検索の方法を紹介する。
高度なチャンキングテクニック、クエリ拡張、メタデータアノテーションの組み込み、再ランク付けアルゴリズムの適用、埋め込みアルゴリズムの微調整などの戦略を練っている。
論文 参考訳(メタデータ) (2024-03-23T00:49:40Z) - Unsupervised Information Refinement Training of Large Language Models for Retrieval-Augmented Generation [128.01050030936028]
InFO-RAG という情報改質訓練手法を提案する。
InFO-RAGは低コストで、様々なタスクにまたがっている。
LLaMA2の性能を平均9.39%向上させる。
論文 参考訳(メタデータ) (2024-02-28T08:24:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。