Fugu-MT 論文翻訳(概要): Retrieval Augmented Generation or Long-Context LLMs? A Comprehensive Study and Hybrid Approach

論文の概要: Retrieval Augmented Generation or Long-Context LLMs? A Comprehensive Study and Hybrid Approach

arxiv url: http://arxiv.org/abs/2407.16833v2
Date: Thu, 17 Oct 2024 17:51:19 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-08 15:23:20.929351
Title: Retrieval Augmented Generation or Long-Context LLMs? A Comprehensive Study and Hybrid Approach
Title（参考訳）: 検索用拡張ジェネレーションと長期LLM : 総合的研究とハイブリッドアプローチ
Authors: Zhuowan Li, Cheng Li, Mingyang Zhang, Qiaozhu Mei, Michael Bendersky,
Abstract要約: Retrieval Augmented Generation (RAG) は、Large Language Models (LLM) において、過度に長いコンテキストを効率的に処理するための強力なツールである。 RAGとLong-context (LC) LLMを比較し,両者の強みを活用することを目的とした。本稿では, モデル自己回帰に基づいて, クエリをRAGやLCにルーティングする, 単純かつ効果的な手法であるSelf-Routeを提案する。
参考スコア（独自算出の注目度）: 26.02167477129771
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Retrieval Augmented Generation (RAG) has been a powerful tool for Large Language Models (LLMs) to efficiently process overly lengthy contexts. However, recent LLMs like Gemini-1.5 and GPT-4 show exceptional capabilities to understand long contexts directly. We conduct a comprehensive comparison between RAG and long-context (LC) LLMs, aiming to leverage the strengths of both. We benchmark RAG and LC across various public datasets using three latest LLMs. Results reveal that when resourced sufficiently, LC consistently outperforms RAG in terms of average performance. However, RAG's significantly lower cost remains a distinct advantage. Based on this observation, we propose Self-Route, a simple yet effective method that routes queries to RAG or LC based on model self-reflection. Self-Route significantly reduces the computation cost while maintaining a comparable performance to LC. Our findings provide a guideline for long-context applications of LLMs using RAG and LC.
Abstract（参考訳）: Retrieval Augmented Generation (RAG) は、Large Language Models (LLM) において、過度に長いコンテキストを効率的に処理するための強力なツールである。しかし、Gemini-1.5 や GPT-4 のような最近の LLM は、長いコンテキストを直接理解する特別な能力を示している。我々は,RAGとLong-context (LC) LLMの総合的な比較を行い,両者の強みを活用することを目的とした。 3つの最新のLCMを用いて、様々な公開データセットにわたってRAGとLCをベンチマークする。その結果,資源が十分に確保された場合,LCは平均性能において常にRAGを上回っていることがわかった。しかしながら、RAGの大幅なコスト削減は、依然として明らかな優位性である。そこで本研究では,モデル自己回帰に基づいてクエリをRAGやLCにルーティングする,単純かつ効果的な手法であるSelf-Routeを提案する。 Self-RouteはLCに匹敵する性能を維持しながら計算コストを大幅に削減する。本研究は,RAGとLCを用いたLLMの長期利用に関するガイドラインを提供する。

関連論文リスト

Direct Retrieval-augmented Optimization: Synergizing Knowledge Selection and Language Models [83.8639566087953]
本稿では,2つの主要コンポーネントのエンドツーエンドトレーニングを可能にするDROという,直接検索拡張最適化フレームワークを提案する。 DROは、 (i) 文書置換推定と (ii) 再重み付けされ、段階的に改善されたRAGコンポーネントの2つのフェーズの間で交代する。理論解析により,DROは強化学習における政策段階的な手法に類似していることが明らかとなった。
論文参考訳（メタデータ） (2025-05-05T23:54:53Z)
U-NIAH: Unified RAG and LLM Evaluation for Long Context Needle-In-A-Haystack [9.760456105567078]
本稿では,Large Language Models(LLM)とRetrieval-Augmented Generation(RAG)を体系的に比較する統一フレームワークであるU-NIAHを紹介する。本フレームワークでは,複数のニードル,長いニードル,ニードルの設定を,異なる検索設定とともに組み込んでいる。以上の結果から,RAGはロスト・イン・ザ・ミドル効果を緩和し,ロバスト性を向上させることにより,より小さなLCMを著しく向上させることが明らかとなった。
論文参考訳（メタデータ） (2025-03-01T05:05:24Z)
RAPID: Long-Context Inference with Retrieval-Augmented Speculative Decoding [7.785459677641105]
LLM(Long-context Large Language Model)は、従来の検索拡張世代(RAG)に代わる有望な代替手段を提供する。本稿ではRAPID(Retrieval-Augmented Speculative Decoding)を提案する。提案手法は,計算効率を維持しつつ,同一スケールあるいはそれ以上のLLMをRAGドラフトとして機能させる,新たなパラダイムを実現する。
論文参考訳（メタデータ） (2025-02-27T17:59:36Z)
LaRA: Benchmarking Retrieval-Augmented Generation and Long-Context LLMs -- No Silver Bullet for LC or RAG Routing [70.35888047551643]
本稿では,RAGとLC LLMを厳格に比較するための新しいベンチマークであるLaRAを提案する。 LaRAは4つのQAタスクカテゴリと3種類の自然発生長文の2326のテストケースを含んでいる。 RAGとLCの最適選択は,モデルのパラメータサイズ,長文機能,コンテキスト長,タスクタイプ,取得したチャンクの特性など,複雑な相互作用に依存する。
論文参考訳（メタデータ） (2025-02-14T08:04:22Z)
Eliciting In-context Retrieval and Reasoning for Long-context Large Language Models [27.217391392240113]
長文言語モデル(LCLM)は知識ベース全体を処理し、直接検索と推論を行うことができる。 LOFTのような既存のベンチマークは、過度に単純化されたコンテキストを提供することでLCLMのパフォーマンスを過大評価することが多い。 ICR2はLCLMをより現実的なシナリオで評価するベンチマークである。次に, LCLMの性能向上のための3つの手法を提案する。(1) 検索-then-generate fine-tuning, (2) 注意頭を用いてデコード中の長いコンテキストをフィルタリング・復調する検索-attention-probing, (3) 生成ヘッドと併用した共同検索ヘッドトレーニング。
論文参考訳（メタデータ） (2025-01-14T16:38:33Z)
LLMSteer: Improving Long-Context LLM Inference by Steering Attention on Reused Contexts [2.0384661785620466]
LLMSteerは,クエリに依存しないアテンションステアリングを通じて,大規模言語モデル(LLM)を強化する,微調整不要なフレームワークである。 LLMSteerは人気のあるLLMとデータセットでテストされ、ベースラインでパフォーマンスギャップを65.9%縮小し、実行時の遅延を4.8倍に削減した。
論文参考訳（メタデータ） (2024-11-20T03:17:51Z)
Long Context RAG Performance of Large Language Models [29.7557824450885]
大規模言語モデル(LLM)の精度を高める重要な手法として、検索拡張生成(RAG)が登場している。本稿では, コンテクスト長の増大が, 20のオープンソースおよび商用LLMにおけるRAG性能に与える影響について検討する。
論文参考訳（メタデータ） (2024-11-05T22:37:43Z)
Provenance: A Light-weight Fact-checker for Retrieval Augmented LLM Generation Output [49.893971654861424]
検索強化生成(RAG)から非実効出力を検出する軽量な手法を提案する。私たちは、二項決定を下すためにしきい値にできる事実性スコアを計算します。実験の結果, ROC曲線 (AUC) の下では, 関連するオープンソースデータセットの広範囲にわたって高い面積を示すことができた。
論文参考訳（メタデータ） (2024-11-01T20:44:59Z)
LongRAG: A Dual-Perspective Retrieval-Augmented Generation Paradigm for Long-Context Question Answering [27.114593394058144]
LongRAGはLCQAのための汎用的で双対的かつ堅牢なLCMベースのRAGシステムパラダイムである。 LongRAGは長文LLM(6.94%増)、アドバンストRAG(6.16%増)、バニラRAG(17.25%増)を大きく上回る
論文参考訳（メタデータ） (2024-10-23T17:24:58Z)
AlphaPruning: Using Heavy-Tailed Self Regularization Theory for Improved Layer-wise Pruning of Large Language Models [94.82766517752418]
そこで我々は,AlphaPruningを提案する。このAlphaPruningは,より理論的に原理化された方法で,水平方向の空間比を割り振る。以上よりAlphaPruning prunes LLaMA-7B to 80% sparsity while maintain well perplexity, marking a first in the literature on LLMs。
論文参考訳（メタデータ） (2024-10-14T03:35:11Z)
Control Large Language Models via Divide and Conquer [94.48784966256463]
本稿では,Lexically Constrained Generation(LCG)に着目し,大規模言語モデル(LLM)のプロンプトベース制御による制御可能生成について検討する。我々は,レキシカル制約を満たすためのLLMの性能を,プロンプトベース制御により評価し,下流アプリケーションでの有効性を検証した。
論文参考訳（メタデータ） (2024-10-06T21:20:06Z)
Role-RL: Online Long-Context Processing with Role Reinforcement Learning for Distinct LLMs in Their Optimal Roles [13.64363652226897]
長いコンテキスト処理を持つ大規模言語モデル(LLM)は、実装の複雑さ、訓練効率、データの分散性のために、依然として難しい。オンラインLong-Context Processing(OLP)は、無制限のドキュメントを処理する際に提案されるもので、通常は、自動ニュースレポーティング、ライブeコマース、バイラルショートビデオなどの多様なストリーミングメディアの情報受信と組織化に発生する。また,OLPパイプライン内の各ロールに,実際の性能に応じて異なるLLMを自動デプロイする役割強化学習(Role-RL)を開発した。
論文参考訳（メタデータ） (2024-09-26T16:22:59Z)
In Defense of RAG in the Era of Long-Context Language Models [17.397639724806364]
Retrieval-augmented Generation (RAG) は、過去においてコンテキストベースの回答生成の信頼性の高いソリューションである。近年の研究では、長文LLMは長文アプリケーションにおいてRAGを著しく上回っていることが示されている。本稿では,長文質問応答アプリケーションにおけるRAGの性能を大幅に向上させる命令保存検索拡張生成(OP-RAG)機構を提案する。
論文参考訳（メタデータ） (2024-09-03T07:17:41Z)
Speculative RAG: Enhancing Retrieval Augmented Generation through Drafting [68.90949377014742]
Speculative RAG(投機的RAG)は、より大規模なジェネラリストLMを利用して、より小さな蒸留専門のLMによって並列に生成された複数のRAGドラフトを効率よく検証するフレームワークである。提案手法は,より小さな専門家のLMにドラフト作成を委譲することでRAGを加速し,より大きなジェネラリストのLMがドラフトに1回の検証パスを実行する。 PubHealthの従来のRAGシステムと比較して、レイテンシを51%削減しながら、最大12.97%の精度向上を実現している。
論文参考訳（メタデータ） (2024-07-11T06:50:19Z)
DARG: Dynamic Evaluation of Large Language Models via Adaptive Reasoning Graph [70.79413606968814]
本稿では,適応推論グラフ展開(DARG)によるLCMの動的評価を導入し,複雑性と多様性を制御した現在のベンチマークを動的に拡張する。具体的には、まず現在のベンチマークでデータポイントの推論グラフを抽出し、それから推論グラフを摂動させて新しいテストデータを生成する。このような新しく生成されたテストサンプルは、元のベンチマークと同様の言語的多様性を維持しながら、複雑さのレベルが異なる可能性がある。
論文参考訳（メタデータ） (2024-06-25T04:27:53Z)
Unsupervised Information Refinement Training of Large Language Models for Retrieval-Augmented Generation [128.01050030936028]
InFO-RAG という情報改質訓練手法を提案する。 InFO-RAGは低コストで、様々なタスクにまたがっている。 LLaMA2の性能を平均9.39%向上させる。
論文参考訳（メタデータ） (2024-02-28T08:24:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。