論文の概要: Inference Scaling for Long-Context Retrieval Augmented Generation
- arxiv url: http://arxiv.org/abs/2410.04343v1
- Date: Sun, 6 Oct 2024 03:42:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 08:20:17.242974
- Title: Inference Scaling for Long-Context Retrieval Augmented Generation
- Title(参考訳): 長期検索拡張生成のための推論スケーリング
- Authors: Zhenrui Yue, Honglei Zhuang, Aijun Bai, Kai Hui, Rolf Jagerman, Hansi Zeng, Zhen Qin, Dong Wang, Xuanhui Wang, Michael Bendersky,
- Abstract要約: 本研究では,検索拡張生成(RAG)のための推論スケーリングについて検討する。
インコンテキスト学習と反復的プロンプトという,2つの推論スケーリング戦略に注目します。
我々は、長期コンテキストの大規模言語モデル上での推論計算のスケーリングが、ベンチマークデータセットで最大58.9%のゲインを達成することを実証した。
- 参考スコア(独自算出の注目度): 37.15479223789199
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The scaling of inference computation has unlocked the potential of long-context large language models (LLMs) across diverse settings. For knowledge-intensive tasks, the increased compute is often allocated to incorporate more external knowledge. However, without effectively utilizing such knowledge, solely expanding context does not always enhance performance. In this work, we investigate inference scaling for retrieval augmented generation (RAG), exploring strategies beyond simply increasing the quantity of knowledge. We focus on two inference scaling strategies: in-context learning and iterative prompting. These strategies provide additional flexibility to scale test-time computation (e.g., by increasing retrieved documents or generation steps), thereby enhancing LLMs' ability to effectively acquire and utilize contextual information. We address two key questions: (1) How does RAG performance benefit from the scaling of inference computation when optimally configured? (2) Can we predict the optimal test-time compute allocation for a given budget by modeling the relationship between RAG performance and inference parameters? Our observations reveal that increasing inference computation leads to nearly linear gains in RAG performance when optimally allocated, a relationship we describe as the inference scaling laws for RAG. Building on this, we further develop the computation allocation model to estimate RAG performance across different inference configurations. The model predicts optimal inference parameters under various computation constraints, which align closely with the experimental results. By applying these optimal configurations, we demonstrate that scaling inference compute on long-context LLMs achieves up to 58.9% gains on benchmark datasets compared to standard RAG.
- Abstract(参考訳): 推論計算のスケーリングにより、様々な設定にまたがるLong-context Large Language Model (LLM)の可能性が解き放たれた。
知識集約的なタスクでは、より多くの外部知識を組み込むために計算量が増加することがしばしばある。
しかし、そのような知識を効果的に活用しなければ、文脈を拡大するだけでは必ずしも性能が向上するとは限らない。
本研究では,検索拡張生成(RAG)における推論スケーリングについて検討し,単に知識量を増やす以上の戦略を探求する。
インコンテキスト学習と反復的プロンプトという,2つの推論スケーリング戦略に注目します。
これらの戦略は、テスト時間計算(例えば、検索した文書や生成ステップを増やすことで)をスケールするためのさらなる柔軟性を提供する。
1) RAG のパフォーマンスは、最適に設定された場合の推論計算のスケーリングからどのような恩恵を受けますか?
2) RAG 性能と推論パラメータの関係をモデル化することにより,与えられた予算に対する最適テスト時間計算割当を予測できるのか?
観測の結果,推定計算の増大は最適に割り当てた場合,RAGの性能がほぼ線形に向上することを示し,RAGの推論スケーリング法則として記述した。
これに基づいて、異なる推論構成におけるRAG性能を推定する計算割当モデルをさらに発展させる。
このモデルは、様々な計算制約の下で最適な推論パラメータを予測し、実験結果と密接に一致させる。
これらの最適構成を適用することで、長文LLMのスケーリング推論計算が標準RAGと比較してベンチマークデータセットで最大58.9%向上することを示す。
関連論文リスト
- Recursive Inference Scaling: A Winning Path to Scalable Inference in Language and Multimodal Systems [21.01887711305712]
本稿では,Recursive Inference Scaling (RINS) を,推論時間をスケーリングするための補完的なプラグインレシピとして紹介する。
与えられた固定モデルアーキテクチャとトレーニング計算予算のために、RINSは言語モデリングのパフォーマンスを大幅に改善する。
RINSは、SigLIP-B/16の0ショット画像Net精度を+2%改善するなど、マルチモーダルシステムでゲインを提供する。
論文 参考訳(メタデータ) (2025-02-11T12:11:40Z) - Value-Based Deep RL Scales Predictably [100.21834069400023]
本研究は, 地域社会が病的行動に不安を抱いているにもかかわらず, 価値に基づく非政治的RL法が予測可能であることを示す。
SAC、BRO、PQLの3つのアルゴリズムを使って、DeepMind Control、OpenAI gym、IsaacGymの3つのアプローチを検証する。
論文 参考訳(メタデータ) (2025-02-06T18:59:47Z) - Learning Provably Improves the Convergence of Gradient Descent [9.82454981262489]
本稿では,学習者によるL2O(Learning to Optimize)問題の収束について検討する。
アルゴリズムの接点により、L2Oの収束が著しく向上する。
以上の結果から,GD法では50%の成績を示した。
論文 参考訳(メタデータ) (2025-01-30T02:03:30Z) - Chain-of-Retrieval Augmented Generation [72.06205327186069]
本稿では,o1-like RAGモデルを学習し,最終回答を生成する前に段階的に関連情報を抽出・推論する手法を提案する。
提案手法であるCoRAGは,進化状態に基づいて動的にクエリを再構成する。
論文 参考訳(メタデータ) (2025-01-24T09:12:52Z) - Optimizing Sequential Recommendation Models with Scaling Laws and Approximate Entropy [104.48511402784763]
SRモデルの性能法則は,モデルの性能とデータ品質の関係を理論的に調査し,モデル化することを目的としている。
データ品質を評価するために、従来のデータ量メトリクスと比較して、より曖昧なアプローチを示すために、近似エントロピー(ApEn)を提案する。
論文 参考訳(メタデータ) (2024-11-30T10:56:30Z) - Enhancing Question Answering Precision with Optimized Vector Retrieval and Instructions [1.2425910171551517]
質問応答 (QA) は情報検索 (IR) と言語モデルの重要な応用である。
本稿では、最適化されたベクトル検索と命令手法を統合することにより、QAタスク性能を改善するための革新的なアプローチを提案する。
論文 参考訳(メタデータ) (2024-11-01T21:14:04Z) - AUCSeg: AUC-oriented Pixel-level Long-tail Semantic Segmentation [88.50256898176269]
画素レベルのAUC損失関数を開発し,アルゴリズムの一般化能力に関する依存性グラフに基づく理論的解析を行う。
また、重要なメモリ需要を管理するために、Tail-Classes Memory Bankを設計する。
論文 参考訳(メタデータ) (2024-09-30T15:31:02Z) - Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters [27.656263126925815]
LLMにおける推論時間計算のスケーリングについて検討する。
どちらの場合も、テスト時間計算のスケーリングに対する異なるアプローチの有効性は、プロンプトの難しさによって大きく異なることがわかった。
論文 参考訳(メタデータ) (2024-08-06T17:35:05Z) - Switchable Decision: Dynamic Neural Generation Networks [98.61113699324429]
本稿では,各データインスタンスのリソースを動的に割り当てることで,推論を高速化するスイッチブルな決定を提案する。
提案手法は, 同一の精度を維持しながら, 推論時のコスト低減に有効である。
論文 参考訳(メタデータ) (2024-05-07T17:44:54Z) - Target Variable Engineering [0.0]
数値的対象を予測するために訓練された回帰モデルの予測性能と、2項化対象を予測するために訓練された分類器を比較した。
回帰は最適性能に収束するためには、はるかに多くの計算作業を必要とする。
論文 参考訳(メタデータ) (2023-10-13T23:12:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。