論文の概要: SPARC-RAG: Adaptive Sequential-Parallel Scaling with Context Management for Retrieval-Augmented Generation
- arxiv url: http://arxiv.org/abs/2602.00083v1
- Date: Thu, 22 Jan 2026 20:18:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 02:03:42.349743
- Title: SPARC-RAG: Adaptive Sequential-Parallel Scaling with Context Management for Retrieval-Augmented Generation
- Title(参考訳): SPARC-RAG:Retrieval-Augmented Generationのためのコンテキスト管理による適応シーケンスパラメータスケーリング
- Authors: Yuxin Yang, Gangda Deng, Ömer Faruk Akgül, Nima Chitsazan, Yash Govilkar, Akasha Tigalappanavara, Shi-Xiong Zhang, Sambit Sahu, Viktor Prasanna,
- Abstract要約: Retrieval-Augmented Generationは、大規模な言語モデルのアウトプットを外部のエビデンスに根拠付けている。
最近の研究は、2つの相補的な次元に沿って推論時にRAGをスケールする。
逐次的および並列な推論時間スケーリングを協調するマルチエージェントフレームワークを提案する。
- 参考スコア(独自算出の注目度): 8.00733338569737
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieval-Augmented Generation (RAG) grounds large language model outputs in external evidence, but remains challenged on multi-hop question answering that requires long reasoning. Recent works scale RAG at inference time along two complementary dimensions: sequential depth for iterative refinement and parallel width for coverage expansion. However, naive scaling causes context contamination and scaling inefficiency, leading to diminishing or negative returns despite increased computation. To address these limitations, we propose SPARC-RAG, a multi-agent framework that coordinates sequential and parallel inference-time scaling under a unified context management mechanism. SPARC-RAG employs specialized agents that maintain a shared global context and provide explicit control over the scaling process. It generates targeted, complementary sub-queries for each branch to enable diverse parallel exploration, and explicitly regulates exiting decisions based on answer correctness and evidence grounding. To optimize scaling behavior, we further introduce a lightweight fine-tuning method with process-level verifiable preferences, which improves the efficiency of sequential scaling and effectiveness of parallel scaling. Across single- and multi-hop QA benchmarks, SPARC-RAG consistently outperforms previous RAG baselines, yielding an average +6.2 F1 improvement under lower inference cost.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG) は、大規模な言語モデルのアウトプットを外部のエビデンスに基礎を置いているが、長い推論を必要とするマルチホップ質問に対する回答に疑問を呈している。
最近の作業は2つの相補的な次元に沿って推算時間でRAGをスケールする。
しかし、単純なスケーリングは文脈の汚染と非効率なスケーリングを引き起こし、計算量の増加にもかかわらず減少または負のリターンをもたらす。
これらの制約に対処するため,SPARC-RAGを提案する。これはコンテキスト管理機構の統一の下で,逐次的および並列な推論時間スケーリングをコーディネートするマルチエージェントフレームワークである。
SPARC-RAGは、共有グローバルコンテキストを維持し、スケーリングプロセスに対する明示的な制御を提供する特殊なエージェントを採用している。
多様な並列探索を可能にするために、各ブランチに対してターゲットとなる補完的なサブクエリを生成し、回答の正しさと根拠に基づく出口決定を明示的に規制する。
スケーリングの動作を最適化するため,プロセスレベルの検証可能な選好を備えた軽量な微調整手法を導入し,シーケンシャルスケーリングの効率と並列スケーリングの有効性を向上させる。
シングルホップとマルチホップのQAベンチマークで、SPARC-RAGは従来のRAGベースラインを一貫して上回り、推論コストの低い平均+6.2 F1の改善をもたらす。
関連論文リスト
- Learning to Share: Selective Memory for Efficient Parallel Agentic Systems [49.78267008828593]
エージェントシステムは、反復的に推論する複数のエージェントを調整することで複雑なタスクを解決し、ツールを呼び出し、中間結果を交換する。
最近のアプローチでは、さまざまな推論の軌跡を探索するために、複数のエージェントチームが並行して運用されている。
我々は並列エージェントフレームワークのための学習された共有メモリ機構であるLearning to Share (LTS)を提案する。
論文 参考訳(メタデータ) (2026-02-05T18:20:21Z) - What If We Allocate Test-Time Compute Adaptively? [2.1713977971908944]
テストタイムスケーリングは、推論計算を均一に割り当て、固定されたサンプリング戦略を使用し、再ランク付けにのみ検証を適用する。
本稿では,推論を反復的軌跡生成と選択として扱う検証器誘導適応フレームワークを提案する。
データセット全体にわたって、当社の動的PRMガイダンスアプローチは、テスト時間の直接スケーリングよりも一貫して優れています。
論文 参考訳(メタデータ) (2026-02-01T07:30:22Z) - TreePS-RAG: Tree-based Process Supervision for Reinforcement Learning in Agentic RAG [71.06073770344732]
エージェント検索強化生成(RAG)は、推論と情報検索の多段階的な相互作用として質問応答を定式化する。
エージェントRAGのためのオンラインツリーベースRLフレームワークであるTreePS-RAGについて述べる。
論文 参考訳(メタデータ) (2026-01-11T14:07:30Z) - REFRAG: Rethinking RAG based Decoding [67.4862300145604]
REFRAGは効率的なデコードフレームワークで、RAGアプリケーションの遅延を圧縮し、感知し、拡張し、改善する。
本稿では,RAG,マルチターン会話,長期文書要約など,多種多様な長文タスクを対象としたREFRAGの厳密な検証を行う。
論文 参考訳(メタデータ) (2025-09-01T03:31:44Z) - HedraRAG: Coordinating LLM Generation and Database Retrieval in Heterogeneous RAG Serving [10.130938079844121]
HedraRAGはグラフベースの抽象化に基づいて構築されたランタイムシステムで、ステージレベルの並列性、要求内類似性、要求間歪性といった最適化の機会を公開する。
結果として発生する実行計画は、リソース使用率を改善し、レイテンシを低減するために、ハイブリッドCPU-GPUパイプラインにマップされる。
論文 参考訳(メタデータ) (2025-07-12T04:42:43Z) - Attributing Response to Context: A Jensen-Shannon Divergence Driven Mechanistic Study of Context Attribution in Retrieval-Augmented Generation [52.3707788779464]
我々は、コンテキストに対する属性応答(ARC-JSD)のための新しいJensen-Shannon Divergence駆動方式を提案する。
ARC-JSDは、追加の微調整、勾配計算、サロゲートモデリングなしで、重要な文脈文の効率的かつ正確な識別を可能にする。
TyDi QA, Hotpot QA, Musique など,様々なスケールの命令調整 LLM を用いたRAG ベンチマークの評価により,精度が向上し,計算効率が向上した。
論文 参考訳(メタデータ) (2025-05-22T09:04:03Z) - Accelerating Adaptive Retrieval Augmented Generation via Instruction-Driven Representation Reduction of Retrieval Overlaps [16.84310001807895]
本稿では,A-RAG法に適用可能なモデルに依存しないアプローチを提案する。
具体的には、キャッシュアクセスと並列生成を使用して、それぞれプリフィルとデコードステージを高速化する。
論文 参考訳(メタデータ) (2025-05-19T05:39:38Z) - Chain-of-Retrieval Augmented Generation [91.02950964802454]
本稿では,o1-like RAGモデルを学習し,最終回答を生成する前に段階的に関連情報を抽出・推論する手法を提案する。
提案手法であるCoRAGは,進化状態に基づいて動的にクエリを再構成する。
論文 参考訳(メタデータ) (2025-01-24T09:12:52Z) - COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。
我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。
当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文 参考訳(メタデータ) (2024-10-12T23:56:19Z) - Inference Scaling for Long-Context Retrieval Augmented Generation [37.15479223789199]
拡張推論計算は、長文大言語モデル(LLM)の可能性を解き放った
本研究では,文脈内学習や反復的プロンプトなど,知識の量を増やすこと以上の複数の戦略の組み合わせについて検討する。
長文LLMのスケーリング推論計算は、標準RAGと比較して、ベンチマークデータセットで58.9%向上することを示す。
論文 参考訳(メタデータ) (2024-10-06T03:42:15Z) - Sample-Efficient "Clustering and Conquer" Procedures for Parallel Large-Scale Ranking and Selection [3.913403111891027]
並列コンピューティングにおいてよく使われる「分割と征服」フレームワークを,相関に基づくクラスタリングのステップを追加して修正する。
この一見単純な修正は、広く使われているサンプル最適化R&Sプロシージャのクラスに対して、$mathcalO(p)$のサンプル複雑性の減少をもたらす。
ニューラルネットワーク探索のような大規模AIアプリケーションでは,本手法は優れた性能を示す。
論文 参考訳(メタデータ) (2024-02-03T15:56:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。