論文の概要: SPARC-RAG: Adaptive Sequential-Parallel Scaling with Context Management for Retrieval-Augmented Generation
- arxiv url: http://arxiv.org/abs/2602.00083v1
- Date: Thu, 22 Jan 2026 20:18:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 02:03:42.349743
- Title: SPARC-RAG: Adaptive Sequential-Parallel Scaling with Context Management for Retrieval-Augmented Generation
- Title(参考訳): SPARC-RAG:Retrieval-Augmented Generationのためのコンテキスト管理による適応シーケンスパラメータスケーリング
- Authors: Yuxin Yang, Gangda Deng, Ömer Faruk Akgül, Nima Chitsazan, Yash Govilkar, Akasha Tigalappanavara, Shi-Xiong Zhang, Sambit Sahu, Viktor Prasanna,
- Abstract要約: Retrieval-Augmented Generationは、大規模な言語モデルのアウトプットを外部のエビデンスに根拠付けている。
最近の研究は、2つの相補的な次元に沿って推論時にRAGをスケールする。
逐次的および並列な推論時間スケーリングを協調するマルチエージェントフレームワークを提案する。
- 参考スコア(独自算出の注目度): 8.00733338569737
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieval-Augmented Generation (RAG) grounds large language model outputs in external evidence, but remains challenged on multi-hop question answering that requires long reasoning. Recent works scale RAG at inference time along two complementary dimensions: sequential depth for iterative refinement and parallel width for coverage expansion. However, naive scaling causes context contamination and scaling inefficiency, leading to diminishing or negative returns despite increased computation. To address these limitations, we propose SPARC-RAG, a multi-agent framework that coordinates sequential and parallel inference-time scaling under a unified context management mechanism. SPARC-RAG employs specialized agents that maintain a shared global context and provide explicit control over the scaling process. It generates targeted, complementary sub-queries for each branch to enable diverse parallel exploration, and explicitly regulates exiting decisions based on answer correctness and evidence grounding. To optimize scaling behavior, we further introduce a lightweight fine-tuning method with process-level verifiable preferences, which improves the efficiency of sequential scaling and effectiveness of parallel scaling. Across single- and multi-hop QA benchmarks, SPARC-RAG consistently outperforms previous RAG baselines, yielding an average +6.2 F1 improvement under lower inference cost.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG) は、大規模な言語モデルのアウトプットを外部のエビデンスに基礎を置いているが、長い推論を必要とするマルチホップ質問に対する回答に疑問を呈している。
最近の作業は2つの相補的な次元に沿って推算時間でRAGをスケールする。
しかし、単純なスケーリングは文脈の汚染と非効率なスケーリングを引き起こし、計算量の増加にもかかわらず減少または負のリターンをもたらす。
これらの制約に対処するため,SPARC-RAGを提案する。これはコンテキスト管理機構の統一の下で,逐次的および並列な推論時間スケーリングをコーディネートするマルチエージェントフレームワークである。
SPARC-RAGは、共有グローバルコンテキストを維持し、スケーリングプロセスに対する明示的な制御を提供する特殊なエージェントを採用している。
多様な並列探索を可能にするために、各ブランチに対してターゲットとなる補完的なサブクエリを生成し、回答の正しさと根拠に基づく出口決定を明示的に規制する。
スケーリングの動作を最適化するため,プロセスレベルの検証可能な選好を備えた軽量な微調整手法を導入し,シーケンシャルスケーリングの効率と並列スケーリングの有効性を向上させる。
シングルホップとマルチホップのQAベンチマークで、SPARC-RAGは従来のRAGベースラインを一貫して上回り、推論コストの低い平均+6.2 F1の改善をもたらす。
関連論文リスト
- What If We Allocate Test-Time Compute Adaptively? [2.1713977971908944]
テストタイムスケーリングは、推論計算を均一に割り当て、固定されたサンプリング戦略を使用し、再ランク付けにのみ検証を適用する。
本稿では,推論を反復的軌跡生成と選択として扱う検証器誘導適応フレームワークを提案する。
データセット全体にわたって、当社の動的PRMガイダンスアプローチは、テスト時間の直接スケーリングよりも一貫して優れています。
論文 参考訳(メタデータ) (2026-02-01T07:30:22Z) - TreePS-RAG: Tree-based Process Supervision for Reinforcement Learning in Agentic RAG [71.06073770344732]
エージェント検索強化生成(RAG)は、推論と情報検索の多段階的な相互作用として質問応答を定式化する。
エージェントRAGのためのオンラインツリーベースRLフレームワークであるTreePS-RAGについて述べる。
論文 参考訳(メタデータ) (2026-01-11T14:07:30Z) - Attributing Response to Context: A Jensen-Shannon Divergence Driven Mechanistic Study of Context Attribution in Retrieval-Augmented Generation [52.3707788779464]
我々は、コンテキストに対する属性応答(ARC-JSD)のための新しいJensen-Shannon Divergence駆動方式を提案する。
ARC-JSDは、追加の微調整、勾配計算、サロゲートモデリングなしで、重要な文脈文の効率的かつ正確な識別を可能にする。
TyDi QA, Hotpot QA, Musique など,様々なスケールの命令調整 LLM を用いたRAG ベンチマークの評価により,精度が向上し,計算効率が向上した。
論文 参考訳(メタデータ) (2025-05-22T09:04:03Z) - Accelerating Adaptive Retrieval Augmented Generation via Instruction-Driven Representation Reduction of Retrieval Overlaps [16.84310001807895]
本稿では,A-RAG法に適用可能なモデルに依存しないアプローチを提案する。
具体的には、キャッシュアクセスと並列生成を使用して、それぞれプリフィルとデコードステージを高速化する。
論文 参考訳(メタデータ) (2025-05-19T05:39:38Z) - Chain-of-Retrieval Augmented Generation [91.02950964802454]
本稿では,o1-like RAGモデルを学習し,最終回答を生成する前に段階的に関連情報を抽出・推論する手法を提案する。
提案手法であるCoRAGは,進化状態に基づいて動的にクエリを再構成する。
論文 参考訳(メタデータ) (2025-01-24T09:12:52Z) - Inference Scaling for Long-Context Retrieval Augmented Generation [37.15479223789199]
拡張推論計算は、長文大言語モデル(LLM)の可能性を解き放った
本研究では,文脈内学習や反復的プロンプトなど,知識の量を増やすこと以上の複数の戦略の組み合わせについて検討する。
長文LLMのスケーリング推論計算は、標準RAGと比較して、ベンチマークデータセットで58.9%向上することを示す。
論文 参考訳(メタデータ) (2024-10-06T03:42:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。