論文の概要: HaS: Accelerating RAG through Homology-Aware Speculative Retrieval
- arxiv url: http://arxiv.org/abs/2604.20452v1
- Date: Wed, 22 Apr 2026 11:15:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-23 15:36:11.103251
- Title: HaS: Accelerating RAG through Homology-Aware Speculative Retrieval
- Title(参考訳): HaS:homology-Aware Speculative RetrievalによるRAGの高速化
- Authors: Peng Peng, Weiwei Lin, Wentai Wu, Xinyang Wang, Yongheng Liu,
- Abstract要約: 知識データベースのサイズが大きくなるにつれて、検索は時間がかかります。
ホモロジーを意識した投機的検索フレームワークHaSを提案する。
HaSは、現実世界の人気パターン下でのクエリの頻度から恩恵を受け、かなりの効率向上を達成する。
- 参考スコア(独自算出の注目度): 9.230969223605602
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieval-Augmented Generation (RAG) expands the knowledge boundary of large language models (LLMs) at inference by retrieving external documents as context. However, retrieval becomes increasingly time-consuming as the knowledge databases grow in size. Existing acceleration strategies either compromise accuracy through approximate retrieval, or achieve marginal gains by reusing results of strictly identical queries. We propose HaS, a homology-aware speculative retrieval framework that performs low-latency speculative retrieval over restricted scopes to obtain candidate documents, followed by validating whether they contain the required knowledge. The validation, grounded in the homology relation between queries, is formulated as a homologous query re-identification task: once a previously observed query is identified as a homologous re-encounter of the incoming query, the draft is deemed acceptable, allowing the system to bypass slow full-database retrieval. Benefiting from the prevalence of homologous queries under real-world popularity patterns, HaS achieves substantial efficiency gains. Extensive experiments demonstrate that HaS reduces retrieval latency by 23.74% and 36.99% across datasets with only a 1-2% marginal accuracy drop. As a plug-and-play solution, HaS also significantly accelerates complex multi-hop queries in modern agentic RAG pipelines. Source code is available at: https://github.com/ErrEqualsNil/HaS.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG)は、外部文書をコンテキストとして検索することで、大規模言語モデル(LLM)の知識境界を拡張する。
しかし、知識データベースのサイズが大きくなるにつれて、検索はますます時間がかかる。
既存の高速化戦略は、近似検索によって精度を損なうか、全く同じクエリの結果を再利用することで限界ゲインを達成する。
本稿では,制約範囲を越えて低遅延投機的検索を行い,必要な知識を含むかどうかを検証したホモロジー対応投機的検索フレームワークHaSを提案する。
クエリ間のホモロジー関係に基づく検証は、ホモロジーなクエリ再識別タスクとして定式化され、事前に観測されたクエリが、受信したクエリのホモロジーな再会計者として特定されると、ドラフトは許容され、システムが遅い全データベース検索をバイパスすることができる。
HaSは、現実世界の人気パターン下での相同性クエリの頻度から恩恵を受け、かなりの効率向上を達成する。
大規模な実験では、HaSは検索遅延を23.74%、データセット全体で36.99%削減し、1-2%の精度低下しか示していない。
プラグアンドプレイソリューションとして、HaSは現代のエージェントRAGパイプラインにおける複雑なマルチホップクエリを著しく高速化する。
ソースコードは、https://github.com/ErrEqualsNil/HaS.comで入手できる。
関連論文リスト
- Beyond Relevance: On the Relationship Between Retrieval and RAG Information Coverage [89.58253972744531]
Retrieval-augmented Generation (RAG) システムは、文書検索と生成モデルを組み合わせて、レポート生成のような複雑な情報を求める課題に対処する。
我々は,上流の検索指標が,最終生成応答の情報カバレッジの信頼性の高い早期指標として機能するかどうかを検討する。
本研究は,トピックとシステムレベルの両方で生成した応答におけるカバレッジベース検索指標とナゲットカバレッジとの間に強い相関関係を示した。
論文 参考訳(メタデータ) (2026-03-09T18:20:20Z) - Query Decomposition for RAG: Balancing Exploration-Exploitation [83.79639293409802]
RAGシステムは複雑なユーザ要求に対処し、それらをサブクエリに分解し、それぞれに関連する可能性のあるドキュメントを取得し、それを集約して回答を生成する。
クエリの分解とドキュメントの検索をエクスプロレーション探索設定で定式化し、一度に1つのドキュメントを検索すると、与えられたサブクエリの有用性についての信念が構築される。
我々の主な発見は、ランク情報と人的判断を用いた文書関連性の推定により、文書レベルの精度が35%向上し、α-nDCGが15%向上し、長文生成の下流タスクの性能が向上するということである。
論文 参考訳(メタデータ) (2025-10-21T13:37:11Z) - Evaluating Retrieval-Augmented Generation Systems on Unanswerable, Uncheatable, Realistic, Multi-hop Queries [53.99620546358492]
実世界のユースケースでは、複雑なクエリを持つRAGシステムが存在し、関連する情報がコーパスから欠落したり、不完全であったりすることが多い。
既存のRAGベンチマークは、マルチホップやスコープ外の質問に対して、現実的なタスクの複雑さを反映することはめったにない。
un$underlinec$heatable, $underliner$ealistic, $underlineu$nanswerable, $underlinem$ulti-hopの自動生成のための最初のパイプラインを提示する。
論文 参考訳(メタデータ) (2025-10-13T21:38:04Z) - Reasoning-enhanced Query Understanding through Decomposition and Interpretation [87.56450566014625]
ReDIは、分解と解釈によるクエリ理解のための推論強化アプローチである。
我々は,大規模検索エンジンから実世界の複雑なクエリの大規模データセットをコンパイルした。
BRIGHT と BEIR の実験により、ReDI はスパースと密度の高い検索パラダイムの両方において、強いベースラインを一貫して超えることを示した。
論文 参考訳(メタデータ) (2025-09-08T10:58:42Z) - Leveraging Approximate Caching for Faster Retrieval-Augmented Generation [6.674782158041247]
本稿では,ユーザクエリの類似性を活用してRAGワークフローを最適化する,近似キー値キャッシュであるProximityを紹介する。
Proximityは、それぞれのクエリを独立して扱う代わりに、類似したクエリが現れると、以前検索されたドキュメントを再利用する。
我々の実験では、LSH方式と現実的にスキューされたMedRAGのワークロードとの近さは、データベースのリコールとテストの精度を維持しながら、データベース呼び出しを77.2%削減することを示した。
論文 参考訳(メタデータ) (2025-03-07T15:54:04Z) - Corrective Retrieval Augmented Generation [36.04062963574603]
Retrieval-augmented Generation (RAG) は、検索された文書の関連性に大きく依存しており、検索が失敗した場合のモデルがどのように振る舞うかについての懸念を提起する。
生成の堅牢性を改善するために,CRAG(Corrective Retrieval Augmented Generation)を提案する。
CRAGはプラグアンドプレイであり、様々なRAGベースのアプローチとシームレスに結合できる。
論文 参考訳(メタデータ) (2024-01-29T04:36:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。