論文の概要: CompactRAG: Reducing LLM Calls and Token Overhead in Multi-Hop Question Answering
- arxiv url: http://arxiv.org/abs/2602.05728v1
- Date: Thu, 05 Feb 2026 14:52:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.98626
- Title: CompactRAG: Reducing LLM Calls and Token Overhead in Multi-Hop Question Answering
- Title(参考訳): CompactRAG:マルチホップ質問応答におけるLCMコールとトークンオーバーヘッドの削減
- Authors: Hao Yang, Zhiyu Yang, Xupeng Zhang, Wei Wei, Yunjie Zhang, Lin Yang,
- Abstract要約: 既存のマルチホップRAGシステムは、各ステップで検索と推論を交互に行う。
オンライン推論からオフラインコーパス再構成を分離するフレームワークであるCompactRAGを提案する。
HotpotQA, 2WikiMultiHopQA, MuSiQue の実験では, CompactRAG がトークン消費を大幅に削減し,競争精度を向上することを示した。
- 参考スコア(独自算出の注目度): 15.281365738928415
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieval-augmented generation (RAG) has become a key paradigm for knowledge-intensive question answering. However, existing multi-hop RAG systems remain inefficient, as they alternate between retrieval and reasoning at each step, resulting in repeated LLM calls, high token consumption, and unstable entity grounding across hops. We propose CompactRAG, a simple yet effective framework that decouples offline corpus restructuring from online reasoning. In the offline stage, an LLM reads the corpus once and converts it into an atomic QA knowledge base, which represents knowledge as minimal, fine-grained question-answer pairs. In the online stage, complex queries are decomposed and carefully rewritten to preserve entity consistency, and are resolved through dense retrieval followed by RoBERTa-based answer extraction. Notably, during inference, the LLM is invoked only twice in total - once for sub-question decomposition and once for final answer synthesis - regardless of the number of reasoning hops. Experiments on HotpotQA, 2WikiMultiHopQA, and MuSiQue demonstrate that CompactRAG achieves competitive accuracy while substantially reducing token consumption compared to iterative RAG baselines, highlighting a cost-efficient and practical approach to multi-hop reasoning over large knowledge corpora. The implementation is available at GitHub.
- Abstract(参考訳): Retrieval-augmented Generation (RAG) は知識集約型質問応答の重要なパラダイムとなっている。
しかし、既存のマルチホップRAGシステムは、各ステップでの検索と推論を交互に行い、繰り返しLLM呼び出し、高いトークン消費、ホップをまたいだ不安定な実体が生じるため、非効率のままである。
オンライン推論からオフラインコーパス再構成を分離する,シンプルで効果的なフレームワークであるCompactRAGを提案する。
オフラインの段階では、LLMはコーパスを読み取って原子QA知識ベースに変換し、知識を最小できめ細かな質問応答ペアとして表現する。
オンラインの段階では、複雑なクエリは分解され、エンティティの一貫性を保つために慎重に書き直され、密集した検索によって解決され、RoBERTaベースの回答抽出が続く。
推論中、LLMは合計で2回しか呼び出されない(サブクエスト分解では1回、最終回答合成では1回)。
HotpotQA, 2WikiMultiHopQA, MuSiQueの実験では、CompactRAGは、反復的なRAGベースラインと比較してトークン消費を大幅に削減し、競争精度を向上し、大規模な知識コーパスに対するマルチホップ推論に対するコスト効率と実践的なアプローチを強調している。
実装はGitHubで公開されている。
関連論文リスト
- Reasoning in Trees: Improving Retrieval-Augmented Generation for Multi-Hop Question Answering [14.456873356080186]
Reasoning Tree Guided RAG (RT-RAG) は複雑なマルチホップQAのための新しい階層的フレームワークである。
RT-RAGは、マルチホップ質問を明示的な推論木に体系的に分解し、不正確な分解を最小限にする。
論文 参考訳(メタデータ) (2026-01-16T13:02:25Z) - Think Straight, Stop Smart: Structured Reasoning for Efficient Multi-Hop RAG [24.494759581234803]
TSSS (Think Straight, Stop Smart) は、効率的なマルチホップRAGフレームワークである。
TSSSは (i) 繰り返し発生するプレフィックスをキャッシュし、サブクエリをメインの質問にアンカーするテンプレートベースの推論を導入している。
HotpotQA、2WikiMultiHop、MuSiQueでは、TSSSはRAG-CoTアプローチの最先端の精度と競争効率を達成する。
論文 参考訳(メタデータ) (2025-10-22T02:09:23Z) - LLM-guided Hierarchical Retrieval [54.73080745446999]
LATTICEは階層的な検索フレームワークであり、LLMは対数探索の複雑さで大きなコーパスを推論し、ナビゲートすることができる。
LLM誘導探索における中心的な課題は、モデルの関連性判断がノイズが多く、文脈に依存し、階層性に気付かないことである。
我々のフレームワークは、推論集約型BRIGHTベンチマークで最先端のゼロショット性能を実現する。
論文 参考訳(メタデータ) (2025-10-15T07:05:17Z) - Resource-Friendly Dynamic Enhancement Chain for Multi-Hop Question Answering [21.077964610022313]
この研究はDEC(Dynamic Enhancement Chain)と呼ばれる新しいフレームワークを提案する。
DECはまず複雑な質問を論理的に一貫性のあるサブクエストに分解し、幻覚のない推論連鎖を形成する。
その後、コンテキスト対応の書き換えによってこれらのサブクエストを反復的に洗練し、効率的なクエリの定式化を生成する。
論文 参考訳(メタデータ) (2025-06-21T11:55:27Z) - GRITHopper: Decomposition-Free Multi-Hop Dense Retrieval [52.47514434103737]
GRITHopper-7Bは,最先端性能を実現する新しいマルチホップ高密度検索モデルである。
GRITHopperは、因果言語モデリングと密集した検索訓練を統合することで、生成的および表現的命令チューニングを組み合わせる。
検索後言語モデリングと呼ばれる検索プロセスの後に追加のコンテキストを組み込むことで,検索性能が向上することがわかった。
論文 参考訳(メタデータ) (2025-03-10T16:42:48Z) - BRIEF: Bridging Retrieval and Inference for Multi-hop Reasoning via Compression [91.23933111083389]
Retrieval-augmented Generation (RAG)は、外部知識を統合することで、大きな言語モデル(LLM)を補完することができる。
本稿では,クエリ対応マルチホップ推論を行う軽量なアプローチであるBRIEFを提案する。
オープンソースモデルで構築した合成データに基づいて,BRIEFはより簡潔な要約を生成する。
論文 参考訳(メタデータ) (2024-10-20T04:24:16Z) - GenSco: Can Question Decomposition based Passage Alignment improve Question Answering? [1.5776201492893507]
ジェンスコ(GenSco)は,マルチホップ質問の予測分解に基づく経路選択手法である。
広範に確立された3つのマルチホップ質問応答データセットについて評価した。
論文 参考訳(メタデータ) (2024-07-14T15:25:08Z) - FiDeLiS: Faithful Reasoning in Large Language Model for Knowledge Graph Question Answering [46.41364317172677]
大規模言語モデル(LLM)は、しばしば誤ったあるいは幻覚的な応答を生成することで挑戦される。
本稿では,知識グラフから得られた検証可能な推論ステップに回答を固定することで,LLM応答の事実性を改善するための統合フレームワークFiDeLiSを提案する。
トレーニング不要のフレームワークである本手法は,性能の向上だけでなく,異なるベンチマークにおける現実性や解釈可能性の向上にも寄与する。
論文 参考訳(メタデータ) (2024-05-22T17:56:53Z) - Towards Robust Temporal Reasoning of Large Language Models via a Multi-Hop QA Dataset and Pseudo-Instruction Tuning [73.51314109184197]
大規模言語モデル(LLM)には時間的知識の概念を理解することが不可欠である。
本稿では,複数質問応答と複数ホップの時間的推論に焦点をあてた複雑な時間的質問応答データセットであるComplex-TRを提案する。
論文 参考訳(メタデータ) (2023-11-16T11:49:29Z) - Logical Message Passing Networks with One-hop Inference on Atomic
Formulas [57.47174363091452]
本稿では,ニューラルネットワーク演算子から知識グラフの埋め込みを分解する,複雑な問合せ応答のためのフレームワークを提案する。
クエリグラフの上に、局所的な原子式上のワンホップ推論とグローバル論理的推論を結びつける論理メッセージパッシングニューラルネットワーク(LMPNN)を提案する。
我々のアプローチは、最先端のニューラルCQAモデルをもたらす。
論文 参考訳(メタデータ) (2023-01-21T02:34:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。