論文の概要: Retrieval is Cheap, Show Me the Code: Executable Multi-Hop Reasoning for Retrieval-Augmented Generation
- arxiv url: http://arxiv.org/abs/2605.12975v1
- Date: Wed, 13 May 2026 04:14:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:27.804139
- Title: Retrieval is Cheap, Show Me the Code: Executable Multi-Hop Reasoning for Retrieval-Augmented Generation
- Title(参考訳): Retrievalはチープで、コードを見せてくれる:Retrieval拡張ジェネレーションのための実行可能なマルチホップ推論
- Authors: Jiashuo Sun, Jimeng Shi, Yixuan Xie, Saizhuo Wang, Jash Rajesh Parekh, Pengcheng Jiang, Zhiyi Shi, Jiajun Fan, Qinglong Zheng, Peiran Li, Shaowen Wang, Ge Liu, Jiawei Han,
- Abstract要約: pyragは、プログラムの合成と実行としてマルチホップRAGを再構成するフレームワークである。
pyragはトレーニング不要設定とRLトレーニング設定の両方で、強いベースラインを一貫して上回る。
- 参考スコア(独自算出の注目度): 26.17880287280065
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieval-Augmented Generation (RAG) has become a standard approach for knowledge-intensive question answering, but existing systems remain brittle on multi-hop questions, where solving the task requires chaining multiple retrieval and reasoning steps. Key challenges are that current methods represent reasoning through free-form natural language, where intermediate states are implicit, retrieval queries can drift from intended entities, and errors are detected by the same model that produces them making self-reflection an unreliable, ungrounded signal. We observe that multi-hop question answering is a typical form of step-by-step computation, and that this structured process aligns closely with how code-specialized language models are trained to operate. Motivated by this, we introduce \pyrag, a framework that reformulates multi-hop RAG as program synthesis and execution. Instead of free-form reasoning trajectories, \pyrag represents the reasoning process as an executable Python program over retrieval and QA tools, exposing intermediate states as variables, producing deterministic feedback through execution, and yielding an inspectable trace of the entire reasoning process. This formulation further enables compiler-grounded self-repair and execution-driven adaptive retrieval without any additional training. Experiments on five QA benchmarks (PopQA, HotpotQA, 2WikiMultihopQA, MuSiQue, and Bamboogle) show that \pyrag consistently outperforms strong baselines under both training-free and RL-trained settings, with especially large gains on compositional multi-hop datasets. Our code, data and models are publicly available at https://github.com/GasolSun36/PyRAG.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG) は知識集約的な質問応答の標準的なアプローチとなっているが、既存のシステムはマルチホップの質問に対して脆弱であり、タスクの解決には複数の検索と推論ステップの連鎖が必要である。
鍵となる課題は、現在の手法が、中間状態が暗黙的である自由形式の自然言語による推論を表現し、検索クエリは意図したエンティティからドリフトし、エラーが同じモデルによって検出され、自己回帰は信頼できない、未解決の信号となることである。
マルチホップ質問応答はステップバイステップ計算の典型的な形式であり,この構造化プロセスは,コード固有化言語モデルの動作訓練と密接に一致している。
そこで我々は,マルチホップRAGをプログラム合成と実行として再構成するフレームワークであるShapyragを紹介した。
自由形式の推論トラジェクトリの代わりに、 \pyragは推論プロセスを、検索やQAツールよりも実行可能なPythonプログラムとして表現し、中間状態を変数として公開し、実行を通じて決定論的フィードバックを生成し、すべての推論プロセスの検査可能なトレースを生成する。
この定式化により、追加のトレーニングなしでコンパイラによる自己修復と実行駆動適応検索が可能になる。
5つのQAベンチマーク(PopQA、HotpotQA、2WikiMultihopQA、MuSiQue、Bamboogle)での実験では、Piragはトレーニング不要とRLトレーニングの両方の条件下で、強いベースラインを一貫して上回り、特に合成マルチホップデータセットでは大きな伸びを示している。
私たちのコード、データ、モデルはhttps://github.com/GasolSun36/PyRAG.comで公開されています。
関連論文リスト
- SWE-QA-Pro: A Representative Benchmark and Scalable Training Recipe for Repository-Level Code Understanding [41.98672557723593]
SWEQA-Proは,多種多様な長期リポジトリと実行可能な環境から構築されたベンチマークである。
さらに,2段階のトレーニングレシピであるSupervised Fine-Tuning(SFT)とReinforcement Learning from AI Feedback(RLAIF)という,スケーラブルな合成データパイプラインを提案する。
SWE-QA-ProのGPT-4oを2.3ポイント超え、最先端モデルとのギャップを大幅に狭める。
論文 参考訳(メタデータ) (2026-03-17T05:12:48Z) - The Unlearning Mirage: A Dynamic Framework for Evaluating LLM Unlearning [54.67958855362658]
複雑な構造化クエリを用いたアンラーニングテストを強調する動的フレームワークを提案する。
提案手法はまず,対象モデル(事前学習)から知識を抽出し,単純なクエリからマルチホップチェーンまで,対象プローブを構築する。
本フレームワークは,テストセットを手作業で構築することなく,非学習手法の実用的でスケーラブルな評価を可能にする。
論文 参考訳(メタデータ) (2026-03-11T19:51:33Z) - Decomposition-Enhanced Training for Post-Hoc Attributions In Language Models [64.49342399229529]
我々は、ポストホック帰属を推論問題として再編成し、回答を構成単位に分解し、それぞれ特定の文脈に結び付けることができると論じる。
DecompTuneは、モデルに中間的推論ステップとして解解分解を生成することを教えるポストトレーニング手法である。
DecompTuneは、広範な実験と改善を通じて、属性の品質を大幅に改善し、先行手法より優れ、最先端のフロンティアモデルに適合または超えている。
論文 参考訳(メタデータ) (2025-10-29T17:58:59Z) - GRITHopper: Decomposition-Free Multi-Hop Dense Retrieval [52.47514434103737]
GRITHopper-7Bは,最先端性能を実現する新しいマルチホップ高密度検索モデルである。
GRITHopperは、因果言語モデリングと密集した検索訓練を統合することで、生成的および表現的命令チューニングを組み合わせる。
検索後言語モデリングと呼ばれる検索プロセスの後に追加のコンテキストを組み込むことで,検索性能が向上することがわかった。
論文 参考訳(メタデータ) (2025-03-10T16:42:48Z) - Retrieve, Summarize, Plan: Advancing Multi-hop Question Answering with an Iterative Approach [6.549143816134531]
二重機能要約器を備えたReSPと呼ばれる新しい反復RAG法を提案する。
マルチホップ質問応答HotpotQAと2WikiMultihopQAの実験結果から,本手法が最先端技術よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-07-18T02:19:00Z) - Few-shot Reranking for Multi-hop QA via Language Model Prompting [56.454088569241534]
オープンドメイン質問を用いたマルチホップQAにおける数点のリランクについて検討した。
本稿では,マルチホップパスの再ランク付けを促す大規模言語モデルに依存するPromptRankを提案する。
PromptRankは、HotpotQA上で128のトレーニング例で強力な検索性能を得る。
論文 参考訳(メタデータ) (2022-05-25T10:45:55Z) - Modeling Multi-hop Question Answering as Single Sequence Prediction [88.72621430714985]
本稿では,単純な生成手法(PathFid)を提案する。
PathFidは、マルチホップ質問に対する回答を解決するための推論プロセスを明示的にモデル化する。
実験の結果,PathFidは2つのマルチホップQAデータセットに対して高い性能向上をもたらすことが示された。
論文 参考訳(メタデータ) (2022-05-18T21:57:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。