論文の概要: RAG over Thinking Traces Can Improve Reasoning Tasks
- arxiv url: http://arxiv.org/abs/2605.03344v1
- Date: Tue, 05 May 2026 04:03:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-06 19:35:43.757099
- Title: RAG over Thinking Traces Can Improve Reasoning Tasks
- Title(参考訳): RAG over Thinking Traces can improves Reasoning Tasks
- Authors: Negar Arabzadeh, Wenjie Ma, Sewon Min, Matei Zaharia,
- Abstract要約: Retrieval-augmented Generation (RAG) は知識集約的なタスクに有効であることが証明されているが、推論集約的な問題に対して限られた利益をもたらすと広く信じられている。
本稿では,問題解決の過程で発生する思考軌跡,すなわち中間的思考軌跡の検索を提案する。
これらのトレースをコーパスとして使用すると、単純な検索列生成パイプラインは推論性能を一貫して改善する。
- 参考スコア(独自算出の注目度): 45.57562898423325
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieval-augmented generation (RAG) has proven effective for knowledge-intensive tasks, but is widely believed to offer limited benefit for reasoning-intensive problems such as math and code generation. We challenge this assumption by showing that the limitation lies not in RAG itself, but in the choice of corpus. Instead of retrieving documents, we propose retrieving thinking traces, i.e., intermediate thinking trajectories generated during problem solving attempts. We show that thinking traces are already a strong retrieval source, and further introduce T3, an offline method that transforms them into structured, retrieval-friendly representations, to improve usability. Using these traces as a corpus, a simple retrieve-then-generate pipeline consistently improves reasoning performance across strong models and benchmarks such as AIME 2025--2026, LiveCodeBench, and GPQA-Diamond, outperforming both non-RAG baselines and retrieval over standard web corpora. For instance, on AIME, RAG with traces generated by Gemini-2-thinking achieves relative gains of +56.3%, +8.6%, and +7.6% for Gemini-2.5-Flash, GPT-OSS-120B, and GPT-5, respectively, even though these are more recent models. Interestingly, RAG on T3 also incurs little or no extra inference cost, and can even reduce inference cost by up to $15%$. Overall, our results suggest that thinking traces are an effective retrieval corpus for reasoning tasks, and transforming them into structured, compact, or diagnostic representations unlocks even stronger gains. Code available at https://github.com/Narabzad/t3.
- Abstract(参考訳): Retrieval-augmented Generation (RAG) は知識集約的なタスクに有効であることが証明されているが、数学やコード生成のような推論集約的な問題に対して限られた利益をもたらすと広く信じられている。
我々は、制限がRAG自身ではなく、コーパスの選択にあることを示すことによって、この仮定に挑戦する。
文書を検索する代わりに,問題解決の試み中に発生する中間的思考軌跡を検索する手法を提案する。
我々は、すでに思考トレースが強力な検索源であることを示し、さらに、ユーザビリティを向上させるために、それらを構造化された検索フレンドリーな表現に変換するオフライン手法であるT3を紹介した。
これらのトレースをコーパスとして使用すると、単純な検索列生成パイプラインは、AIME 2025-2026、LiveCodeBench、GPQA-Diamondといった強力なモデルとベンチマーク間の推論性能を一貫して改善し、RAG以外のベースラインと標準Webコーパスでの検索の両方を上回っている。
例えば AIME では、Gemini-2-thinking で生成されたトレースを持つRAG は、より最近のモデルであるにもかかわらず、Gemini-2.5-Flash と GPT-OSS-120B と GPT-5 の相対的な増加率は +56.3%、 +8.6%、 +7.6% である。
興味深いことに、RAG on T3は追加の推論コストをほとんど、あるいは全く発生せず、推論コストを最大で15%削減できる。
以上の結果から,思考トレースはタスクの推論に有効な検索コーパスであり,それらを構造化された,コンパクトな,あるいは診断表現に変換することで,より強力な利得を達成できることが示唆された。
コードはhttps://github.com/Narabzad/t3.comで公開されている。
関連論文リスト
- Can Small Models Reason About Legal Documents? A Comparative Study [0.0]
大規模言語モデルは法的なアプリケーションには有望であるが、フロンティアモデルのデプロイは、コスト、レイテンシ、データプライバシに関する懸念を提起する。
3つの法的なベンチマークで9つのモデルをテストすることにより,サブ10Bパラメータモデルが実用的な代替手段として機能するかどうかを評価する。
論文 参考訳(メタデータ) (2026-03-26T22:28:20Z) - TeaRAG: A Token-Efficient Agentic Retrieval-Augmented Generation Framework [62.66056331998838]
TeaRAGは、検索内容と推論ステップの両方を圧縮できるトークン効率のエージェントRAGフレームワークである。
報奨関数は,過剰な推論ステップをペナルティ化しながら,知識マッチング機構によって知識満足度を評価する。
論文 参考訳(メタデータ) (2025-11-07T16:08:34Z) - Evaluating Retrieval-Augmented Generation Systems on Unanswerable, Uncheatable, Realistic, Multi-hop Queries [53.99620546358492]
実世界のユースケースでは、複雑なクエリを持つRAGシステムが存在し、関連する情報がコーパスから欠落したり、不完全であったりすることが多い。
既存のRAGベンチマークは、マルチホップやスコープ外の質問に対して、現実的なタスクの複雑さを反映することはめったにない。
un$underlinec$heatable, $underliner$ealistic, $underlineu$nanswerable, $underlinem$ulti-hopの自動生成のための最初のパイプラインを提示する。
論文 参考訳(メタデータ) (2025-10-13T21:38:04Z) - Pruning the Unsurprising: Efficient Code Reasoning via First-Token Surprisal [13.035073453917088]
大規模推論モデル(LRM)は、Chain-of-Thought(CoT)の長さをスケールアップすることによって、コード推論において顕著な能力を示した。
我々は,CoT圧縮のための新しい粗大なフレームワークであるASAP(Anchor-guided, Surprisal-based Pruning)を提案する。
ASAPは、トレーニングと推論コストを大幅に削減しつつ、複数のコード生成ベンチマークで最先端の精度を実現している。
論文 参考訳(メタデータ) (2025-08-08T03:46:21Z) - Beyond Chunks and Graphs: Retrieval-Augmented Generation through Triplet-Driven Thinking [31.73448933991891]
Retrieval-augmented Generation(RAG)は、幻覚を減らし、外部知識をLarge Language Models(LLM)に組み込むために重要である。
T$2$RAGは、原子三重項の単純でグラフのない知識ベースで動作する新しいフレームワークである。
実験結果から,T$2$RAGは最先端のマルチラウンド法とグラフRAG法を著しく上回ることがわかった。
論文 参考訳(メタデータ) (2025-08-04T13:50:44Z) - When Retriever Meets Generator: A Joint Model for Code Comment Generation [3.6781644685120924]
RAGSumは、単一のCodeT5バックボーンを使用して、ヒューズ検索と生成の上に構築されている。
対照的な事前学習フェーズは、最寄りの探索のためのコード埋め込みを形作る。
最終出力を研磨するために、軽量な自己精製ループが配置される。
論文 参考訳(メタデータ) (2025-07-16T18:12:27Z) - Teaching LLM to Reason: Reinforcement Learning from Algorithmic Problems without Code [76.80306464249217]
本稿では,LLMにより良い理性を教えることを目的としたTeaRを提案する。
TeaRは、注意深いデータキュレーションと強化学習を活用して、コード関連のタスクを通じて最適な推論パスを発見するモデルをガイドする。
我々は、2つのベースモデルと3つの長いCoT蒸留モデルを用いて広範な実験を行い、モデルのサイズは15億から32億のパラメータから、Math、Knowledge、Code、Logical Reasoningにまたがる17のベンチマークにまたがる。
論文 参考訳(メタデータ) (2025-07-10T07:34:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。