論文の概要: Reasoning Graphs: Self-Improving, Deterministic RAG through Evidence-Centric Feedback
- arxiv url: http://arxiv.org/abs/2604.07595v2
- Date: Mon, 13 Apr 2026 18:38:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 14:01:13.215051
- Title: Reasoning Graphs: Self-Improving, Deterministic RAG through Evidence-Centric Feedback
- Title(参考訳): 推論グラフ: 証拠中心フィードバックによる自己改善、決定論的RAG
- Authors: Matthew Penaroza,
- Abstract要約: 言語モデルエージェントは、クエリ毎にスクラッチから推論し、各実行後に思考の連鎖を破棄する。
このグラフ構造は,エビデンス・チェーンを,評価項目に関連付けられた構造化されたエッジとみなす。
逐次クラスタプロトコル,高再利用デプロイメントシミュレーション,決定論的実験を用いて,MuSiQueとHotpotQAの評価を行った。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language model agents reason from scratch on every query, discarding their chain of thought after each run. This produces lower accuracy and high variance, as the same query type can succeed or fail unpredictably. We introduce reasoning graphs, a graph structure that persists per-evidence chain of thought as structured edges connected to the evidence items they evaluate. Unlike prior memory mechanisms that retrieve distilled strategies by query similarity, reasoning graphs enable evidence-centric feedback: given a new candidate set, the system traverses all incoming evaluation edges for each evidence item across all prior runs, surfacing how that specific item has been judged before. We further introduce retrieval graphs, a complementary structure that feeds a pipeline planner to tighten the candidate funnel over successive runs. Together, both graphs form a self-improving feedback loop: accuracy improves systematically and verdict-level variance collapses. This requires no retraining; the base model remains frozen and all gains come from context engineering via graph traversal. We evaluate on MuSiQue and HotpotQA using a sequential cluster protocol, a high-reuse deployment simulation, and a determinism experiment. At 50%+ evidence profile coverage, our system reduces errors by 47% compared to vanilla RAG on the same questions (controlled dose-response, p < 0.0001). On 4-hop questions, accuracy improves by +11.0pp (p=0.0001). In high-reuse settings, the system achieves Pareto dominance: highest accuracy, 47% lower cost, and 46% lower latency. Evidence profiles improve verdict consistency by 7-8 percentage points (p=0.007, Wilcoxon); the full system drives all 11 hard probes to perfect consistency at both temperature 0 and 0.5 (p=0.004).
- Abstract(参考訳): 言語モデルエージェントは、クエリ毎にスクラッチから推論し、各実行後に思考の連鎖を破棄する。
これは、同じクエリタイプが成功するか、予測不能に失敗する可能性があるため、より低い精度と高い分散を生み出す。
本稿では,思考のエビデンス・チェーンを,評価項目に関連付けられた構造化されたエッジとして保持するグラフ構造である推論グラフを紹介する。
クエリ類似性によって抽出された戦略を検索する以前の記憶機構とは異なり、推論グラフはエビデンス中心のフィードバックを可能にする。
さらに,パイプラインプランナに補完構造である検索グラフを導入し,連続的な実行に対して候補ファンネルを厳格化させる。
両方のグラフは自己改善フィードバックループを形成し、精度は体系的に改善され、予測レベルの分散は崩壊する。
ベースモデルは凍結状態のままであり、すべての利益はグラフトラバーサルによるコンテキストエンジニアリングから得られます。
逐次クラスタプロトコル,高再利用デプロイメントシミュレーション,決定論的実験を用いて,MuSiQueとHotpotQAの評価を行った。
50%以上のエビデンスプロファイルでは,同じ質問に対するバニラRAGと比較して誤差が47%減少する(対照線量応答,p < 0.0001)。
4ホップの質問では、精度は+11.0pp(p=0.0001)向上する。
高使用率設定では,最高精度47%,低コスト46%,レイテンシ46%のPareto支配を実現している。
Evidence profiles improve verdict consistency by 7-8 percentage points (p=0.007, Wilcoxon), the full system drive all 11 hard probes to perfect consistency at both temperature 0 and 0.5 (p=0.004)。
関連論文リスト
- Retrieving Minimal and Sufficient Reasoning Subgraphs with Graph Foundation Models for Path-aware GraphRAG [27.22974957852695]
グラフベースの検索強化生成(GraphRAG)は、構造化知識を利用して知識集約推論を支援する。
本稿では,事前学習したグラフファウンデーションモデルがクロスドメインレトリバーとして機能するサブグラフを用いて,ユーザクエリに直接応答するGCM-Retrieverを提案する。
GFM-Retrieverは、効率を保ちながら、検索品質と回答生成の両方において最先端の性能を達成する。
論文 参考訳(メタデータ) (2026-03-07T12:39:21Z) - SAGE: Structure Aware Graph Expansion for Retrieval of Heterogeneous Data [47.930782177987446]
不均一なコーパスに答える検索拡張された質問は、テキスト、テーブル、グラフノード間で接続されたエビデンスを必要とする。
標準レトリバーリーダーパイプラインは、独立にチャンクされたテキスト上の平坦な類似性検索を使用し、モダリティ間のマルチホップエビデンスチェーンを欠いている。
SAGE(Structure Aware Graph Expansion)フレームワークを提案する。これは、パーセンタイルベースのプルーニングとメタデータ駆動の類似性を利用して、チャンクレベルのグラフをオフラインで構築する。
暗黙的クロスモーダルコーパスと明示的スキーマグラフのエージェント検索であるSPARK(Structure Aware Planning Agent for Retrieval over Knowledge Graphs)のハイブリッド高密度スパース検索を用いて初期検索をインスタンス化する。
論文 参考訳(メタデータ) (2026-02-18T23:57:19Z) - Breaking the Static Graph: Context-Aware Traversal for Robust Retrieval-Augmented Generation [12.71443292660797]
堅牢なRAGのためのコンテキスト認識トラバーサルであるCatRAGを提案する。
CatRAGはHippoRAG 2アーキテクチャ上に構築され、静的なKGをクエリ適応ナビゲーション構造に変換する。
4つのマルチホップベンチマークの実験では、CatRAGはアートベースラインの状態を一貫して上回っている。
論文 参考訳(メタデータ) (2026-02-02T11:13:38Z) - N2N-GQA: Noise-to-Narrative for Graph-Based Table-Text Question Answering Using LLMs [0.0]
ハイブリッドテーブルテキストデータに対するマルチホップ質問応答には,大規模コーパスからの複数のエビデンス部分の検索と推論が必要である。
Standard Retrieval-Augmented Generation (RAG) パイプラインは文書をフラットなランクリストとして処理し、検索ノイズがあいまいな推論連鎖を引き起こす。
N2N-GQAは、ノイズの多い検索出力から動的エビデンスグラフを構成する、オープンドメインハイブリッドテーブルテキストQAのための最初のゼロショットフレームワークである。
論文 参考訳(メタデータ) (2026-01-10T15:55:15Z) - Hierarchical Sequence Iteration for Heterogeneous Question Answering [27.22775290181187]
本稿では,文書,表,知識グラフを可逆的階層列に線形化する統一フレームワークであるHSEQを紹介する。
HotpotQA(テキスト)、HybridQA/TAT-QA(テーブル+テキスト)、MetaQA(KG)の実験では、強いシングルパス、マルチホップ、エージェントRAGベースラインを高い効率で一貫したEM/F1が得られた。
論文 参考訳(メタデータ) (2025-10-23T12:48:18Z) - ReCEval: Evaluating Reasoning Chains via Correctness and Informativeness [67.49087159888298]
ReCEvalは2つの重要な特性(正確性と情報性)を通じて推論チェーンを評価するフレームワークである。
本稿では、ReCEvalが様々なエラータイプを効果的に識別し、従来の手法と比較して顕著な改善をもたらすことを示す。
論文 参考訳(メタデータ) (2023-04-21T02:19:06Z) - Explanation Selection Using Unlabeled Data for Chain-of-Thought
Prompting [80.9896041501715]
非専門家によって書かれたオフ・ザ・シェルフの説明のように、タスクのために"チューニング"されていない説明は、中途半端なパフォーマンスをもたらす可能性がある。
本稿では,ブラックボックス方式で説明拡散プロンプトを最適化する方法の課題に対処する。
論文 参考訳(メタデータ) (2023-02-09T18:02:34Z) - ExplaGraphs: An Explanation Graph Generation Task for Structured
Commonsense Reasoning [65.15423587105472]
スタンス予測のための説明グラフ生成の新しい生成および構造化コモンセンスリゾニングタスク(および関連するデータセット)を紹介します。
具体的には、信念と議論が与えられた場合、モデルは、議論が信念を支持しているかどうかを予測し、予測されたスタンスに対する非自明で完全で曖昧な説明として機能する常識強化グラフを生成する必要がある。
グラフの83%は、様々な構造と推論深度を持つ外部のコモンセンスノードを含んでいる。
論文 参考訳(メタデータ) (2021-04-15T17:51:36Z) - Approximate Knowledge Graph Query Answering: From Ranking to Binary
Classification [0.20999222360659608]
不完全グラフ上の構造化クエリは、不完全解の集合をもたらす。
近似構造化クエリ応答のためのいくつかのアルゴリズムが提案されている。
ランキングに基づく評価を行うことは、複雑な問合せ応答の方法を評価するのに十分ではないと我々は主張する。
論文 参考訳(メタデータ) (2021-02-22T22:28:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。