論文の概要: Structure-Grounded Knowledge Retrieval via Code Dependencies for Multi-Step Data Reasoning
- arxiv url: http://arxiv.org/abs/2604.10516v1
- Date: Sun, 12 Apr 2026 08:14:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.068907
- Title: Structure-Grounded Knowledge Retrieval via Code Dependencies for Multi-Step Data Reasoning
- Title(参考訳): マルチステップデータ推論のためのコード依存による構造付き知識検索
- Authors: Xinyi Huang, Mingzhe Lu, Haoyu Dong,
- Abstract要約: SGKRは、関数呼び出し依存性によって誘導されるグラフでドメイン知識を整理する。
多段階データ分析ベンチマークの実験により、SGKRは非検索および類似性に基づく検索ベースラインよりも解の正しさを一貫して改善することが示された。
- 参考スコア(独自算出の注目度): 9.570699003294592
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Selecting the right knowledge is critical when using large language models (LLMs) to solve domain-specific data analysis tasks. However, most retrieval-augmented approaches rely primarily on lexical or embedding similarity, which is often a weak proxy for the task-critical knowledge needed for multi-step reasoning. In many such tasks, the relevant knowledge is not merely textually related to the query, but is instead grounded in executable code and the dependency structure through which computations are carried out. To address this mismatch, we propose SGKR (Structure-Grounded Knowledge Retrieval), a retrieval framework that organizes domain knowledge with a graph induced by function-call dependencies. Given a question, SGKR extracts semantic input and output tags, identifies dependency paths connecting them, and constructs a task-relevant subgraph. The associated knowledge and corresponding function implementations are then assembled as a structured context for LLM-based code generation. Experiments on multi-step data analysis benchmarks show that SGKR consistently improves solution correctness over no-retrieval and similarity-based retrieval baselines for both vanilla LLMs and coding agents.
- Abstract(参考訳): ドメイン固有のデータ分析タスクを解決するために、大きな言語モデル(LLM)を使用する場合、適切な知識を選択することが重要です。
しかし、検索強化されたほとんどのアプローチは、主に語彙的または埋め込み的類似性に依存しており、これは多段階推論に必要なタスククリティカルな知識の弱いプロキシであることが多い。
多くのタスクにおいて、関連する知識は単にクエリにテキスト的に関係しているだけでなく、実行可能コードと計算を行う依存関係構造に基礎を置いている。
このミスマッチに対処するために,関数呼び出しに依存したグラフを用いてドメイン知識を整理する検索フレームワークであるSGKR(Structure-Grounded Knowledge Retrieval)を提案する。
質問に対して、SGKRはセマンティック入力と出力タグを抽出し、それらを接続する依存性パスを特定し、タスク関連サブグラフを構築する。
関連する知識とそれに対応する関数の実装は、LLMベースのコード生成のための構造化コンテキストとして組み立てられる。
多段階データ分析ベンチマークの実験により、SGKRは、バニラLLMと符号化エージェントの両方の検索ベースラインの非検索および類似性に基づく解の正しさを一貫して改善することが示された。
関連論文リスト
- SpIDER: Spatially Informed Dense Embedding Retrieval for Software Issue Localization [6.098008057625392]
エージェントアプローチは一般的に、BM25のようなスパース検索手法や、関連するユニットを特定するための密着型埋め込み戦略を用いる。
本研究では,LLMに基づく補助的文脈に基づく推論を組み込んだ高密度検索手法であるSpIDERを提案する。
実験結果から,SpIDERは複数のプログラミング言語間の密集検索性能を一貫して向上することが示された。
論文 参考訳(メタデータ) (2025-12-18T01:32:25Z) - DeepSieve: Information Sieving via LLM-as-a-Knowledge-Router [57.28685457991806]
DeepSieveはエージェントRAGフレームワークで、LLM-as-a-knowledge-routerを介して情報を収集する。
我々の設計はモジュール性、透明性、適応性を重視しており、エージェントシステム設計の最近の進歩を活用している。
論文 参考訳(メタデータ) (2025-07-29T17:55:23Z) - KAG-Thinker: Interactive Thinking and Deep Reasoning in LLMs via Knowledge-Augmented Generation [35.555200530999365]
我々は、KAG-Thinkerを導入し、KAGをマルチターン対話型思考と、専用パラメータライト大言語モデル(LLM)を利用した深い推論フレームワークにアップグレードする。
提案手法は,複雑な問題を解くための構造化思考プロセスを構築し,推論過程の論理的一貫性と文脈的整合性を高める。
論文 参考訳(メタデータ) (2025-06-21T14:58:53Z) - KnowTrace: Bootstrapping Iterative Retrieval-Augmented Generation with Structured Knowledge Tracing [64.38243807002878]
我々は、大規模言語モデルにおけるコンテキスト過負荷を軽減するためのエレガントなRAGフレームワークであるKnowTraceを紹介する。
KnowTraceは、必要な知識三つ子を自律的に追跡して、入力された質問に関連する特定の知識グラフを整理する。
3つのマルチホップ質問応答ベンチマークで、既存のメソッドを一貫して上回っている。
論文 参考訳(メタデータ) (2025-05-26T17:22:20Z) - Divide by Question, Conquer by Agent: SPLIT-RAG with Question-Driven Graph Partitioning [62.640169289390535]
SPLIT-RAGは、質問駆動セマンティックグラフ分割と協調サブグラフ検索による制限に対処するマルチエージェントRAGフレームワークである。
革新的なフレームワークは、まずリンク情報のセマンティック分割を作成し、次にタイプ特化知識ベースを使用してマルチエージェントRAGを実現する。
属性対応グラフセグメンテーションは、知識グラフを意味的に一貫性のあるサブグラフに分割し、サブグラフが異なるクエリタイプと整合することを保証する。
階層的なマージモジュールは、論理的検証を通じて、部分グラフ由来の解答間の矛盾を解消する。
論文 参考訳(メタデータ) (2025-05-20T06:44:34Z) - RAS: Retrieval-And-Structuring for Knowledge-Intensive LLM Generation [46.237206695937246]
本稿では,クエリ固有の知識グラフを動的に構築するフレームワークであるRetrieval-And-Structuring (RAS)を提案する。
7つの知識集約ベンチマークでは、RASは一貫して強力なベースラインを上回っている。
この結果から,動的クエリ固有知識構造化は,言語モデル生成における推論精度と堅牢性を向上させるための堅牢な経路を提供することが示された。
論文 参考訳(メタデータ) (2025-02-16T05:01:49Z) - DIVKNOWQA: Assessing the Reasoning Ability of LLMs via Open-Domain
Question Answering over Knowledge Base and Text [73.68051228972024]
大きな言語モデル(LLM)は印象的な生成能力を示すが、内部知識に依存すると幻覚に悩まされる。
検索拡張LDMは、外部知識においてLLMを基盤とする潜在的な解決策として出現している。
論文 参考訳(メタデータ) (2023-10-31T04:37:57Z) - KILT: a Benchmark for Knowledge Intensive Language Tasks [102.33046195554886]
知識集約型言語タスク(KILT)のベンチマークを示す。
KILTのすべてのタスクはウィキペディアのスナップショットと同じだ。
共有密度ベクトル指数とSeq2seqモデルとの結合が強いベースラインであることが分かる。
論文 参考訳(メタデータ) (2020-09-04T15:32:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。