論文の概要: How Much Reasoning Do Retrieval-Augmented Models Add beyond LLMs? A Benchmarking Framework for Multi-Hop Inference over Hybrid Knowledge
- arxiv url: http://arxiv.org/abs/2602.10210v1
- Date: Tue, 10 Feb 2026 19:04:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.234893
- Title: How Much Reasoning Do Retrieval-Augmented Models Add beyond LLMs? A Benchmarking Framework for Multi-Hop Inference over Hybrid Knowledge
- Title(参考訳): LLMを超越した検索モデルの推論はどの程度可能か? : ハイブリッド知識によるマルチホップ推論のためのベンチマークフレームワーク
- Authors: Junhong Lin, Bing Zhang, Song Wang, Ziyan Liu, Dan Gutfreund, Julian Shun, Yada Zhu,
- Abstract要約: HybridRAG-Benchは、ハイブリッド知識よりも検索集約的なマルチホップ推論を評価するためのベンチマークを構築するためのフレームワークである。
そこで,HybridRAG-Benchはパラメトリックリコールよりも真の検索と推論に報いることを示す。
- 参考スコア(独自算出の注目度): 26.8497597881469
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) continue to struggle with knowledge-intensive questions that require up-to-date information and multi-hop reasoning. Augmenting LLMs with hybrid external knowledge, such as unstructured text and structured knowledge graphs, offers a promising alternative to costly continual pretraining. As such, reliable evaluation of their retrieval and reasoning capabilities becomes critical. However, many existing benchmarks increasingly overlap with LLM pretraining data, which means answers or supporting knowledge may already be encoded in model parameters, making it difficult to distinguish genuine retrieval and reasoning from parametric recall. We introduce HybridRAG-Bench, a framework for constructing benchmarks to evaluate retrieval-intensive, multi-hop reasoning over hybrid knowledge. HybridRAG-Bench automatically couples unstructured text and structured knowledge graph representations derived from recent scientific literature on arXiv, and generates knowledge-intensive question-answer pairs grounded in explicit reasoning paths. The framework supports flexible domain and time-frame selection, enabling contamination-aware and customizable evaluation as models and knowledge evolve. Experiments across three domains (artificial intelligence, governance and policy, and bioinformatics) demonstrate that HybridRAG-Bench rewards genuine retrieval and reasoning rather than parametric recall, offering a principled testbed for evaluating hybrid knowledge-augmented reasoning systems. We release our code and data at github.com/junhongmit/HybridRAG-Bench.
- Abstract(参考訳): 大規模言語モデル(LLM)は、最新の情報とマルチホップ推論を必要とする知識集約的な質問に苦慮し続けている。
構造化されていないテキストや構造化された知識グラフのようなハイブリッドな外部知識によるLLMの拡張は、コストのかかる継続事前学習に代わる有望な代替手段を提供する。
そのため、その検索と推論能力の信頼性評価が重要となる。
しかし、多くの既存のベンチマークは、LLM事前学習データと重なり合い、つまり、答えや知識をモデルパラメータにエンコードしている可能性があるため、真の検索と推論をパラメトリックリコールと区別することは困難である。
本稿では,ハイブリッド知識に対する検索集約型マルチホップ推論を評価するベンチマークを構築するためのフレームワークであるHybridRAG-Benchを紹介する。
ハイブリッドRAG-Benchは、arXiv上の最近の科学文献から得られた非構造化テキストと構造化知識グラフの表現を自動的に結合し、明示的な推論経路に基づく知識集約型質問応答ペアを生成する。
このフレームワークは柔軟なドメインとタイムフレームの選択をサポートし、モデルと知識が進化するにつれて汚染を認識し、カスタマイズ可能な評価を可能にする。
3つの領域(人工知能、ガバナンス、ポリシー、バイオインフォマティクス)にわたる実験では、ハイブリッドRAG-Benchはパラメトリックリコールよりも真の検索と推論に報いることを示した。
コードとデータはgithub.com/junhongmit/HybridRAG-Benchで公開しています。
関連論文リスト
- Multi-hop Reasoning via Early Knowledge Alignment [68.28168992785896]
アーリー・ナレッジ・アライメント(EKA)は、大規模言語モデルと文脈的に関連づけられた知識を整合させることを目的としている。
EKAは検索精度を大幅に改善し、カスケードエラーを低減し、性能と効率を向上する。
EKAは、大規模モデルにシームレスにスケールする、多目的でトレーニング不要な推論戦略として有効である。
論文 参考訳(メタデータ) (2025-12-23T08:14:44Z) - RouteRAG: Efficient Retrieval-Augmented Generation from Text and Graph via Reinforcement Learning [69.87510139069218]
Retrieval-Augmented Generation (RAG)は、非パラメトリック知識をLarge Language Models (LLM)に統合する
強化学習(RL)による多ターン推論へのテキストベースRAGの進歩
LLMがマルチターンおよび適応的なグラフテキストハイブリッドRAGを実現するためのRLベースのフレームワークであるモデルを導入する。
論文 参考訳(メタデータ) (2025-12-10T10:05:31Z) - KnowMT-Bench: Benchmarking Knowledge-Intensive Long-Form Question Answering in Multi-Turn Dialogues [58.305425399644086]
MT-LFQA(Multi-Turn Long-Form Question Answering)は、知識集約ドメインにおけるLLM(Large Language Models)の重要な応用パラダイムである。
textbfKnowMT-Benchは、知識集約的な分野にわたるLLMのためのMT-LFQAを体系的に評価するために設計された、テキストファーストなベンチマークである。
論文 参考訳(メタデータ) (2025-09-26T04:32:29Z) - Prompting is not Enough: Exploring Knowledge Integration and Controllable Generation [89.65955788873532]
オープンドメイン質問応答(OpenQA)は自然言語処理(NLP)の基盤である。
我々は,知識統合と制御可能生成を探求し,OpenQAの性能向上を目的としたGenKIという新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-26T08:18:33Z) - Dynamic Parametric Retrieval Augmented Generation for Test-time Knowledge Enhancement [22.386864304549285]
Retrieval-augmented Generation (RAG)は、関連するドキュメントを外部ソースから取得し、コンテキストに組み込むことで、大きな言語モデル(LLM)を強化する。
文書をパラメトリックな知識に効率的に変換する軽量パラメータトランスレータモデルを活用する新しいフレームワークであるDynamic Parametric RAG(DyPRAG)を提案する。
論文 参考訳(メタデータ) (2025-03-31T09:46:35Z) - GIVE: Structured Reasoning of Large Language Models with Knowledge Graph Inspired Veracity Extrapolation [108.2008975785364]
Graph Inspired Veracity Extrapolation (GIVE)は、パラメトリックメモリと非パラメトリックメモリを融合して、最小の外部入力で正確な推論を改善する新しい推論手法である。
GIVE は LLM エージェントをガイドして,最も関連する専門家データ (observe) を選択し,クエリ固有の発散思考 (reflect) に従事し,その情報を合成して最終的な出力 (speak) を生成する。
論文 参考訳(メタデータ) (2024-10-11T03:05:06Z) - Context Matters: Pushing the Boundaries of Open-Ended Answer Generation with Graph-Structured Knowledge Context [4.1229332722825]
本稿では,知識グラフに基づく拡張と合わせて,グラフ駆動型コンテキスト検索を組み合わせた新しいフレームワークを提案する。
我々は,様々なパラメータサイズを持つ大規模言語モデル(LLM)の実験を行い,知識の基盤化能力を評価し,オープンな質問に対する回答の事実的正確性を決定する。
われわれの方法であるGraphContextGenは、テキストベースの検索システムよりも一貫して優れており、その堅牢性と多くのユースケースへの適応性を実証している。
論文 参考訳(メタデータ) (2024-01-23T11:25:34Z) - DIVKNOWQA: Assessing the Reasoning Ability of LLMs via Open-Domain
Question Answering over Knowledge Base and Text [73.68051228972024]
大きな言語モデル(LLM)は印象的な生成能力を示すが、内部知識に依存すると幻覚に悩まされる。
検索拡張LDMは、外部知識においてLLMを基盤とする潜在的な解決策として出現している。
論文 参考訳(メタデータ) (2023-10-31T04:37:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。