論文の概要: Fine-Tuning vs. RAG for Multi-Hop Question Answering with Novel Knowledge
- arxiv url: http://arxiv.org/abs/2601.07054v1
- Date: Sun, 11 Jan 2026 20:24:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.140051
- Title: Fine-Tuning vs. RAG for Multi-Hop Question Answering with Novel Knowledge
- Title(参考訳): 新しい知識を用いたマルチホップ質問応答のための微調整対RAG
- Authors: Zhuoyi Yang, Yurun Song, Iftekhar Ahmed, Ian Harris,
- Abstract要約: オープンドメイン型マルチホップ質問応答におけるパラメトリックおよび非パラメトリック知識注入法の比較を行った。
教師なしの微調整,教師なしの微調整,検索強化生成の評価を行った。
検索増強世代は、時間的に新しい情報に依存する質問に答えるときに、実質的で一貫した改善をもたらす。
- 参考スコア(独自算出の注目度): 7.716590111773082
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-hop question answering is widely used to evaluate the reasoning capabilities of large language models (LLMs), as it requires integrating multiple pieces of supporting knowledge to arrive at a correct answer. While prior work has explored different mechanisms for providing knowledge to LLMs, such as finetuning and retrieval-augmented generation (RAG), their relative effectiveness for multi-hop question answering remains insufficiently understood, particularly when the required knowledge is temporally novel. In this paper, we systematically compare parametric and non-parametric knowledge injection methods for open-domain multi-hop question answering. We evaluate unsupervised fine-tuning (continual pretraining), supervised fine-tuning, and retrieval-augmented generation across three 7B-parameter open-source LLMs. Experiments are conducted on two benchmarks: QASC, a standard multi-hop science question answering dataset, and a newly constructed dataset of over 10,000 multi-hop questions derived from Wikipedia events in 2024, designed to test knowledge beyond the models' pretraining cutoff. Our results show that unsupervised fine-tuning provides only limited gains over base models, suggesting that continual pretraining alone is insufficient for improving multi-hop reasoning accuracy. In contrast, retrieval-augmented generation yields substantial and consistent improvements, particularly when answering questions that rely on temporally novel information. Supervised fine-tuning achieves the highest overall accuracy across models and datasets. These findings highlight fundamental differences in how knowledge injection mechanisms support multi-hop question answering and underscore the importance of retrieval-based methods when external or compositional knowledge is required.
- Abstract(参考訳): マルチホップ質問応答は大規模言語モデル(LLM)の推論能力を評価するために広く用いられている。
従来の研究は、微調整や検索強化生成(RAG)など、LLMに知識を提供するための様々なメカニズムを探求してきたが、特に必要な知識が時間的に新しい場合、マルチホップ質問応答に対する相対的な効果は十分に理解されていない。
本稿では,オープンドメイン型マルチホップ質問応答におけるパラメトリックおよび非パラメトリック知識注入法を体系的に比較する。
本研究では, 教師なしの微調整(continual pretraining), 教師付き微調整, 検索強化生成を3つの7BパラメトリックオープンソースLCMで評価した。
QASCは標準的なマルチホップ科学質問応答データセットであり、2024年のウィキペディアイベントから派生した1万以上のマルチホップ質問のデータセットである。
その結果,教師なし微調整はベースモデルよりも限られた利得しか得られず,継続事前学習だけではマルチホップ推論精度を向上させるには不十分であることが示唆された。
対照的に、検索強化世代は、特に時間的に新しい情報に依存する質問に答えるときに、実質的で一貫した改善をもたらす。
監視された微調整は、モデルとデータセット間で最高の全体的な精度を達成する。
これらの知見は, 知識注入機構がマルチホップ質問応答をどのようにサポートするかの基本的差異を強調し, 外部知識や構成知識が必要な場合の検索手法の重要性を強調した。
関連論文リスト
- Query-Specific GNN: A Comprehensive Graph Representation Learning Method for Retrieval Augmented Generation [23.133432599408327]
マルチホップ質問は、合成された答えを形成するために複数の知識目標を識別する必要がある。
既存の手法はしばしば、複雑な意味構造を持つ質問を完全に理解するのに苦労する。
マルチホップ質問検索のための新しいグラフ表現学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-13T15:41:15Z) - Omne-R1: Learning to Reason with Memory for Multi-hop Question Answering [23.78587569108481]
Omne-R1は、スキーマフリーな知識グラフ上でのマルチホップ質問応答機能を強化するために設計された新しいアプローチである。
本手法では,2つの強化学習フェーズと1つの教師付き微調整フェーズを含む多段階学習ワークフローを用いる。
論文 参考訳(メタデータ) (2025-08-24T12:36:48Z) - R-Tuning: Instructing Large Language Models to Say `I Don't Know' [66.11375475253007]
大きな言語モデル(LLM)は、優れたパフォーマンスで多くのドメインに革命をもたらしたが、それでもその課題に直面している。
事前の指導チューニング方法は、モデルが知識を知っているかどうかに関わらず、モデルに文章を完成させるよう強制する。
我々はRefusal-Aware Instruction Tuning (R-Tuning)と呼ばれる新しいアプローチを提案する。
実験の結果、R-Tuningは、既知の質問に答えたり、未知の質問に答えるのを控えるモデルの能力を効果的に改善することを示した。
論文 参考訳(メタデータ) (2023-11-16T08:45:44Z) - RECKONING: Reasoning through Dynamic Knowledge Encoding [51.076603338764706]
言語モデルは、文脈の一部として提供される知識について推論することで、質問に答えることができることを示す。
これらの状況では、モデルは質問に答えるために必要な知識を区別することができない。
我々は、与えられた文脈知識をモデルのパラメータに折り畳み、より堅牢に推論するようにモデルに教えることを提案する。
論文 参考訳(メタデータ) (2023-05-10T17:54:51Z) - Multi-hop Commonsense Knowledge Injection Framework for Zero-Shot
Commonsense Question Answering [6.086719709100659]
本稿では,新しいマルチホップコモンセンス知識注入フレームワークを提案する。
本フレームワークは,5つの共通知識質問応答ベンチマークにおいて,最先端性能を実現する。
論文 参考訳(メタデータ) (2023-05-10T07:13:47Z) - Understanding and Improving Zero-shot Multi-hop Reasoning in Generative
Question Answering [85.79940770146557]
マルチホップ質問を複数の単一ホップ質問に分解する。
これらの対の見かけ上同一の問合せ連鎖について、QAモデルの答えに顕著な矛盾が認められる。
シングルホップの質問だけを訓練すると、モデルはマルチホップの質問に対してあまり一般化しない。
論文 参考訳(メタデータ) (2022-10-09T11:48:07Z) - Reinforced Multi-task Approach for Multi-hop Question Generation [47.15108724294234]
我々は,その文脈における支援事実に基づいて,関連する質問を生成することを目的としたマルチホップ質問生成を取り上げている。
我々は,質問生成を導くために,回答認識支援事実予測の補助タスクを備えたマルチタスク学習を採用する。
マルチホップ質問応答データセットHotPotQAの実験を通して,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2020-04-05T10:16:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。