論文の概要: PathFinder: MCTS and LLM Feedback-based Path Selection for Multi-Hop Question Answering
- arxiv url: http://arxiv.org/abs/2512.05336v1
- Date: Fri, 05 Dec 2025 00:33:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-13 22:40:56.851044
- Title: PathFinder: MCTS and LLM Feedback-based Path Selection for Multi-Hop Question Answering
- Title(参考訳): PathFinder:マルチホップ質問応答のためのMCTSとLLMフィードバックに基づくパス選択
- Authors: Durga Prasad Maram, Kalpa Gunaratna, Vijay Srinivasan, Haris Jeelani, Srinivas Chappidi,
- Abstract要約: マルチホップ質問応答は、言語モデルが正しい答えに到達するために複数のステップを推論しなければならない難しいタスクである。
i) モンテカルロ木探索を用いてトレーニングパストレースを生成し, (ii) 誤ったトレースと長いトレースをフィルタリングすることでトレーニングデータ品質を向上し, (iii) サブクエリを再構成して検索の失敗に対処するアプローチを提案する。
- 参考スコア(独自算出の注目度): 7.982446458726334
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-hop question answering is a challenging task in which language models must reason over multiple steps to reach the correct answer. With the help of Large Language Models and their reasoning capabilities, existing systems are able to think and decompose an input question over multiple steps to analyze, retrieve, and reason. However, training-based approaches for this problem still suffer from LLM hallucinations and incorrect reasoning paths that hinder performance. Hence, we propose PATHFINDER, an approach that: (i) uses Monte Carlo Tree Search to generate training path traces, (ii) improves training data quality by filtering erroneous and lengthy traces using sub-answer recall and LLM-as-a-judge verification, and (iii) reformulates sub-queries to handle failed retrieval cases. By following these steps, we demonstrate that PATHFINDER improves the performance of multi-hop QA over public benchmark datasets.
- Abstract(参考訳): マルチホップ質問応答は、言語モデルが正しい答えに到達するために複数のステップを推論しなければならない難しいタスクである。
大規模言語モデルとその推論能力の助けを借りて、既存のシステムは、入力質問を複数のステップで考え、分解して分析、検索、推論することができる。
しかし、この問題に対するトレーニングベースのアプローチは、まだLLMの幻覚と、性能を阻害する誤った推論経路に悩まされている。
したがって、我々は以下のアプローチであるPATHFINDERを提案する。
i) Monte Carlo Tree Search を使用して、トレーニングパストレースを生成する。
(II)サブ・アンサー・リコールとLCM-as-a-judgeによる誤り・長期トレースをフィルタリングし、トレーニングデータ品質を向上させる。
三 検索の失敗に対処するためにサブクエリを変更すること。
これらのステップに従うことで、PATHFINDERは、公開ベンチマークデータセットよりもマルチホップQAの性能を向上させることを実証する。
関連論文リスト
- Research on Multi-hop Inference Optimization of LLM Based on MQUAKE Framework [3.433214967077916]
本稿では,MQUAKEフレームワーク内での複雑な質問に対するマルチホップ質問分解法を提案する。
モデル学習前後のモデル理解と推論精度に及ぼす知識グラフ内のマルチホップ質問分解の影響について検討する。
論文 参考訳(メタデータ) (2025-09-05T02:58:45Z) - DAGR: Decomposition Augmented Graph Retrieval with LLMs [1.034893617526558]
DAGRは、複雑な質問と、関連するリンクされたサブグラフを抽出するサブクエストにおけるそれらの分解の両方を活用する検索手法である。
結果として得られるGraph-RAGパイプラインは、複雑なマルチホップ質問の処理と、グラフ構造化データに対する効果的な推論に適している。
DAGRを標準マルチホップQAベンチマークで評価し、競合する既存手法に匹敵する性能または優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2025-06-16T11:44:28Z) - Reinforcing Question Answering Agents with Minimalist Policy Gradient Optimization [80.09112808413133]
Mujicaは、質問をサブクエストの非循環グラフに分解するプランナーであり、検索と推論を通じて質問を解決するワーカーである。
MyGOは、従来のポリシー更新を勾配的いいねりの最大推定に置き換える、新しい強化学習手法である。
複数のデータセットにまたがる実験結果から,マルチホップQA性能向上における MujicaMyGO の有効性が示された。
論文 参考訳(メタデータ) (2025-05-20T18:33:03Z) - ReSearch: Learning to Reason with Search for LLMs via Reinforcement Learning [74.65632662894086]
本稿では,強化学習を通じてLLMをReason with Searchに学習するフレームワークであるReSearchを提案する。
提案手法では,検索操作を推論チェーンの不可欠な要素として扱う。
分析によると、ReSearchは自然にリフレクションや自己訂正のような高度な推論機能を引き出す。
論文 参考訳(メタデータ) (2025-03-25T09:00:58Z) - GRITHopper: Decomposition-Free Multi-Hop Dense Retrieval [52.47514434103737]
GRITHopper-7Bは,最先端性能を実現する新しいマルチホップ高密度検索モデルである。
GRITHopperは、因果言語モデリングと密集した検索訓練を統合することで、生成的および表現的命令チューニングを組み合わせる。
検索後言語モデリングと呼ばれる検索プロセスの後に追加のコンテキストを組み込むことで,検索性能が向上することがわかった。
論文 参考訳(メタデータ) (2025-03-10T16:42:48Z) - Prompting Strategies for Enabling Large Language Models to Infer Causation from Correlation [68.58373854950294]
我々は因果推論に焦点をあて,相関情報に基づく因果関係の確立という課題に対処する。
この問題に対して,元のタスクを固定的なサブクエストに分割するプロンプト戦略を導入する。
既存の因果ベンチマークであるCorr2Causeに対するアプローチを評価した。
論文 参考訳(メタデータ) (2024-12-18T15:32:27Z) - An Entailment Tree Generation Approach for Multimodal Multi-Hop Question Answering with Mixture-of-Experts and Iterative Feedback Mechanism [14.479060028732803]
マルチモーダルなマルチホップ質問応答の現在の手法は、主に2つの課題に直面している。
大量の冗長な情報を含む検索された証拠は、性能を著しく低下させる。
解釈可能な推論ステップのない推論プロセスは、複雑な問題を扱うための論理的誤りを発見するのを難しくする。
論文 参考訳(メタデータ) (2024-12-08T05:47:55Z) - Zero-Shot Multi-Hop Question Answering via Monte-Carlo Tree Search with Large Language Models [19.214387260667348]
本稿ではモンテカルロ木探索(MCTS)に基づくMZQA(Zero-shot Multi-hop Question Answering)を提案する。
従来とは違って,通常はドメインの専門知識を必要とする手作りの少数ショットの例をサポートせずに,命令のみに依存するゼロショットプロンプト手法を提案する。
また,MZQA-BCは自己生成MCTS推論軌道を学習し,解析速度を10倍以上に向上させる。
論文 参考訳(メタデータ) (2024-09-28T15:13:04Z) - FSM: A Finite State Machine Based Zero-Shot Prompting Paradigm for Multi-Hop Question Answering [26.398873686905063]
大きな言語モデル (LLM) とチェーン・オブ・シント (COT) のプロンプトは、単純な自然言語推論タスクにおいて印象的な能力を示している。
本稿では,複雑なタスクに対するLLMの推論能力を高めるために,FSM(Finite State Machine)というプロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-07-03T10:01:01Z) - Reasoning on Efficient Knowledge Paths:Knowledge Graph Guides Large Language Model for Domain Question Answering [18.94220625114711]
大きな言語モデル(LLM)は驚くほどよく機能し、多くのタスクにおいて人間の専門家より優れています。
本稿では,LLMに基づいてKGから推論経路を選択するパイプラインを統合し,最適化する。
また,思考の連鎖(CoT)とページランクに基づく,シンプルで効果的なサブグラフ検索手法を提案する。
論文 参考訳(メタデータ) (2024-04-16T08:28:16Z) - PathFinder: Guided Search over Multi-Step Reasoning Paths [80.56102301441899]
木探索に基づく推論経路生成手法であるPathFinderを提案する。
動的デコードの統合により、多様な分岐とマルチホップ推論を強化する。
我々のモデルは、大きな分岐因子を持つビームサーチに類似した複雑さを反映して、よく、長く、目に見えない推論連鎖を一般化する。
論文 参考訳(メタデータ) (2023-12-08T17:05:47Z) - Few-shot Reranking for Multi-hop QA via Language Model Prompting [56.454088569241534]
オープンドメイン質問を用いたマルチホップQAにおける数点のリランクについて検討した。
本稿では,マルチホップパスの再ランク付けを促す大規模言語モデルに依存するPromptRankを提案する。
PromptRankは、HotpotQA上で128のトレーニング例で強力な検索性能を得る。
論文 参考訳(メタデータ) (2022-05-25T10:45:55Z) - Modeling Multi-hop Question Answering as Single Sequence Prediction [88.72621430714985]
本稿では,単純な生成手法(PathFid)を提案する。
PathFidは、マルチホップ質問に対する回答を解決するための推論プロセスを明示的にモデル化する。
実験の結果,PathFidは2つのマルチホップQAデータセットに対して高い性能向上をもたらすことが示された。
論文 参考訳(メタデータ) (2022-05-18T21:57:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。