論文の概要: PathFinder: MCTS and LLM Feedback-based Path Selection for Multi-Hop Question Answering
- arxiv url: http://arxiv.org/abs/2512.05336v1
- Date: Fri, 05 Dec 2025 00:33:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-13 22:40:56.851044
- Title: PathFinder: MCTS and LLM Feedback-based Path Selection for Multi-Hop Question Answering
- Title(参考訳): PathFinder:マルチホップ質問応答のためのMCTSとLLMフィードバックに基づくパス選択
- Authors: Durga Prasad Maram, Kalpa Gunaratna, Vijay Srinivasan, Haris Jeelani, Srinivas Chappidi,
- Abstract要約: マルチホップ質問応答は、言語モデルが正しい答えに到達するために複数のステップを推論しなければならない難しいタスクである。
i) モンテカルロ木探索を用いてトレーニングパストレースを生成し, (ii) 誤ったトレースと長いトレースをフィルタリングすることでトレーニングデータ品質を向上し, (iii) サブクエリを再構成して検索の失敗に対処するアプローチを提案する。
- 参考スコア(独自算出の注目度): 7.982446458726334
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-hop question answering is a challenging task in which language models must reason over multiple steps to reach the correct answer. With the help of Large Language Models and their reasoning capabilities, existing systems are able to think and decompose an input question over multiple steps to analyze, retrieve, and reason. However, training-based approaches for this problem still suffer from LLM hallucinations and incorrect reasoning paths that hinder performance. Hence, we propose PATHFINDER, an approach that: (i) uses Monte Carlo Tree Search to generate training path traces, (ii) improves training data quality by filtering erroneous and lengthy traces using sub-answer recall and LLM-as-a-judge verification, and (iii) reformulates sub-queries to handle failed retrieval cases. By following these steps, we demonstrate that PATHFINDER improves the performance of multi-hop QA over public benchmark datasets.
- Abstract(参考訳): マルチホップ質問応答は、言語モデルが正しい答えに到達するために複数のステップを推論しなければならない難しいタスクである。
大規模言語モデルとその推論能力の助けを借りて、既存のシステムは、入力質問を複数のステップで考え、分解して分析、検索、推論することができる。
しかし、この問題に対するトレーニングベースのアプローチは、まだLLMの幻覚と、性能を阻害する誤った推論経路に悩まされている。
したがって、我々は以下のアプローチであるPATHFINDERを提案する。
i) Monte Carlo Tree Search を使用して、トレーニングパストレースを生成する。
(II)サブ・アンサー・リコールとLCM-as-a-judgeによる誤り・長期トレースをフィルタリングし、トレーニングデータ品質を向上させる。
三 検索の失敗に対処するためにサブクエリを変更すること。
これらのステップに従うことで、PATHFINDERは、公開ベンチマークデータセットよりもマルチホップQAの性能を向上させることを実証する。
関連論文リスト
- DAGR: Decomposition Augmented Graph Retrieval with LLMs [1.034893617526558]
DAGRは、複雑な質問と、関連するリンクされたサブグラフを抽出するサブクエストにおけるそれらの分解の両方を活用する検索手法である。
結果として得られるGraph-RAGパイプラインは、複雑なマルチホップ質問の処理と、グラフ構造化データに対する効果的な推論に適している。
DAGRを標準マルチホップQAベンチマークで評価し、競合する既存手法に匹敵する性能または優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2025-06-16T11:44:28Z) - Reinforcing Question Answering Agents with Minimalist Policy Gradient Optimization [80.09112808413133]
Mujicaは、質問をサブクエストの非循環グラフに分解するプランナーであり、検索と推論を通じて質問を解決するワーカーである。
MyGOは、従来のポリシー更新を勾配的いいねりの最大推定に置き換える、新しい強化学習手法である。
複数のデータセットにまたがる実験結果から,マルチホップQA性能向上における MujicaMyGO の有効性が示された。
論文 参考訳(メタデータ) (2025-05-20T18:33:03Z) - GRITHopper: Decomposition-Free Multi-Hop Dense Retrieval [52.47514434103737]
GRITHopper-7Bは,最先端性能を実現する新しいマルチホップ高密度検索モデルである。
GRITHopperは、因果言語モデリングと密集した検索訓練を統合することで、生成的および表現的命令チューニングを組み合わせる。
検索後言語モデリングと呼ばれる検索プロセスの後に追加のコンテキストを組み込むことで,検索性能が向上することがわかった。
論文 参考訳(メタデータ) (2025-03-10T16:42:48Z) - Prompting Strategies for Enabling Large Language Models to Infer Causation from Correlation [68.58373854950294]
我々は因果推論に焦点をあて,相関情報に基づく因果関係の確立という課題に対処する。
この問題に対して,元のタスクを固定的なサブクエストに分割するプロンプト戦略を導入する。
既存の因果ベンチマークであるCorr2Causeに対するアプローチを評価した。
論文 参考訳(メタデータ) (2024-12-18T15:32:27Z) - Zero-Shot Multi-Hop Question Answering via Monte-Carlo Tree Search with Large Language Models [19.214387260667348]
本稿ではモンテカルロ木探索(MCTS)に基づくMZQA(Zero-shot Multi-hop Question Answering)を提案する。
従来とは違って,通常はドメインの専門知識を必要とする手作りの少数ショットの例をサポートせずに,命令のみに依存するゼロショットプロンプト手法を提案する。
また,MZQA-BCは自己生成MCTS推論軌道を学習し,解析速度を10倍以上に向上させる。
論文 参考訳(メタデータ) (2024-09-28T15:13:04Z) - Reasoning on Efficient Knowledge Paths:Knowledge Graph Guides Large Language Model for Domain Question Answering [18.94220625114711]
大きな言語モデル(LLM)は驚くほどよく機能し、多くのタスクにおいて人間の専門家より優れています。
本稿では,LLMに基づいてKGから推論経路を選択するパイプラインを統合し,最適化する。
また,思考の連鎖(CoT)とページランクに基づく,シンプルで効果的なサブグラフ検索手法を提案する。
論文 参考訳(メタデータ) (2024-04-16T08:28:16Z) - Few-shot Reranking for Multi-hop QA via Language Model Prompting [56.454088569241534]
オープンドメイン質問を用いたマルチホップQAにおける数点のリランクについて検討した。
本稿では,マルチホップパスの再ランク付けを促す大規模言語モデルに依存するPromptRankを提案する。
PromptRankは、HotpotQA上で128のトレーニング例で強力な検索性能を得る。
論文 参考訳(メタデータ) (2022-05-25T10:45:55Z) - Modeling Multi-hop Question Answering as Single Sequence Prediction [88.72621430714985]
本稿では,単純な生成手法(PathFid)を提案する。
PathFidは、マルチホップ質問に対する回答を解決するための推論プロセスを明示的にモデル化する。
実験の結果,PathFidは2つのマルチホップQAデータセットに対して高い性能向上をもたらすことが示された。
論文 参考訳(メタデータ) (2022-05-18T21:57:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。