論文の概要: Furthest Reasoning with Plan Assessment: Stable Reasoning Path with
Retrieval-Augmented Large Language Models
- arxiv url: http://arxiv.org/abs/2309.12767v1
- Date: Fri, 22 Sep 2023 10:15:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-25 15:00:20.175615
- Title: Furthest Reasoning with Plan Assessment: Stable Reasoning Path with
Retrieval-Augmented Large Language Models
- Title(参考訳): プランアセスメントによる最も深い推論--検索型大規模言語モデルを用いた安定した推論経路
- Authors: Yin Zhu, Zhiling Luo, Gong Cheng
- Abstract要約: MHQA(Multi-Hop Question Answering)は広く議論されているカテゴリである。
既存の手法では、推論パスと計画を生成するためにLarge Language Models (LLM) を採用している。
We propose a novel pipeline for MHQA called Furthest-Reasoning-with-Plan-Assessment (FuRePA)。
- 参考スコア(独自算出の注目度): 10.04323204974924
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs), acting as a powerful reasoner and generator,
exhibit extraordinary performance across various natural language tasks, such
as question answering (QA). Among these tasks, Multi-Hop Question Answering
(MHQA) stands as a widely discussed category, necessitating seamless
integration between LLMs and the retrieval of external knowledge. Existing
methods employ LLM to generate reasoning paths and plans, and utilize IR to
iteratively retrieve related knowledge, but these approaches have inherent
flaws. On one hand, Information Retriever (IR) is hindered by the low quality
of generated queries by LLM. On the other hand, LLM is easily misguided by the
irrelevant knowledge by IR. These inaccuracies, accumulated by the iterative
interaction between IR and LLM, lead to a disaster in effectiveness at the end.
To overcome above barriers, in this paper, we propose a novel pipeline for MHQA
called Furthest-Reasoning-with-Plan-Assessment (FuRePA), including an improved
framework (Furthest Reasoning) and an attached module (Plan Assessor). 1)
Furthest reasoning operates by masking previous reasoning path and generated
queries for LLM, encouraging LLM generating chain of thought from scratch in
each iteration. This approach enables LLM to break the shackle built by
previous misleading thoughts and queries (if any). 2) The Plan Assessor is a
trained evaluator that selects an appropriate plan from a group of candidate
plans proposed by LLM. Our methods are evaluated on three highly recognized
public multi-hop question answering datasets and outperform state-of-the-art on
most metrics (achieving a 10%-12% in answer accuracy).
- Abstract(参考訳): 大きな言語モデル(LLM)は強力な推論器とジェネレータとして機能し、質問応答(QA)など、様々な自然言語タスクで素晴らしいパフォーマンスを示す。
これらの課題の中で、Multi-Hop Question Answering (MHQA) は広く議論されているカテゴリであり、LLM間のシームレスな統合と外部知識の検索が必要である。
既存の手法では LLM を用いて推論経路と計画を生成し、IR を用いて関連知識を反復的に検索するが、これらの手法には固有の欠点がある。
一方、情報検索(IR)はLLMによって生成されたクエリの低品質化によって妨げられる。
一方、LLMはIRによる無関係な知識によって容易に誤解される。
これらの不正確さは、IRとLLMの反復的な相互作用によって蓄積され、最終的に効率の低下につながる。
上記の障壁を克服するため,本稿では,改良された枠組み(ファーザー推論)と付属モジュール(プラン評価器)を含む,furthest-reasoning-with-plan-assessment(furepa)と呼ばれるmhqaの新しいパイプラインを提案する。
1) 従来の推論経路をマスキングし, LLMのクエリを生成することにより, 各イテレーションのスクラッチからLLMの思考連鎖を生成する。
このアプローチにより、LLMは以前の誤解を招く考えやクエリ(もしあれば)によって構築されたシャクルを壊すことができる。
2)Plan Assessorは、LLMが提案する候補計画群から適切なプランを選択する訓練された評価器である。
提案手法は,広く認知されている3つのマルチホップ質問応答データセットを用いて評価し,ほとんどの指標(解答精度が10%-12%)において最先端であることを示す。
関連論文リスト
- Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。
LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。
本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文 参考訳(メタデータ) (2024-06-20T13:08:09Z) - From Words to Actions: Unveiling the Theoretical Underpinnings of LLM-Driven Autonomous Systems [59.40480894948944]
大規模言語モデル (LLM) は、物理世界の意思決定問題を解くことができる。
このモデルの下で、LLM Plannerは、プロンプトを介して言語ベースのサブゴールを反復的に生成することにより、部分的に観測可能なマルコフ決定プロセス(POMDP)をナビゲートする。
我々は,事前学習したLLMプランナーが,文脈内学習を通じてベイズ的集計模倣学習(BAIL)を効果的に行うことを証明した。
論文 参考訳(メタデータ) (2024-05-30T09:42:54Z) - Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration [70.09561665520043]
本稿では,多エージェント協調のための新しいフレームワークを提案する。これは,効率的な自己調整のための強化アドバンテージフィードバック(Reinforced Advantage feedback, ReAd)を導入する。
強化学習における重み付き回帰を多エージェントシステムに拡張して理論的解析を行う。
Over-AIと難解なRoCoBenchの実験は、ReAdが成功率のベースラインを超え、エージェントの相互作用ステップを著しく減少させることを示している。
論文 参考訳(メタデータ) (2024-05-23T08:33:19Z) - Reasoning on Efficient Knowledge Paths:Knowledge Graph Guides Large Language Model for Domain Question Answering [18.94220625114711]
大きな言語モデル(LLM)は驚くほどよく機能し、多くのタスクにおいて人間の専門家より優れています。
本稿では,LLMに基づいてKGから推論経路を選択するパイプラインを統合し,最適化する。
また,思考の連鎖(CoT)とページランクに基づく,シンプルで効果的なサブグラフ検索手法を提案する。
論文 参考訳(メタデータ) (2024-04-16T08:28:16Z) - SatLM: Satisfiability-Aided Language Models Using Declarative Prompting [68.40726892904286]
本研究では,大規模言語モデル (LLM) の推論能力を向上させるために,新しい満足度支援言語モデリング (SatLM) 手法を提案する。
我々はLLMを用いて命令型プログラムではなく宣言型タスク仕様を生成し、既製の自動定理証明器を利用して最終解を導出する。
我々はSATLMを8つの異なるデータセット上で評価し、命令パラダイムにおいてプログラム支援されたLMよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-05-16T17:55:51Z) - Search-in-the-Chain: Interactively Enhancing Large Language Models with
Search for Knowledge-intensive Tasks [121.74957524305283]
本稿では、情報検索(IR)とLarge Language Model(LLM)のインタラクションのための、textbfSearch-in-the-Chain(SearChain)という新しいフレームワークを提案する。
実験の結果、SearChainは複雑な知識集約タスクにおける最先端のベースラインを上回っていることがわかった。
論文 参考訳(メタデータ) (2023-04-28T10:15:25Z) - Rethinking with Retrieval: Faithful Large Language Model Inference [91.66406351103484]
我々は検索(RR)で再考する新しいポストプロセッシング手法を提案する。
RRは、チェーン・オブ・シークレット・プロンプトから得られた推論ステップに基づいて、関連する外部知識を検索する。
複雑な3つの推論課題に対する GPT-3 を用いた広範囲な実験により RR の有効性を評価する。
論文 参考訳(メタデータ) (2022-12-31T22:35:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。