論文の概要: FLARE: Faithful Logic-Aided Reasoning and Exploration
- arxiv url: http://arxiv.org/abs/2410.11900v4
- Date: Tue, 21 Jan 2025 14:57:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:18:42.731768
- Title: FLARE: Faithful Logic-Aided Reasoning and Exploration
- Title(参考訳): FLARE: 忠実な論理支援による推論と探索
- Authors: Erik Arakelyan, Pasquale Minervini, Pat Verga, Patrick Lewis, Isabelle Augenstein,
- Abstract要約: タスク分解を用いて問題空間をトラバースする新しい手法を提案する。
我々はLarge Language Modelsを使ってソリューションを計画し、クエリを事実に軟式化し、論理プログラミングコードを使って述語する。
提案手法は,生成したコードに対する推論プロセスの忠実度を計算し,外部の解法に頼らずにマルチホップ探索のステップを解析する。
- 参考スコア(独自算出の注目度): 50.9814063216852
- License:
- Abstract: Modern Question Answering (QA) and Reasoning approaches based on Large Language Models (LLMs) commonly use prompting techniques, such as Chain-of-Thought (CoT), assuming the resulting generation will have a more granular exploration and reasoning over the question space and scope. However, such methods struggle with generating outputs that are faithful to the intermediate chain of reasoning produced by the model. On the other end of the spectrum, neuro-symbolic methods such as Faithful CoT (F-CoT) propose to combine LLMs with external symbolic solvers. While such approaches boast a high degree of faithfulness, they usually require a model trained for code generation and struggle with tasks that are ambiguous or hard to formalise strictly. We introduce $\textbf{F}$aithful $\textbf{L}$ogic-$\textbf{A}$ided $\textbf{R}$easoning and $\textbf{E}$xploration ($\textbf{FLARE}$), a novel interpretable approach for traversing the problem space using task decompositions. We use the LLM to plan a solution, soft-formalise the query into facts and predicates using a logic programming code and simulate that code execution using an exhaustive multi-hop search over the defined space. Our method allows us to compute the faithfulness of the reasoning process w.r.t. the generated code and analyse the steps of the multi-hop search without relying on external solvers. Our methods achieve SOTA results on $\mathbf{7}$ out of $\mathbf{9}$ diverse reasoning benchmarks. We also show that model faithfulness positively correlates with overall performance and further demonstrate that $\textbf{FLARE}$ allows pinpointing the decisive factors sufficient for and leading to the correct answer with optimal reasoning during the multi-hop search.
- Abstract(参考訳): 現代の質問回答 (QA) と、Large Language Models (LLMs) に基づく推論アプローチは、一般的にはChain-of-Thought (CoT) のようなプロンプト技術を用いており、結果として生成される生成物は、質問空間とスコープに関してよりきめ細かい探索と推論を行う。
しかし、そのような手法はモデルが生成する中間的推論の連鎖に忠実な出力を生成するのに苦労する。
スペクトルの反対側では、Fhithful CoT (F-CoT) のようなニューロシンボリックな手法がLSMと外部シンボリックな解法を組み合わせることを提案している。
このようなアプローチには高い信頼度があるが、コード生成のために訓練されたモデルと、厳密な形式化が困難で曖昧なタスクとの闘いが通常必要である。
タスク分解を用いて問題空間をトラバースする新しい解釈可能なアプローチである$\textbf{F}$aithful $\textbf{L}$ogic-$\textbf{A}$ided $\textbf{R}$easoning and $\textbf{E}$xploration$\textbf{FLARE}$。
我々はLLMを用いて解を計画し、クエリを事実に軟式化し、論理プログラミングコードを用いて述語し、そのコードの実行を定義空間上の徹底的なマルチホップ探索を用いてシミュレートする。
提案手法は,生成したコードに対する推論プロセスの忠実度を計算し,外部の解法に頼らずにマルチホップ探索のステップを解析する。
我々の方法は、$\mathbf{7}$$$\mathbf{9}$多様な推論ベンチマークのSOTA結果を達成する。
また、モデル忠実度が全体的な性能と正に相関していることを示し、さらに$\textbf{FLARE}$は、決定的要因をピンポイントし、マルチホップ探索中に最適な推論を行うための正しい答えにつながることを証明した。
関連論文リスト
- Enhancing Reasoning Capabilities of LLMs via Principled Synthetic Logic Corpus [13.276829763453433]
大規模言語モデル(LLM)は幅広いタスクを解くことができるが、推論に苦戦している。
本稿では,プログラム生成論理推論サンプルを用いてLLMの推論能力を高めることを目的として,$textbfAdditional Logic Training (ALT)$を提案する。
論文 参考訳(メタデータ) (2024-11-19T13:31:53Z) - To CoT or not to CoT? Chain-of-thought helps mainly on math and symbolic reasoning [55.52872152909785]
Chain-of-Thought (CoT) は,大規模言語モデル (LLM) から推論能力を引き出すデファクト手法である。
私たちは、CoTが主に数学や論理学を含むタスクに強いパフォーマンス上の利点をもたらし、他のタスクよりもはるかに少ない利益をもたらすことを示しています。
論文 参考訳(メタデータ) (2024-09-18T17:55:00Z) - Great Memory, Shallow Reasoning: Limits of $k$NN-LMs [71.73611113995143]
検索とnext-word予測を統合した$k$NN-LMsは、言語モデリングにおいて強力な性能を示している。
この改良された情報リコール能力が、本当に下流の能力に変換されるかどうかを問う。
論文 参考訳(メタデータ) (2024-08-21T17:59:05Z) - Randomized Exploration in Cooperative Multi-Agent Reinforcement Learning [15.46907000938726]
協調型マルチエージェント強化学習(MARL)における確率的ランダム化探索に関する最初の研究について述べる。
並列マルコフ決定過程(MDP)におけるランダム化探索のための統一されたアルゴリズムフレームワークと,2つのトンプソンサンプリング型アルゴリズムであるCoopTS-PHEとCoopTS-LMCを提案する。
提案手法は, 深層探査問題 (textiti.e.$N$-chain) , ビデオゲーム, エネルギーシステムにおける実世界の問題などを含む, 並列RL環境における提案手法の評価を行う。
論文 参考訳(メタデータ) (2024-04-16T17:01:38Z) - Can Large Language Models Play Games? A Case Study of A Self-Play
Approach [61.15761840203145]
LLM(Large Language Models)は、インターネットからの広範なデータを利用して、幅広い事前知識を格納する。
Monte-Carlo Tree Search (MCTS)は、信頼性の高い意思決定ソリューションを提供する検索アルゴリズムである。
この研究は、ターンベースのゼロサムゲームを効率的に解決するために、MCTSセルフプレイでLLMを活性化させる革新的なアプローチを導入している。
論文 参考訳(メタデータ) (2024-03-08T19:16:29Z) - Reasoning with Language Model is Planning with World Model [27.24144881796878]
大規模言語モデル(LLM)は、顕著な推論能力を示している。
LLMには、世界を予測するための$textitworldモデルがない。
我々は新しいLCM推論フレームワークである$underlineR$easoning vi$underlinea$$underlineP$lanning $textbf(RAP)$を提案する。
論文 参考訳(メタデータ) (2023-05-24T10:28:28Z) - Self-Evaluation Guided Beam Search for Reasoning [61.523627290397556]
我々は,Large Language Model (LLM) の推論プロセスのガイドと校正を行うための段階的自己評価機構を導入する。
本稿では,ビームサーチによる自己評価ガイダンスを統合した復号アルゴリズムを提案する。
我々のアプローチは、GSM8K、AQuA、StrategyQAにおいて、対応するCodexバックボンドベースラインをわずかに精度6.34%、9.56%、および5.46%で上回る。
論文 参考訳(メタデータ) (2023-05-01T02:37:59Z) - ConvFinQA: Exploring the Chain of Numerical Reasoning in Conversational
Finance Question Answering [70.6359636116848]
本稿では,対話型質問応答における数値推論の連鎖を研究するために,新しい大規模データセットConvFinQAを提案する。
我々のデータセットは、現実世界の会話において、長距離で複雑な数値推論パスをモデル化する上で大きな課題となる。
論文 参考訳(メタデータ) (2022-10-07T23:48:50Z) - A Few Expert Queries Suffices for Sample-Efficient RL with Resets and
Linear Value Approximation [16.29514743112387]
最適値関数のみを線形化可能な設定において、サンプル効率のよい強化学習(RL)について検討する。
専門的なクエリと探索をブレンドするための統計的・計算学的に効率的なアルゴリズム(Delphi)を提案する。
Delphi には $tildemathcalO(d)$ エキスパートクエリと $texttpoly(d,|mathcalA|,1/varepsilon)$ 探索サンプルの量が必要です。
論文 参考訳(メタデータ) (2022-07-18T01:39:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。