論文の概要: Faithful Reasoning Using Large Language Models
- arxiv url: http://arxiv.org/abs/2208.14271v1
- Date: Tue, 30 Aug 2022 13:44:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-31 12:25:38.974176
- Title: Faithful Reasoning Using Large Language Models
- Title(参考訳): 大規模言語モデルを用いた忠実推論
- Authors: Antonia Creswell and Murray Shanahan
- Abstract要約: 因果構造が問題の根底にある論理構造を反映するプロセスを通じて、LMを忠実な多段階推論を行う方法を示す。
我々の手法は、各ステップが2つの微調整されたLMへの呼び出しから得られる推論ステップをチェーンすることで機能する。
我々は,多段階論理推論と科学的質問応答におけるモデルの有効性を実証し,最終的な解答精度のベースラインよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 12.132449274592668
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although contemporary large language models (LMs) demonstrate impressive
question-answering capabilities, their answers are typically the product of a
single call to the model. This entails an unwelcome degree of opacity and
compromises performance, especially on problems that are inherently multi-step.
To address these limitations, we show how LMs can be made to perform faithful
multi-step reasoning via a process whose causal structure mirrors the
underlying logical structure of the problem. Our approach works by chaining
together reasoning steps, where each step results from calls to two fine-tuned
LMs, one for selection and one for inference, to produce a valid reasoning
trace. Our method carries out a beam search through the space of reasoning
traces to improve reasoning quality. We demonstrate the effectiveness of our
model on multi-step logical deduction and scientific question-answering,
showing that it outperforms baselines on final answer accuracy, and generates
humanly interpretable reasoning traces whose validity can be checked by the
user.
- Abstract(参考訳): 現代の大言語モデル(lms)は印象的な質問応答能力を示しているが、その答えはモデルへの単一の呼び出しの産物である。
これは不透明な程度を満足させ、特に本質的にマルチステップである問題においてパフォーマンスを損なう。
これらの制限に対処するために, 因果構造が問題の根底にある論理構造を反映したプロセスを通じて, lmsが忠実な多段階推論を行う方法を示す。
提案手法では,各ステップが2つの微調整されたLMへのコール,1つは選択用,1つは推論用,それぞれから,有効な推論トレースを生成する。
提案手法は,推論品質を向上させるために,推論トレースの空間をビームサーチする。
本稿では,マルチステップ論理推論と科学的質問応答に対するモデルの有効性を実証し,最終回答の精度でベースラインを上回り,ユーザによる妥当性確認が可能な人間解釈可能な推論トレースを生成する。
関連論文リスト
- Make LLMs better zero-shot reasoners: Structure-orientated autonomous reasoning [52.83539473110143]
本稿では,Large Language Models (LLM) の質問をよりよく理解するための構造指向分析手法を提案する。
複雑な質問応答タスクの信頼性をさらに向上するために,多エージェント推論システム,構造指向自律推論エージェント(SARA)を提案する。
大規模な実験により,提案システムの有効性が検証された。
論文 参考訳(メタデータ) (2024-10-18T05:30:33Z) - P-FOLIO: Evaluating and Improving Logical Reasoning with Abundant Human-Written Reasoning Chains [97.25943550933829]
P-FOLIO(P-FOLIO)は、多種多様で複雑な推論連鎖からなる人称注釈付きデータセットである。
我々はP-FOLIOを用いて大規模言語モデル推論機能の評価と改善を行う。
論文 参考訳(メタデータ) (2024-10-11T19:22:57Z) - Seemingly Plausible Distractors in Multi-Hop Reasoning: Are Large Language Models Attentive Readers? [6.525065859315515]
大規模言語モデル (LLM) がマルチホップ推論ベンチマークの簡易化に有効かどうかを検討する。
この発見に触発されて、我々は、もっともらしいマルチホップ推論連鎖を生成することで、挑戦的なマルチホップ推論ベンチマークを提案する。
その結果, マルチホップ推論の性能はF1スコアの45%まで低下していることがわかった。
論文 参考訳(メタデータ) (2024-09-08T19:22:58Z) - A Closer Look at the Self-Verification Abilities of Large Language Models in Logical Reasoning [73.77088902676306]
論理的推論の文脈において,大規模言語モデル(LLM)の自己検証能力について詳しく検討する。
本研究の主目的は,既存のLCMが誤った推論手順を正確に識別するのに苦労し,自己検証法の有効性を保証できないことにある。
論文 参考訳(メタデータ) (2023-11-14T07:13:10Z) - Language Models can be Logical Solvers [99.40649402395725]
論理解法の推論過程を直接エミュレートする新しい言語モデルであるLoGiPTを導入する。
LoGiPTは、導出的ソルバの見えない推論過程を明らかにして精錬することから導かれる、新しく構築された命令チューニングデータセットに基づいて微調整される。
論文 参考訳(メタデータ) (2023-11-10T16:23:50Z) - Assessing Step-by-Step Reasoning against Lexical Negation: A Case Study
on Syllogism [19.590120229602103]
大規模言語モデル(LLM)は、ステップバイステップの推論命令、例えばチェーン・オブ・シント(CoT)プロンプトを利用する。
本研究では, 否定に着目したLCMのステップバイステップ推論能力について検討する。
論文 参考訳(メタデータ) (2023-10-23T12:40:41Z) - Towards a Mechanistic Interpretation of Multi-Step Reasoning
Capabilities of Language Models [107.07851578154242]
言語モデル(LM)は強力な多段階推論能力を持つ。
LMが事前学習コーパスから記憶された回答を不正に処理するか,多段階推論機構を用いてタスクを実行するかは明らかでない。
メカニスティックプローブは,ほとんどの例において,モデルの注意から推論ツリーの情報を検出することができることを示す。
論文 参考訳(メタデータ) (2023-10-23T01:47:29Z) - Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical Reasoning Capabilities of Language Models [56.34029644009297]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。
LLMは誘導的推論において最も優れているが、誘導的推論では最も効果が低い。
モデルの性能を評価するため,シングルタスクトレーニング,マルチタスクトレーニング,および「チェーンオブ思考」知識蒸留細調整技術について検討した。
論文 参考訳(メタデータ) (2023-10-02T01:00:50Z) - Deductive Verification of Chain-of-Thought Reasoning [22.79166959432764]
大型言語モデル(LLM)は、様々な推論タスクを実行する上で、Chain-of-Thoughtの恩恵を受ける。
CoTはモデルがより包括的な推論プロセスを生成することを可能にするが、中間的推論ステップに重点を置くことは、必然的に幻覚や累積エラーをもたらす可能性がある。
本研究では,自然言語に基づく帰納的推論形式であるNatural Programを提案する。
論文 参考訳(メタデータ) (2023-06-06T17:18:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。