論文の概要: Deductive Beam Search: Decoding Deducible Rationale for Chain-of-Thought Reasoning
- arxiv url: http://arxiv.org/abs/2401.17686v3
- Date: Sat, 19 Oct 2024 07:24:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:13:50.824461
- Title: Deductive Beam Search: Decoding Deducible Rationale for Chain-of-Thought Reasoning
- Title(参考訳): デダクティブビームサーチ:チェーン・オブ・ソート推論のためのデコード可能な推論
- Authors: Tinghui Zhu, Kai Zhang, Jian Xie, Yu Su,
- Abstract要約: 従来の手法では中間段階の推論エラーに対処できず、累積誤差が発生する。
本稿では,大規模言語モデルのステップワイド・ビームサーチとチェーン・オブ・シント推論をシームレスに統合する,導出ビームサーチ(DBS)を提案する。
提案手法は検証器をデプロイし,推論ステップとその前提の再現性を検証し,エラーの蓄積を軽減する。
- 参考スコア(独自算出の注目度): 10.86233584217013
- License:
- Abstract: Recent advancements have significantly augmented the reasoning capabilities of Large Language Models (LLMs) through various methodologies, especially chain-of-thought (CoT) reasoning. However, previous methods fail to address reasoning errors in intermediate steps, leading to accumulative errors. In this paper, we propose Deductive Beam Search (DBS), which seamlessly integrates CoT and deductive reasoning with step-wise beam search for LLMs. Our approach deploys a verifier, verifying the deducibility of a reasoning step and its premises, thus alleviating the error accumulation. Furthermore, we introduce a scalable and labor-free data construction method to amplify our model's verification capabilities. Extensive experiments demonstrate that our approach significantly enhances the base performance of LLMs of various scales (7B, 13B, 70B, and ChatGPT) across 8 reasoning datasets from 3 diverse reasoning genres, including arithmetic, commonsense, and symbolic. Moreover, our analysis proves DBS's capability of detecting diverse and subtle reasoning errors and robustness on different model scales.
- Abstract(参考訳): 近年の進歩は、大規模言語モデル(LLM)の推論能力を様々な手法、特にチェーン・オブ・シント(CoT)推論を通じて大幅に強化している。
しかし、従来の手法では中間段階の推論誤差に対処できず、累積誤差が生じる。
本稿では,CoTと導出推論をシームレスに統合し,ステップワイズでLLMを探索するDBSを提案する。
提案手法は検証器をデプロイし,推論ステップとその前提の再現性を検証し,エラーの蓄積を軽減する。
さらに、我々のモデルの検証能力を増幅するために、スケーラブルで労働力のないデータ構築手法を導入する。
提案手法は,算術,コモンセンス,記号を含む3つの推論ジャンルから得られた8つの推論データセットに対して,様々なスケール (7B, 13B, 70B, ChatGPT) のLCMのベース性能を著しく向上することを示した。
さらに,本分析は,様々なモデルスケールにおいて,多様かつ微妙な推論誤差とロバスト性を検出するDBSの能力を証明している。
関連論文リスト
- Boosting Deductive Reasoning with Step Signals In RLHF [15.441793744822457]
我々は,帰納的推論データのためのMulti-step Deduction (MuseD) という自動手法を開発した。
MuseDは、マルチステップ推論のためのトレーニングとテストデータセットの作成を可能にしました。
トレーニングデータでは、ドメイン内推論タスクのいずれにおいても、論理的能力が大幅に向上した。
論文 参考訳(メタデータ) (2024-10-12T13:19:11Z) - Unveiling the Statistical Foundations of Chain-of-Thought Prompting Methods [59.779795063072655]
CoT(Chain-of-Thought)の促進とその変種は、多段階推論問題を解決する効果的な方法として人気を集めている。
統計的推定の観点からCoTのプロンプトを解析し,その複雑さを包括的に評価する。
論文 参考訳(メタデータ) (2024-08-25T04:07:18Z) - Fine-Tuning with Divergent Chains of Thought Boosts Reasoning Through Self-Correction in Language Models [63.36637269634553]
本稿では,複数の推論連鎖を比較するためにモデルを必要とすることによって,性能を向上する新しい手法を提案する。
DCoTデータセットの命令チューニングにより、より小さく、よりアクセスしやすい言語モデルの性能が向上することがわかった。
論文 参考訳(メタデータ) (2024-07-03T15:01:18Z) - General Purpose Verification for Chain of Thought Prompting [16.381123651223763]
大規模言語モデル(LLM)の推論能力を改善する方法について検討する。
我々は、モデルが推論中に従うべき3つの一般的な原則を提案する。
これらの制約をLLMが生成する推論ステップに適用し、最終生成の精度を向上させる。
論文 参考訳(メタデータ) (2024-04-30T21:15:17Z) - PathFinder: Guided Search over Multi-Step Reasoning Paths [80.56102301441899]
木探索に基づく推論経路生成手法であるPathFinderを提案する。
動的デコードの統合により、多様な分岐とマルチホップ推論を強化する。
我々のモデルは、大きな分岐因子を持つビームサーチに類似した複雑さを反映して、よく、長く、目に見えない推論連鎖を一般化する。
論文 参考訳(メタデータ) (2023-12-08T17:05:47Z) - A Closer Look at the Self-Verification Abilities of Large Language Models in Logical Reasoning [73.77088902676306]
論理的推論の文脈において,大規模言語モデル(LLM)の自己検証能力について詳しく検討する。
本研究の主目的は,既存のLCMが誤った推論手順を正確に識別するのに苦労し,自己検証法の有効性を保証できないことにある。
論文 参考訳(メタデータ) (2023-11-14T07:13:10Z) - Noisy Exemplars Make Large Language Models More Robust: A
Domain-Agnostic Behavioral Analysis [10.06218778776515]
ドメインに依存しない摂動によるマルチホップ推論タスクにおいて,大規模言語モデル(LLM)の堅牢性をテストするための体系的手法を提案する。
モデルは、単語を同義語に置き換えるなど、特定の摂動に対してより敏感であることがわかった。
また,プロンプトにおける摂動例の割合の増加は,数発のプロンプト手法の堅牢性を向上させることを実証した。
論文 参考訳(メタデータ) (2023-11-01T03:15:05Z) - Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical Reasoning Capabilities of Language Models [56.34029644009297]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。
LLMは誘導的推論において最も優れているが、誘導的推論では最も効果が低い。
モデルの性能を評価するため,シングルタスクトレーニング,マルチタスクトレーニング,および「チェーンオブ思考」知識蒸留細調整技術について検討した。
論文 参考訳(メタデータ) (2023-10-02T01:00:50Z) - Enhancing Chain-of-Thoughts Prompting with Iterative Bootstrapping in Large Language Models [81.01397924280612]
大規模言語モデル (LLM) は、ステップ・バイ・ステップ・チェーン・オブ・シークレット (CoT) をデモンストレーションとして組み込むことで、様々な推論タスクにおいて高い効果的な性能を達成することができる。
本稿では,イターCoT (Iterative bootstrapping in Chain-of-Thoughts Prompting) を導入する。
論文 参考訳(メタデータ) (2023-04-23T13:54:39Z) - Faithful Reasoning Using Large Language Models [12.132449274592668]
因果構造が問題の根底にある論理構造を反映するプロセスを通じて、LMを忠実な多段階推論を行う方法を示す。
我々の手法は、各ステップが2つの微調整されたLMへの呼び出しから得られる推論ステップをチェーンすることで機能する。
我々は,多段階論理推論と科学的質問応答におけるモデルの有効性を実証し,最終的な解答精度のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-08-30T13:44:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。