論文の概要: Discriminator-Guided Multi-step Reasoning with Language Models
- arxiv url: http://arxiv.org/abs/2305.14934v1
- Date: Wed, 24 May 2023 09:16:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 17:44:23.559697
- Title: Discriminator-Guided Multi-step Reasoning with Language Models
- Title(参考訳): 言語モデルを用いた識別器誘導多段階推論
- Authors: Muhammad Khalifa, Lajanugen Logeswaran, Moontae Lee, Honglak Lee, Lu
Wang
- Abstract要約: 修正Essディスクリミネータ(GRACE)を用いた誘導多段階推論について紹介する。
GRACEは、正しい推論ステップを生成するためのモデルを段階的にデコードするアプローチである。
従来の復号法と比較すると、GRACEは最終的な解答精度とステップの正解性の両方において大幅に改善されている。
- 参考スコア(独自算出の注目度): 56.454088569241534
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the context of multi-step reasoning, language models (LMs) probabilities
are often miscalibrated -- solutions with high probabilities are not always
correct. Therefore, greedy decoding, which is the standard decoding method for
reasoning tasks, often yields incorrect solutions. In addition, methods such as
self-consistency and verifiers rely on sampling from the LM distribution and do
not tackle the underlying issue. To address this, we introduce Guiding
Multi-step ReAsoning with a CorrectnEss Discriminator (GRACE), a stepwise
decoding approach that nudges the model towards producing correct reasoning
steps. GRACE employs a discriminator model, which is trained to differentiate
correct steps from invalid ones, to adjust decoding preferences based on the
correctness of each reasoning step. Importantly, GRACE does not require
fine-tuning or re-training the LMs. When compared with conventional decoding
strategies over four popular math reasoning benchmarks, GRACE exhibits
significant improvements in both final answer accuracy and step correctness,
outperforming both greedy decoding and self-consistency.\footnote{Our code can
be found at \url{https://github.com/mukhal/grace.}}
- Abstract(参考訳): マルチステップ推論の文脈では、言語モデル(lms)の確率はしばしば誤って調整される。
したがって、推論タスクの標準的な復号法であるgreedy decodingは、しばしば誤った解をもたらす。
さらに、自己整合性や検証器などの手法は、LM分布からのサンプリングに依存し、根本問題に対処しない。
そこで我々は,正しい推論ステップを生成するためにモデルを段階的にデコードするGRACE(Guiding Multi-step ReAsoning with a CorrectnEss Discriminator)を提案する。
GRACEは、正しいステップと正しいステップを区別するように訓練された判別器モデルを使用して、各推論ステップの正しさに基づいて復号の好みを調整する。
重要な点として、GRACE は LM の微調整や再訓練を必要としない。
4つの一般的な数学推論ベンチマークに対する従来のデコード戦略と比較すると、グレースは最終回答の正確さとステップの正確さの両方が大幅に改善され、欲望のデコードと自己一貫性の両方を上回っている。
\footnote{Our code は \url{https://github.com/mukhal/grace にある。
}}
関連論文リスト
- Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。
LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。
本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文 参考訳(メタデータ) (2024-10-05T05:21:48Z) - Automated Theorem Provers Help Improve Large Language Model Reasoning [0.18416014644193066]
ニューロシンボリック・アーキテクチャーによっていかに精度が向上できるかを示す。
構文的および意味的エラーカテゴリのフレームワークを定義する。
我々は,構文的および意味的誤りを自動的に修正する機能を備えた手法を拡張した。
論文 参考訳(メタデータ) (2024-08-07T01:03:56Z) - Learning to Check: Unleashing Potentials for Self-Correction in Large Language Models [5.463333911506443]
我々は,タスクチェックのためのトレーニングデータを構築することで,大規模言語モデル(LLM)の自己チェック能力を向上させることを目指している。
ステップCoTチェック(Step CoT Check)と呼ばれる特殊なチェックフォーマットを提案する。
実験により、"Step CoT Check"フォーマットによる微調整により、LCMの自己チェックと自己補正能力が大幅に向上することが示された。
論文 参考訳(メタデータ) (2024-02-20T14:23:23Z) - Training Chain-of-Thought via Latent-Variable Inference [30.21067593018967]
大規模言語モデル(LLM)は、チェーン・オブ・シンクレットのプロンプトを使って解答ステップを実行するように指示されたときに、より正確かつ解釈可能な問題を解決する。
CoTと教師付きチューニングを組み合わせるには、正しい回答だけでなく、それらの答えにつながる詳細な根拠の監督が必要である。
そこで本研究では,CoTプロンプトを用いて正しい回答を生成することで,電子対数類似度を最大化するための微調整戦略を提案する。
論文 参考訳(メタデータ) (2023-11-28T17:47:32Z) - SatLM: Satisfiability-Aided Language Models Using Declarative Prompting [68.40726892904286]
本研究では,大規模言語モデル (LLM) の推論能力を向上させるために,新しい満足度支援言語モデリング (SatLM) 手法を提案する。
我々はLLMを用いて命令型プログラムではなく宣言型タスク仕様を生成し、既製の自動定理証明器を利用して最終解を導出する。
我々はSATLMを8つの異なるデータセット上で評価し、命令パラダイムにおいてプログラム支援されたLMよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-05-16T17:55:51Z) - Self-Evaluation Guided Beam Search for Reasoning [61.523627290397556]
我々は,Large Language Model (LLM) の推論プロセスのガイドと校正を行うための段階的自己評価機構を導入する。
本稿では,ビームサーチによる自己評価ガイダンスを統合した復号アルゴリズムを提案する。
我々のアプローチは、GSM8K、AQuA、StrategyQAにおいて、対応するCodexバックボンドベースラインをわずかに精度6.34%、9.56%、および5.46%で上回る。
論文 参考訳(メタデータ) (2023-05-01T02:37:59Z) - Large Language Models are Better Reasoners with Self-Verification [48.534270563880845]
大規模言語モデル(LLM)は、いくつかの自然言語処理タスクにおいて強力な推論能力を示している。
思考の連鎖(CoT)を促進させるLLMは、個別のミスに非常に敏感な、多段階のプロンプトと多段階の予測を必要とする。
また,LLMにも同様な自己検証能力があることを示す。
論文 参考訳(メタデータ) (2022-12-19T15:51:52Z) - LM-Critic: Language Models for Unsupervised Grammatical Error Correction [128.9174409251852]
文を文法的に判断する LM-Critic の定義において,事前訓練された言語モデル (LM) の活用法を示す。
このLM-Critic と BIFI と、ラベルなし文の集合を併用して、現実的な非文法的/文法的ペアをブートストラップし、修正子を訓練する。
論文 参考訳(メタデータ) (2021-09-14T17:06:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。