論文の概要: Decomposition Enhances Reasoning via Self-Evaluation Guided Decoding
- arxiv url: http://arxiv.org/abs/2305.00633v2
- Date: Tue, 2 May 2023 05:42:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-03 11:10:04.859872
- Title: Decomposition Enhances Reasoning via Self-Evaluation Guided Decoding
- Title(参考訳): 分解は自己評価ガイドによる推論を促進する
- Authors: Yuxi Xie, Kenji Kawaguchi, Yiran Zhao, Xu Zhao, Min-Yen Kan, Junxian
He, Qizhe Xie
- Abstract要約: 大規模言語モデル(LLM)に細粒度自己評価を加え,多段階推論を洗練させる。
本稿では,ビームサーチによる自己評価ガイダンスを統合する効果的なプロンプト手法を提案する。
- 参考スコア(独自算出の注目度): 51.17043091141606
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We endow Large Language Models (LLMs) with fine-grained self-evaluation to
refine multi-step reasoning inference. We propose an effective prompting
approach that integrates self-evaluation guidance through stochastic beam
search. Our approach explores the reasoning search space using a
well-calibrated automatic criterion. This enables an efficient search to
produce higher-quality final predictions. With the self-evaluation guided
stochastic beam search, we also balance the quality-diversity trade-off in the
generation of reasoning chains. This allows our approach to adapt well with
majority voting and surpass the corresponding Codex-backboned baselines by
$6.34\%$, $9.56\%$, and $5.46\%$ on the GSM8K, AQuA, and StrategyQA benchmarks,
respectively, in few-shot accuracy. Analysis of our decompositional reasoning
finds it pinpoints logic failures and leads to higher consistency and
robustness. Our code is publicly available at
https://github.com/YuxiXie/SelfEval-Guided-Decoding.
- Abstract(参考訳): 大規模言語モデル(LLM)に細粒度自己評価を加え,多段階推論を洗練させる。
本稿では,確率的ビームサーチによる自己評価ガイダンスを統合する効果的なプロンプト手法を提案する。
提案手法は,よく校正された自動基準を用いた推論探索空間を探索する。
これにより、効率的な検索が高品質な最終予測を生成することができる。
自己評価誘導確率ビーム探索により、推論連鎖の生成における品質多様性トレードオフのバランスをとる。
これにより、GSM8K、AQuA、StrategyQAベンチマークでそれぞれ6.34 %$、9.56 %$、および5.46 %$のCodexバックボンドベースラインを数秒の精度で、多数決で順応することが可能になります。
分解的推論の分析では、論理的失敗を指摘し、一貫性と堅牢性を高める。
私たちのコードはhttps://github.com/YuxiXie/SelfEval-Guided-Decodingで公開されています。
関連論文リスト
- Let's reward step by step: Step-Level reward model as the Navigators for
Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。
LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。
提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文 参考訳(メタデータ) (2023-10-16T05:21:50Z) - A Strong Baseline for Batch Imitation Learning [25.392006064406967]
厳密なデータパラダイムの下での模倣学習のための,実装が容易で斬新なアルゴリズムを提供する。
このパラダイムにより、安全やコストが重要となる環境において、我々のアルゴリズムが利用できるようになる。
論文 参考訳(メタデータ) (2023-02-06T14:03:33Z) - Reliable Causal Discovery with Improved Exact Search and Weaker
Assumptions [17.097192646470372]
線形ガウス設定における正確なスコアベース手法のスケーラビリティを向上させるためのいくつかの戦略を導入する。
我々は,忠実度よりも厳密な仮定を必要とする逆共分散行列の支持に基づく超構造推定法を開発した。
また,各変数とその近傍が生成する局所クラスタを,超構造内の2つのホップ内で正確に探索する局所探索戦略を提案する。
論文 参考訳(メタデータ) (2022-01-14T20:52:30Z) - False Correlation Reduction for Offline Reinforcement Learning [115.11954432080749]
本稿では,実効的かつ理論的に証明可能なアルゴリズムであるオフラインRLに対するfalSe Correlation Reduction (SCORE)を提案する。
SCOREは、標準ベンチマーク(D4RL)において、様々なタスクにおいて3.1倍の高速化でSoTA性能を達成することを実証的に示す。
論文 参考訳(メタデータ) (2021-10-24T15:34:03Z) - MURAL: Meta-Learning Uncertainty-Aware Rewards for Outcome-Driven
Reinforcement Learning [65.52675802289775]
本研究では,不確かさを意識した分類器が,強化学習の難しさを解消できることを示す。
正規化最大度(NML)分布の計算法を提案する。
得られたアルゴリズムは、カウントベースの探索法と、報酬関数を学習するための先行アルゴリズムの両方に多くの興味深い関係を持つことを示す。
論文 参考訳(メタデータ) (2021-07-15T08:19:57Z) - Navigating to the Best Policy in Markov Decision Processes [68.8204255655161]
マルコフ決定過程における純粋探索問題について検討する。
エージェントはアクションを逐次選択し、結果のシステム軌道から可能な限り早くベストを目標とする。
論文 参考訳(メタデータ) (2021-06-05T09:16:28Z) - Reward Biased Maximum Likelihood Estimation for Reinforcement Learning [13.820705458648233]
マルコフ連鎖の適応制御のためのRBMLE(Reward-Biased Maximum Likelihood Estimate)を提案した。
我々は、現在最先端のアルゴリズムと同様に、$mathcalO( log T)$が$T$の時間的水平線上で後悔していることを示します。
論文 参考訳(メタデータ) (2020-11-16T06:09:56Z) - Large-Scale Methods for Distributionally Robust Optimization [53.98643772533416]
我々のアルゴリズムは、トレーニングセットのサイズとパラメータの数によらず、多くの評価勾配を必要とすることを証明している。
MNIST と ImageNet の実験により,本手法の 9-36 倍の効率性を持つアルゴリズムの理論的スケーリングが確認された。
論文 参考訳(メタデータ) (2020-10-12T17:41:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。