論文の概要: Decomposition Enhances Reasoning via Self-Evaluation Guided Decoding
- arxiv url: http://arxiv.org/abs/2305.00633v2
- Date: Tue, 2 May 2023 05:42:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-03 11:10:04.859872
- Title: Decomposition Enhances Reasoning via Self-Evaluation Guided Decoding
- Title(参考訳): 分解は自己評価ガイドによる推論を促進する
- Authors: Yuxi Xie, Kenji Kawaguchi, Yiran Zhao, Xu Zhao, Min-Yen Kan, Junxian
He, Qizhe Xie
- Abstract要約: 大規模言語モデル(LLM)に細粒度自己評価を加え,多段階推論を洗練させる。
本稿では,ビームサーチによる自己評価ガイダンスを統合する効果的なプロンプト手法を提案する。
- 参考スコア(独自算出の注目度): 51.17043091141606
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We endow Large Language Models (LLMs) with fine-grained self-evaluation to
refine multi-step reasoning inference. We propose an effective prompting
approach that integrates self-evaluation guidance through stochastic beam
search. Our approach explores the reasoning search space using a
well-calibrated automatic criterion. This enables an efficient search to
produce higher-quality final predictions. With the self-evaluation guided
stochastic beam search, we also balance the quality-diversity trade-off in the
generation of reasoning chains. This allows our approach to adapt well with
majority voting and surpass the corresponding Codex-backboned baselines by
$6.34\%$, $9.56\%$, and $5.46\%$ on the GSM8K, AQuA, and StrategyQA benchmarks,
respectively, in few-shot accuracy. Analysis of our decompositional reasoning
finds it pinpoints logic failures and leads to higher consistency and
robustness. Our code is publicly available at
https://github.com/YuxiXie/SelfEval-Guided-Decoding.
- Abstract(参考訳): 大規模言語モデル(LLM)に細粒度自己評価を加え,多段階推論を洗練させる。
本稿では,確率的ビームサーチによる自己評価ガイダンスを統合する効果的なプロンプト手法を提案する。
提案手法は,よく校正された自動基準を用いた推論探索空間を探索する。
これにより、効率的な検索が高品質な最終予測を生成することができる。
自己評価誘導確率ビーム探索により、推論連鎖の生成における品質多様性トレードオフのバランスをとる。
これにより、GSM8K、AQuA、StrategyQAベンチマークでそれぞれ6.34 %$、9.56 %$、および5.46 %$のCodexバックボンドベースラインを数秒の精度で、多数決で順応することが可能になります。
分解的推論の分析では、論理的失敗を指摘し、一貫性と堅牢性を高める。
私たちのコードはhttps://github.com/YuxiXie/SelfEval-Guided-Decodingで公開されています。
関連論文リスト
- Scaling Test-Time Compute Without Verification or RL is Suboptimal [70.28430200655919]
RL法や検索法に基づく検証器ベース (VB) 手法による微調整は, 一定量の計算・データ予算を条件として, 蒸留・クローニングに基づく検証器フリー (VF) 手法よりもはるかに優れていることを示す。
我々は,3/8Bの事前学習型LLMのドクティクスと数学推論の両問題に対して,我々の理論を実証的に相関させ,テスト時間計算のスケーリングには検証が不可欠であることを確認した。
論文 参考訳(メタデータ) (2025-02-17T18:43:24Z) - EQUATOR: A Deterministic Framework for Evaluating LLM Reasoning with Open-Ended Questions. # v1.0.0-beta [2.1249213103048414]
本研究では,決定論的スコアと実測精度とロバストな推論評価に着目したEQUATOR評価器を提案する。
ベクトルデータベースを使用して、EQUATORは人間の評価された回答とオープンエンドの質問をペアリングし、より正確でスケーラブルな評価を可能にする。
この枠組みは,高精度な基準を維持しつつ,従来のマルチ選択評価を著しく上回っていることを示す。
論文 参考訳(メタデータ) (2024-12-31T03:56:17Z) - FLARE: Faithful Logic-Aided Reasoning and Exploration [50.9814063216852]
タスク分解を用いて問題空間をトラバースする新しい手法を提案する。
我々はLarge Language Modelsを使ってソリューションを計画し、クエリを事実に軟式化し、論理プログラミングコードを使って述語する。
提案手法は,生成したコードに対する推論プロセスの忠実度を計算し,外部の解法に頼らずにマルチホップ探索のステップを解析する。
論文 参考訳(メタデータ) (2024-10-14T19:39:11Z) - Advancing Adversarial Suffix Transfer Learning on Aligned Large Language Models [21.96773736059112]
言語モデル(LLM)は、悪意のあるユーザによる誤用による安全性上の懸念に直面している。
近年のレッドチームの取り組みは、勾配に基づく探索アルゴリズムGreedy Coordinate Gradient (GCG) を用いて、LDMをジェイルブレイクできる敵サフィックスを特定している。
本稿では,2段階の移動学習フレームワークであるDeGCGを提案する。
論文 参考訳(メタデータ) (2024-08-27T08:38:48Z) - Sublinear Regret for a Class of Continuous-Time Linear--Quadratic Reinforcement Learning Problems [10.404992912881601]
拡散に対する連続時間線形四元数制御(LQ)のクラスに対する強化学習について検討した。
本研究では,モデルパラメータの知識にも,その推定にも依存しないモデルフリーアプローチを適用し,最適なポリシーパラメータを直接学習するためのアクタ批判アルゴリズムを考案する。
論文 参考訳(メタデータ) (2024-07-24T12:26:21Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - A Strong Baseline for Batch Imitation Learning [25.392006064406967]
厳密なデータパラダイムの下での模倣学習のための,実装が容易で斬新なアルゴリズムを提供する。
このパラダイムにより、安全やコストが重要となる環境において、我々のアルゴリズムが利用できるようになる。
論文 参考訳(メタデータ) (2023-02-06T14:03:33Z) - Reliable Causal Discovery with Improved Exact Search and Weaker
Assumptions [17.097192646470372]
線形ガウス設定における正確なスコアベース手法のスケーラビリティを向上させるためのいくつかの戦略を導入する。
我々は,忠実度よりも厳密な仮定を必要とする逆共分散行列の支持に基づく超構造推定法を開発した。
また,各変数とその近傍が生成する局所クラスタを,超構造内の2つのホップ内で正確に探索する局所探索戦略を提案する。
論文 参考訳(メタデータ) (2022-01-14T20:52:30Z) - False Correlation Reduction for Offline Reinforcement Learning [115.11954432080749]
本稿では,実効的かつ理論的に証明可能なアルゴリズムであるオフラインRLに対するfalSe Correlation Reduction (SCORE)を提案する。
SCOREは、標準ベンチマーク(D4RL)において、様々なタスクにおいて3.1倍の高速化でSoTA性能を達成することを実証的に示す。
論文 参考訳(メタデータ) (2021-10-24T15:34:03Z) - Large-Scale Methods for Distributionally Robust Optimization [53.98643772533416]
我々のアルゴリズムは、トレーニングセットのサイズとパラメータの数によらず、多くの評価勾配を必要とすることを証明している。
MNIST と ImageNet の実験により,本手法の 9-36 倍の効率性を持つアルゴリズムの理論的スケーリングが確認された。
論文 参考訳(メタデータ) (2020-10-12T17:41:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。