論文の概要: Towards A Unified View of Answer Calibration for Multi-Step Reasoning
- arxiv url: http://arxiv.org/abs/2311.09101v2
- Date: Sun, 25 Feb 2024 15:53:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 18:58:38.164232
- Title: Towards A Unified View of Answer Calibration for Multi-Step Reasoning
- Title(参考訳): マルチステップ推論における解答校正の一考察
- Authors: Shumin Deng, Ningyu Zhang, Nay Oo, Bryan Hooi
- Abstract要約: 回答校正手法の分類を精査し、ステップレベルとパスレベルに分類する。
実験結果から、両戦略の優位性の統合は最適な結果をもたらす傾向があることが明らかとなった。
- 参考スコア(独自算出の注目度): 58.86782859131238
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language Models (LLMs) employing Chain-of-Thought (CoT) prompting have
broadened the scope for improving multi-step reasoning capabilities. We
generally divide multi-step reasoning into two phases: path generation to
generate the reasoning path(s); and answer calibration post-processing the
reasoning path(s) to obtain a final answer. However, the existing literature
lacks systematic analysis on different answer calibration approaches. In this
paper, we summarize the taxonomy of recent answer calibration techniques and
break them down into step-level and path-level strategies. We then conduct a
thorough evaluation on these strategies from a unified view, systematically
scrutinizing step-level and path-level answer calibration across multiple
paths. Experimental results reveal that integrating the dominance of both
strategies tends to derive optimal outcomes. Our study holds the potential to
illuminate key insights for optimizing multi-step reasoning with answer
calibration.
- Abstract(参考訳): CoT(Chain-of-Thought)をプロンプトする大規模言語モデル(LLM)は、多段階推論機能の改善の範囲を広げた。
一般に、多段階推論を2つのフェーズに分けて、推論パスを生成する経路生成と、推論パスのキャリブレーション後処理を行い、最終的な答えを得る。
しかし,既存の文献では,異なる回答校正手法に関する系統的分析が欠如している。
本稿では,最近の回答校正手法の分類を要約し,ステップレベルおよびパスレベル戦略に分類する。
次に,複数の経路にまたがるステップレベルおよびパスレベルの応答校正を体系的に精査し,統一的な視点からこれらの戦略を徹底的に評価する。
実験の結果,両戦略の優位の統合が最適結果を引き出す傾向があることが明らかとなった。
本研究は,解答校正による多段階推論を最適化するための重要な洞察を照らす可能性を持っている。
関連論文リスト
- Performative Reinforcement Learning with Linear Markov Decision Process [14.75815792682734]
提案手法がマルコフ決定過程の報酬と遷移の両方に影響を及ぼすような表現的強化学習の設定について検討する。
大規模MDPの主要な理論モデルであるEmphlinear Markov決定過程を一般化する。
論文 参考訳(メタデータ) (2024-11-07T23:04:48Z) - Prompt Chaining or Stepwise Prompt? Refinement in Text Summarization [31.80150267600029]
Prompt ChainingとStepwise Promptの2つの戦略は反復的なプロセスを実行するように設計されている。
本稿では,これら2つの手法をテキスト要約の文脈で検証し,比較することを目的とした。
実験結果から, プロンプト連鎖法によりより良好な結果が得られることが示された。
論文 参考訳(メタデータ) (2024-06-01T17:28:38Z) - PathFinder: Guided Search over Multi-Step Reasoning Paths [80.56102301441899]
木探索に基づく推論経路生成手法であるPathFinderを提案する。
動的デコードの統合により、多様な分岐とマルチホップ推論を強化する。
我々のモデルは、大きな分岐因子を持つビームサーチに類似した複雑さを反映して、よく、長く、目に見えない推論連鎖を一般化する。
論文 参考訳(メタデータ) (2023-12-08T17:05:47Z) - Optimizing Solution-Samplers for Combinatorial Problems: The Landscape
of Policy-Gradient Methods [52.0617030129699]
本稿では,DeepMatching NetworksとReinforcement Learningメソッドの有効性を解析するための新しい理論フレームワークを提案する。
我々の主な貢献は、Max- and Min-Cut、Max-$k$-Bipartite-Bi、Maximum-Weight-Bipartite-Bi、Traveing Salesman Problemを含む幅広い問題である。
本分析の副産物として,バニラ降下による新たな正則化プロセスを導入し,失効する段階的な問題に対処し,悪い静止点から逃れる上で有効であることを示す理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-10-08T23:39:38Z) - Modeling Uncertainty and Using Post-fusion as Fallback Improves Retrieval Augmented Generation with LLMs [80.74263278847063]
検索されたパスと大きな言語モデル(LLM)の統合は、オープンドメインの質問応答の改善に大きく貢献している。
本稿では,検索したパスをLLMと組み合わせて回答生成を向上させる方法について検討する。
論文 参考訳(メタデータ) (2023-08-24T05:26:54Z) - Empirical Bayes Transductive Meta-Learning with Synthetic Gradients [24.18142841376967]
本稿では,複数のタスクからトランスダクティブな環境下で学習するメタラーニング手法を提案する。
メタモデルを用いてすべての変分後部を結合する新しい補正変分推論を導出する。
The Mini-ImageNet and CIFAR-FS benchmarks for episodic few-shot classification outform out of previous State-of-the-art method。
論文 参考訳(メタデータ) (2020-04-27T10:39:33Z) - Learning to Recover Reasoning Chains for Multi-Hop Question Answering
via Cooperative Games [66.98855910291292]
本稿では,弱い教師付き信号から推論連鎖を復元する学習法を提案する。
証拠通路をどのように選択し、どのように選択された通路を接続するかを2つのモデルで処理する。
評価のために、2つのマルチホップQAデータセットに基づいたベンチマークを作成しました。
論文 参考訳(メタデータ) (2020-04-06T03:54:38Z) - Disentangling Adaptive Gradient Methods from Learning Rates [65.0397050979662]
適応的勾配法が学習率のスケジュールとどのように相互作用するかを、より深く検討する。
我々は、更新の規模をその方向から切り離す"グラフティング"実験を導入する。
適応勾配法の一般化に関する経験的および理論的考察を示す。
論文 参考訳(メタデータ) (2020-02-26T21:42:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。