論文の概要: Decomposition Enhances Reasoning via Self-Evaluation Guided Decoding
- arxiv url: http://arxiv.org/abs/2305.00633v1
- Date: Mon, 1 May 2023 02:37:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2023-05-02 14:10:21.075348
- Title: Decomposition Enhances Reasoning via Self-Evaluation Guided Decoding
- Title(参考訳): 分解は自己評価ガイドによる推論を促進する
- Authors: Yuxi Xie, Kenji Kawaguchi, Yiran Zhao, Xu Zhao, Min-Yen Kan, Junxian
He, Qizhe Xie
- Abstract要約: 本稿では,ビームサーチによる自己評価ガイダンスを統合する効果的なプロンプト手法を提案する。
提案手法は,よく校正された自動基準を用いた推論探索空間を探索する。
また、推論チェーンの生成における品質と多様性のトレードオフのバランスもとっています。
- 参考スコア(独自算出の注目度): 51.17043091141606
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose an effective prompting approach that integrates self-evaluation
guidance through stochastic beam search. Our approach explores the reasoning
search space using a well-calibrated automatic criterion. This enables an
efficient search to produce higher-quality final predictions. With the
self-evaluation guided stochastic beam search, we also balance the
quality--diversity trade-off in the generation of reasoning chains. This allows
our approach to adapt well with majority voting and surpass the corresponding
Codex-backboned baselines by $6.34\%$, $9.56\%$, and $5.46\%$ on the GSM8K,
AQUA, and StrategyQA benchmarks, respectively, in few-shot accuracy. Analysis
of our decompositional reasoning finds it pinpoints logic failures and leads to
higher consistency and robustness.
- Abstract(参考訳): 本稿では,確率的ビームサーチによる自己評価ガイダンスを統合する効果的なプロンプト手法を提案する。
提案手法は,よく校正された自動基準を用いた推論探索空間を探索する。
これにより、効率的な検索が高品質な最終予測を生成することができる。
自己評価誘導確率ビーム探索により、推論連鎖の生成における品質-多様性トレードオフのバランスをとる。
これにより、GSM8K、AQUA、StrategyQAベンチマークでそれぞれ6.34 %$、9.56 %$、および5.46 %$のCodexバックボンドベースラインを数秒の精度で、多数決で順応することが可能になります。
分解的推論の分析では、論理的失敗を指摘し、一貫性と堅牢性を高める。
関連論文リスト
- Steering LLM Thinking with Budget Guidance [48.65894557568655]
予算指導は、微調整を必要とせず、目標予算に向けてLSMの推論プロセスを操る方法である。
提案手法では,ガンマ分布を残りの思考長にわたってモデル化する軽量な予測器を提案する。
この信号は、生成をソフトでトークンレベルの方法でガイドするために使用され、全体の推論トレースが指定された思考予算に従うことを保証する。
論文 参考訳(メタデータ) (2025-06-16T17:57:05Z) - Asymptotically Optimal Linear Best Feasible Arm Identification with Fixed Budget [55.938644481736446]
本稿では,誤差確率の指数的減衰を保証し,最適な腕識別のための新しいアルゴリズムを提案する。
我々は,複雑性のレベルが異なる様々な問題インスタンスに対する包括的経験的評価を通じて,アルゴリズムの有効性を検証する。
論文 参考訳(メタデータ) (2025-06-03T02:56:26Z) - Reward Model Generalization for Compute-Aware Test-Time Reasoning [21.05692631562457]
外部テスト時推論は、生成と選択を分離することで、大きな言語モデル(LLM)を強化する。
この設定における中心的な課題は、テスト時間計算の最適性(TCO)、すなわち、固定された推論予算の下で答えの正確さを最大化する方法である。
PRMの一般化誤差が計算効率と推論性能に与える影響を解析する。
そこで本研究では,探索動作を動的に制御するアクター・クリティカルなフレームワークであるCompute-Aware Tree Search (CATS)を提案する。
論文 参考訳(メタデータ) (2025-05-23T16:12:12Z) - Stepwise Reasoning Checkpoint Analysis: A Test Time Scaling Method to Enhance LLMs' Reasoning [81.50681925980135]
本稿では,ステップワイズ推論チェックポイント分析(SRCA)を提案する。
本研究は,(1)中間チェックポイント回答による経路推論をグループ化して品質を確保しつつ多様性を維持するAnswer-Clustered Search,(2)最終決定にすべての中間回答を活用するCheckpoint Candidate Augmentationの2つの主要な戦略を取り入れた。
提案手法は経路均質化を効果的に低減し,高品質な中間結果を活用することにより耐故障機構を創出する。
論文 参考訳(メタデータ) (2025-05-23T12:42:50Z) - Reliable and Efficient Amortized Model-based Evaluation [57.6469531082784]
幅広いベンチマークの平均スコアは、実際に言語モデルを使用することをガイドするシグナルを提供する。
コストを下げるための一般的な試みは、ベンチマークのサブセットの平均スコアを計算することである。
このアプローチは、平均スコアがベンチマークサブセットの質問の難しさと合わさったため、信頼性の低いLM性能をしばしば引き起こす。
我々は、その内容から質問難度を予測するモデルを訓練し、信頼性のある測定をコストのごく一部で行えるようにした。
論文 参考訳(メタデータ) (2025-03-17T16:15:02Z) - EQUATOR: A Deterministic Framework for Evaluating LLM Reasoning with Open-Ended Questions. # v1.0.0-beta [2.1249213103048414]
本研究では,決定論的スコアと実測精度とロバストな推論評価に着目したEQUATOR評価器を提案する。
ベクトルデータベースを使用して、EQUATORは人間の評価された回答とオープンエンドの質問をペアリングし、より正確でスケーラブルな評価を可能にする。
この枠組みは,高精度な基準を維持しつつ,従来のマルチ選択評価を著しく上回っていることを示す。
論文 参考訳(メタデータ) (2024-12-31T03:56:17Z) - FLARE: Faithful Logic-Aided Reasoning and Exploration [50.9814063216852]
タスク分解を用いて問題空間をトラバースする新しい手法を提案する。
我々はLarge Language Modelsを使ってソリューションを計画し、クエリを事実に軟式化し、論理プログラミングコードを使って述語する。
提案手法は,生成したコードに対する推論プロセスの忠実度を計算し,外部の解法に頼らずにマルチホップ探索のステップを解析する。
論文 参考訳(メタデータ) (2024-10-14T19:39:11Z) - Advancing Adversarial Suffix Transfer Learning on Aligned Large Language Models [21.96773736059112]
言語モデル(LLM)は、悪意のあるユーザによる誤用による安全性上の懸念に直面している。
近年のレッドチームの取り組みは、勾配に基づく探索アルゴリズムGreedy Coordinate Gradient (GCG) を用いて、LDMをジェイルブレイクできる敵サフィックスを特定している。
本稿では,2段階の移動学習フレームワークであるDeGCGを提案する。
論文 参考訳(メタデータ) (2024-08-27T08:38:48Z) - Sublinear Regret for a Class of Continuous-Time Linear--Quadratic Reinforcement Learning Problems [10.404992912881601]
拡散に対する連続時間線形四元数制御(LQ)のクラスに対する強化学習について検討した。
本研究では,モデルパラメータの知識にも,その推定にも依存しないモデルフリーアプローチを適用し,最適なポリシーパラメータを直接学習するためのアクタ批判アルゴリズムを考案する。
論文 参考訳(メタデータ) (2024-07-24T12:26:21Z) - On Speeding Up Language Model Evaluation [48.51924035873411]
我々はこの空間を探索するために$textitadaptive$アプローチを提案する。
我々は、マルチアームの包帯に頼り、次の(メソッド、バリデーションサンプル)ペアを順次識別して評価する。
典型的資源の5~15%のみを用いて,トップパフォーマンスの手法を同定できることを示す。
論文 参考訳(メタデータ) (2024-07-08T17:48:42Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Improve Mathematical Reasoning in Language Models by Automated Process Supervision [22.72856086318912]
高品質プロセス監視データの効率的な収集のために,textitOmegaPRM という新しいモンテカルロ木探索アルゴリズムを提案する。
プロセスリワードモデル(PRM)をトレーニングするために、150万以上のプロセス監視アノテーションを収集することができます。
我々は,Gemini Proモデルの数学推論性能を改良し,MATHベンチマークで69.4%の成功率を達成した。
論文 参考訳(メタデータ) (2024-06-05T19:25:40Z) - A Strong Baseline for Batch Imitation Learning [25.392006064406967]
厳密なデータパラダイムの下での模倣学習のための,実装が容易で斬新なアルゴリズムを提供する。
このパラダイムにより、安全やコストが重要となる環境において、我々のアルゴリズムが利用できるようになる。
論文 参考訳(メタデータ) (2023-02-06T14:03:33Z) - Reliable Causal Discovery with Improved Exact Search and Weaker
Assumptions [17.097192646470372]
線形ガウス設定における正確なスコアベース手法のスケーラビリティを向上させるためのいくつかの戦略を導入する。
我々は,忠実度よりも厳密な仮定を必要とする逆共分散行列の支持に基づく超構造推定法を開発した。
また,各変数とその近傍が生成する局所クラスタを,超構造内の2つのホップ内で正確に探索する局所探索戦略を提案する。
論文 参考訳(メタデータ) (2022-01-14T20:52:30Z) - False Correlation Reduction for Offline Reinforcement Learning [115.11954432080749]
本稿では,実効的かつ理論的に証明可能なアルゴリズムであるオフラインRLに対するfalSe Correlation Reduction (SCORE)を提案する。
SCOREは、標準ベンチマーク(D4RL)において、様々なタスクにおいて3.1倍の高速化でSoTA性能を達成することを実証的に示す。
論文 参考訳(メタデータ) (2021-10-24T15:34:03Z) - MURAL: Meta-Learning Uncertainty-Aware Rewards for Outcome-Driven
Reinforcement Learning [65.52675802289775]
本研究では,不確かさを意識した分類器が,強化学習の難しさを解消できることを示す。
正規化最大度(NML)分布の計算法を提案する。
得られたアルゴリズムは、カウントベースの探索法と、報酬関数を学習するための先行アルゴリズムの両方に多くの興味深い関係を持つことを示す。
論文 参考訳(メタデータ) (2021-07-15T08:19:57Z) - Large-Scale Methods for Distributionally Robust Optimization [53.98643772533416]
我々のアルゴリズムは、トレーニングセットのサイズとパラメータの数によらず、多くの評価勾配を必要とすることを証明している。
MNIST と ImageNet の実験により,本手法の 9-36 倍の効率性を持つアルゴリズムの理論的スケーリングが確認された。
論文 参考訳(メタデータ) (2020-10-12T17:41:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。