Fugu-MT 論文翻訳(概要): Self-Evaluation Guided Beam Search for Reasoning

論文の概要: Self-Evaluation Guided Beam Search for Reasoning

arxiv url: http://arxiv.org/abs/2305.00633v3
Date: Thu, 26 Oct 2023 01:43:17 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-28 02:18:23.693246
Title: Self-Evaluation Guided Beam Search for Reasoning
Title（参考訳）: 推論のための自己評価ガイドビーム探索
Authors: Yuxi Xie, Kenji Kawaguchi, Yiran Zhao, Xu Zhao, Min-Yen Kan, Junxian He, Qizhe Xie
Abstract要約: 我々は,Large Language Model (LLM) の推論プロセスのガイドと校正を行うための段階的自己評価機構を導入する。本稿では,ビームサーチによる自己評価ガイダンスを統合した復号アルゴリズムを提案する。我々のアプローチは、GSM8K、AQuA、StrategyQAにおいて、対応するCodexバックボンドベースラインをわずかに精度6.34%、9.56%、および5.46%で上回る。
参考スコア（独自算出の注目度）: 61.523627290397556
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Breaking down a problem into intermediate steps has demonstrated impressive performance in Large Language Model (LLM) reasoning. However, the growth of the reasoning chain introduces uncertainty and error accumulation, making it challenging to elicit accurate final results. To tackle this challenge of uncertainty in multi-step reasoning, we introduce a stepwise self-evaluation mechanism to guide and calibrate the reasoning process of LLMs. We propose a decoding algorithm integrating the self-evaluation guidance via stochastic beam search. The self-evaluation guidance serves as a better-calibrated automatic criterion, facilitating an efficient search in the reasoning space and resulting in superior prediction quality. Stochastic beam search balances exploitation and exploration of the search space with temperature-controlled randomness. Our approach surpasses the corresponding Codex-backboned baselines in few-shot accuracy by $6.34\%$, $9.56\%$, and $5.46\%$ on the GSM8K, AQuA, and StrategyQA benchmarks, respectively. Experiment results with Llama-2 on arithmetic reasoning demonstrate the efficiency of our method in outperforming the baseline methods with comparable computational budgets. Further analysis in multi-step reasoning finds our self-evaluation guidance pinpoints logic failures and leads to higher consistency and robustness. Our code is publicly available at https://guideddecoding.github.io/.
Abstract（参考訳）: 問題を中間ステップに分解することは、Large Language Model(LLM)推論において、素晴らしいパフォーマンスを示している。しかし、推論連鎖の成長は不確実性とエラーの蓄積をもたらすため、正確な最終結果を導き出すことは困難である。多段階推論におけるこの不確実性に対処するために,LLMの推論プロセスのガイドと校正を行う段階的な自己評価機構を導入する。確率的ビームサーチによる自己評価ガイダンスを統合する復号アルゴリズムを提案する。自己評価ガイダンスは、より良い校正された自動基準として機能し、推論空間における効率的な探索を容易にし、より良い予測品質をもたらす。確率的ビーム探索は、温度制御ランダムネスによる探索空間の活用と探索のバランスをとる。提案手法は,GSM8K,AQuA,StrategyQAのベンチマークでそれぞれ6.34 %$,9.56 %$,5.46 %$と,対応するコーデックスバックボンドベースラインをわずかに上回っている。算術的推論におけるLlama-2の実験結果から,計算予算に匹敵するベースライン法の性能を実証した。マルチステップ推論のさらなる分析により、自己評価ガイダンスは論理障害を特定でき、一貫性と堅牢性が向上する。私たちのコードはhttps://guideddecoding.github.io/で公開されています。

関連論文リスト

Steering LLM Thinking with Budget Guidance [48.65894557568655]
予算指導は、微調整を必要とせず、目標予算に向けてLSMの推論プロセスを操る方法である。提案手法では,ガンマ分布を残りの思考長にわたってモデル化する軽量な予測器を提案する。この信号は、生成をソフトでトークンレベルの方法でガイドするために使用され、全体の推論トレースが指定された思考予算に従うことを保証する。
論文参考訳（メタデータ） (2025-06-16T17:57:05Z)
Asymptotically Optimal Linear Best Feasible Arm Identification with Fixed Budget [55.938644481736446]
本稿では,誤差確率の指数的減衰を保証し,最適な腕識別のための新しいアルゴリズムを提案する。我々は,複雑性のレベルが異なる様々な問題インスタンスに対する包括的経験的評価を通じて,アルゴリズムの有効性を検証する。
論文参考訳（メタデータ） (2025-06-03T02:56:26Z)
Reward Model Generalization for Compute-Aware Test-Time Reasoning [21.05692631562457]
外部テスト時推論は、生成と選択を分離することで、大きな言語モデル(LLM)を強化する。この設定における中心的な課題は、テスト時間計算の最適性(TCO)、すなわち、固定された推論予算の下で答えの正確さを最大化する方法である。 PRMの一般化誤差が計算効率と推論性能に与える影響を解析する。そこで本研究では,探索動作を動的に制御するアクター・クリティカルなフレームワークであるCompute-Aware Tree Search (CATS)を提案する。
論文参考訳（メタデータ） (2025-05-23T16:12:12Z)
Stepwise Reasoning Checkpoint Analysis: A Test Time Scaling Method to Enhance LLMs' Reasoning [81.50681925980135]
本稿では,ステップワイズ推論チェックポイント分析(SRCA)を提案する。本研究は,(1)中間チェックポイント回答による経路推論をグループ化して品質を確保しつつ多様性を維持するAnswer-Clustered Search,(2)最終決定にすべての中間回答を活用するCheckpoint Candidate Augmentationの2つの主要な戦略を取り入れた。提案手法は経路均質化を効果的に低減し,高品質な中間結果を活用することにより耐故障機構を創出する。
論文参考訳（メタデータ） (2025-05-23T12:42:50Z)
Reliable and Efficient Amortized Model-based Evaluation [57.6469531082784]
幅広いベンチマークの平均スコアは、実際に言語モデルを使用することをガイドするシグナルを提供する。コストを下げるための一般的な試みは、ベンチマークのサブセットの平均スコアを計算することである。このアプローチは、平均スコアがベンチマークサブセットの質問の難しさと合わさったため、信頼性の低いLM性能をしばしば引き起こす。我々は、その内容から質問難度を予測するモデルを訓練し、信頼性のある測定をコストのごく一部で行えるようにした。
論文参考訳（メタデータ） (2025-03-17T16:15:02Z)
EQUATOR: A Deterministic Framework for Evaluating LLM Reasoning with Open-Ended Questions. # v1.0.0-beta [2.1249213103048414]
本研究では,決定論的スコアと実測精度とロバストな推論評価に着目したEQUATOR評価器を提案する。ベクトルデータベースを使用して、EQUATORは人間の評価された回答とオープンエンドの質問をペアリングし、より正確でスケーラブルな評価を可能にする。この枠組みは,高精度な基準を維持しつつ,従来のマルチ選択評価を著しく上回っていることを示す。
論文参考訳（メタデータ） (2024-12-31T03:56:17Z)
FLARE: Faithful Logic-Aided Reasoning and Exploration [50.9814063216852]
タスク分解を用いて問題空間をトラバースする新しい手法を提案する。我々はLarge Language Modelsを使ってソリューションを計画し、クエリを事実に軟式化し、論理プログラミングコードを使って述語する。提案手法は,生成したコードに対する推論プロセスの忠実度を計算し,外部の解法に頼らずにマルチホップ探索のステップを解析する。
論文参考訳（メタデータ） (2024-10-14T19:39:11Z)
Advancing Adversarial Suffix Transfer Learning on Aligned Large Language Models [21.96773736059112]
言語モデル(LLM)は、悪意のあるユーザによる誤用による安全性上の懸念に直面している。近年のレッドチームの取り組みは、勾配に基づく探索アルゴリズムGreedy Coordinate Gradient (GCG) を用いて、LDMをジェイルブレイクできる敵サフィックスを特定している。本稿では,2段階の移動学習フレームワークであるDeGCGを提案する。
論文参考訳（メタデータ） (2024-08-27T08:38:48Z)
Sublinear Regret for a Class of Continuous-Time Linear--Quadratic Reinforcement Learning Problems [10.404992912881601]
拡散に対する連続時間線形四元数制御(LQ)のクラスに対する強化学習について検討した。本研究では,モデルパラメータの知識にも,その推定にも依存しないモデルフリーアプローチを適用し,最適なポリシーパラメータを直接学習するためのアクタ批判アルゴリズムを考案する。
論文参考訳（メタデータ） (2024-07-24T12:26:21Z)
On Speeding Up Language Model Evaluation [48.51924035873411]
我々はこの空間を探索するために$textitadaptive$アプローチを提案する。我々は、マルチアームの包帯に頼り、次の(メソッド、バリデーションサンプル)ペアを順次識別して評価する。典型的資源の5～15%のみを用いて,トップパフォーマンスの手法を同定できることを示す。
論文参考訳（メタデータ） (2024-07-08T17:48:42Z)
MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文参考訳（メタデータ） (2024-06-20T03:50:23Z)
Improve Mathematical Reasoning in Language Models by Automated Process Supervision [22.72856086318912]
高品質プロセス監視データの効率的な収集のために,textitOmegaPRM という新しいモンテカルロ木探索アルゴリズムを提案する。プロセスリワードモデル(PRM)をトレーニングするために、150万以上のプロセス監視アノテーションを収集することができます。我々は,Gemini Proモデルの数学推論性能を改良し,MATHベンチマークで69.4%の成功率を達成した。
論文参考訳（メタデータ） (2024-06-05T19:25:40Z)
A Strong Baseline for Batch Imitation Learning [25.392006064406967]
厳密なデータパラダイムの下での模倣学習のための,実装が容易で斬新なアルゴリズムを提供する。このパラダイムにより、安全やコストが重要となる環境において、我々のアルゴリズムが利用できるようになる。
論文参考訳（メタデータ） (2023-02-06T14:03:33Z)
Reliable Causal Discovery with Improved Exact Search and Weaker Assumptions [17.097192646470372]
線形ガウス設定における正確なスコアベース手法のスケーラビリティを向上させるためのいくつかの戦略を導入する。我々は,忠実度よりも厳密な仮定を必要とする逆共分散行列の支持に基づく超構造推定法を開発した。また,各変数とその近傍が生成する局所クラスタを,超構造内の2つのホップ内で正確に探索する局所探索戦略を提案する。
論文参考訳（メタデータ） (2022-01-14T20:52:30Z)
False Correlation Reduction for Offline Reinforcement Learning [115.11954432080749]
本稿では,実効的かつ理論的に証明可能なアルゴリズムであるオフラインRLに対するfalSe Correlation Reduction (SCORE)を提案する。 SCOREは、標準ベンチマーク(D4RL)において、様々なタスクにおいて3.1倍の高速化でSoTA性能を達成することを実証的に示す。
論文参考訳（メタデータ） (2021-10-24T15:34:03Z)
MURAL: Meta-Learning Uncertainty-Aware Rewards for Outcome-Driven Reinforcement Learning [65.52675802289775]
本研究では,不確かさを意識した分類器が,強化学習の難しさを解消できることを示す。正規化最大度(NML)分布の計算法を提案する。得られたアルゴリズムは、カウントベースの探索法と、報酬関数を学習するための先行アルゴリズムの両方に多くの興味深い関係を持つことを示す。
論文参考訳（メタデータ） (2021-07-15T08:19:57Z)
Large-Scale Methods for Distributionally Robust Optimization [53.98643772533416]
我々のアルゴリズムは、トレーニングセットのサイズとパラメータの数によらず、多くの評価勾配を必要とすることを証明している。 MNIST と ImageNet の実験により,本手法の 9-36 倍の効率性を持つアルゴリズムの理論的スケーリングが確認された。
論文参考訳（メタデータ） (2020-10-12T17:41:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。