論文の概要: Improving Value-based Process Verifier via Structural Prior Injection
- arxiv url: http://arxiv.org/abs/2502.17498v1
- Date: Fri, 21 Feb 2025 07:57:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-26 15:23:47.949143
- Title: Improving Value-based Process Verifier via Structural Prior Injection
- Title(参考訳): 構造的事前注入による価値ベースプロセス検証の改善
- Authors: Zetian Sun, Dongfang Li, Baotian Hu, Jun Yu, Min Zhang,
- Abstract要約: 合理的な構造的事前注入は, コストの少ない約1$sim$2ポイントで, 価値に基づくプロセス検証の性能を向上できることを示す。
また, 異なる構造的事前条件下では, 同じ最適解を持つにもかかわらず, 検証器の性能が大きく異なることを示す。
- 参考スコア(独自算出の注目度): 30.07647106495661
- License:
- Abstract: In the Large Language Model(LLM) reasoning scenario, people often estimate state value via Monte Carlo sampling. Though Monte Carlo estimation is an elegant method with less inductive bias, noise and errors are inevitably introduced due to the limited sampling. To handle the problem, we inject the structural prior into the value representation and transfer the scalar value into the expectation of a pre-defined categorical distribution, representing the noise and errors from a distribution perspective. Specifically, by treating the result of Monte Carlo sampling as a single sample from the prior ground-truth Binomial distribution, we quantify the sampling error as the mismatch between posterior estimated distribution and ground-truth distribution, which is thus optimized via distribution selection optimization. We test the performance of value-based process verifiers on Best-of-N task and Beam search task. Compared with the scalar value representation, we show that reasonable structural prior injection induced by different objective functions or optimization methods can improve the performance of value-based process verifiers for about 1$\sim$2 points at little-to-no cost. We also show that under different structural prior, the verifiers' performances vary greatly despite having the same optimal solution, indicating the importance of reasonable structural prior injection.
- Abstract(参考訳): LLM(Large Language Model)推論シナリオでは、モンテカルロサンプリングを通じて状態値を見積もることが多い。
モンテカルロ推定は誘導バイアスの少ないエレガントな手法であるが、ノイズと誤差はサンプリングの制限により必然的に導入される。
この問題に対処するために、構造的事前を値表現に注入し、事前に定義されたカテゴリー分布の期待値にスカラー値を転送し、分布の観点からノイズとエラーを表現する。
具体的には,モンテカルロサンプリングの結果を,前二項分布からの単一サンプルとして扱うことにより,サンプリング誤差を,推定後二項分布と地中二項分布とのミスマッチとして定量化し,分布選択最適化により最適化する。
We test the performance of value-based process verifiers on Best-of-N task and Beam search task。
スカラー値の表現と比較すると、異なる目的関数や最適化手法によって誘導される合理的な構造的事前注入は、最小限のコストで約1$\sim$2の値に基づくプロセス検証の性能を向上させることができる。
また, 異なる構造的事前注入条件下では, 最適解が存在するにもかかわらず, 検証者の性能は著しく変化し, 合理的な構造的事前注入の重要性が示唆された。
関連論文リスト
- Direct Distributional Optimization for Provable Alignment of Diffusion Models [39.048284342436666]
分布最適化の観点から拡散モデルの新しいアライメント手法を提案する。
まず、確率分布に対する一般正規化損失最小化として問題を定式化する。
本研究では,Doob の $h$-transform 技術を用いてスコア関数を近似することにより,学習した分布からのサンプリングを可能にする。
論文 参考訳(メタデータ) (2025-02-05T07:35:15Z) - Unveiling the Statistical Foundations of Chain-of-Thought Prompting Methods [59.779795063072655]
CoT(Chain-of-Thought)の促進とその変種は、多段階推論問題を解決する効果的な方法として人気を集めている。
統計的推定の観点からCoTのプロンプトを解析し,その複雑さを包括的に評価する。
論文 参考訳(メタデータ) (2024-08-25T04:07:18Z) - DistPred: A Distribution-Free Probabilistic Inference Method for Regression and Forecasting [14.390842560217743]
本稿では、回帰予測タスクのためのDistPredという新しい手法を提案する。
予測分布と対象分布の差分を測定するための適切なスコアリングルールを、微分可能な離散形式に変換する。
これにより、モデルは単一のフォワードパスで多数のサンプルをサンプリングし、応答変数の潜在的分布を推定することができる。
論文 参考訳(メタデータ) (2024-06-17T10:33:00Z) - Rejection via Learning Density Ratios [50.91522897152437]
拒絶による分類は、モデルを予測しないことを許容する学習パラダイムとして現れます。
そこで我々は,事前学習したモデルの性能を最大化する理想的なデータ分布を求める。
私たちのフレームワークは、クリーンでノイズの多いデータセットで実証的にテストされます。
論文 参考訳(メタデータ) (2024-05-29T01:32:17Z) - Optimal Budgeted Rejection Sampling for Generative Models [54.050498411883495]
判別器を用いた生成モデルの性能向上のために, 還元サンプリング法が提案されている。
提案手法は,まず,最適に最適である最適予算削減サンプリング方式を提案する。
第2に,モデル全体の性能を高めるために,サンプリング方式をトレーニング手順に組み込んだエンドツーエンド手法を提案する。
論文 参考訳(メタデータ) (2023-11-01T11:52:41Z) - Moreau-Yoshida Variational Transport: A General Framework For Solving Regularized Distributional Optimization Problems [3.038642416291856]
クラス確率分布上に定義された複合目的関数を最小化する一般的な最適化問題を考える。
本稿では,正規分布最適化問題の解法として,モロー・吉田変分輸送(MYVT)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-07-31T01:14:42Z) - Scalable method for Bayesian experimental design without integrating
over posterior distribution [0.0]
実験問題のA-最適ベイズ設計における計算効率について検討する。
A-最適性はベイズの実験設計に広く用いられ、容易に解釈できる基準である。
本研究は, A-Optimal 実験設計における新しい可能性のないアプローチを提案する。
論文 参考訳(メタデータ) (2023-06-30T12:40:43Z) - Learning Unnormalized Statistical Models via Compositional Optimization [73.30514599338407]
実データと人工雑音のロジスティックな損失として目的を定式化することにより, ノイズコントラスト推定(NCE)を提案する。
本稿では,非正規化モデルの負の対数類似度を最適化するための直接的アプローチについて検討する。
論文 参考訳(メタデータ) (2023-06-13T01:18:16Z) - Convergence for score-based generative modeling with polynomial
complexity [9.953088581242845]
我々は、Scoreベースの生成モデルの背後にあるコアメカニックに対する最初の収束保証を証明した。
以前の作品と比較すると、時間的に指数関数的に増加するエラーや、次元の呪いに苦しむエラーは発生しない。
予測器・相関器はどちらの部分のみを使用するよりも収束性が高いことを示す。
論文 参考訳(メタデータ) (2022-06-13T14:57:35Z) - Unrolling Particles: Unsupervised Learning of Sampling Distributions [102.72972137287728]
粒子フィルタリングは複素系の優れた非線形推定を計算するために用いられる。
粒子フィルタは様々なシナリオにおいて良好な推定値が得られることを示す。
論文 参考訳(メタデータ) (2021-10-06T16:58:34Z) - Distributionally Robust Bayesian Quadrature Optimization [60.383252534861136]
確率分布が未知な分布の不確実性の下でBQOについて検討する。
標準的なBQOアプローチは、固定されたサンプル集合が与えられたときの真の期待目標のモンテカルロ推定を最大化する。
この目的のために,新しい後方サンプリングに基づくアルゴリズム,すなわち分布的に堅牢なBQO(DRBQO)を提案する。
論文 参考訳(メタデータ) (2020-01-19T12:00:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。