論文の概要: GuidedSampling: Steering LLMs Towards Diverse Candidate Solutions at Inference-Time
- arxiv url: http://arxiv.org/abs/2510.03777v1
- Date: Sat, 04 Oct 2025 11:02:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.247575
- Title: GuidedSampling: Steering LLMs Towards Diverse Candidate Solutions at Inference-Time
- Title(参考訳): GuidedSampling: さまざまな候補ソリューションを推論時に実現するLCMのステアリング
- Authors: Divij Handa, Mihir Parmar, Aswin RRV, Md Nayem Uddin, Hamid Palangi, Chitta Baral,
- Abstract要約: 本稿では,新たな推論アルゴリズムである GuidedSampling を提案する。
探索フェーズは問題を解くために利用できる複数の概念を識別し、生成フェーズは最終解候補を提供するための特定の概念を適用する。
- 参考スコア(独自算出の注目度): 40.94165318043027
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Repeated Sampling (RS) is a simple inference-time algorithm that has been shown to improve model performance on complex tasks. Although it is an effective way of scaling inference time, it often struggles to generate diverse solution candidates, frequently relying on the same underlying approach to solve the problem and thus producing redundant samples. To address this limitation, we propose a new inference algorithm, GuidedSampling, which decouples the exploration and generation phases during inference, increasing diversity of generated candidate solutions. The exploration phase identifies multiple concepts that can be utilized to solve the problem, while the generation phase applies a specific concept to provide final solution candidates. We first define the theoretical bounds of GuidedSampling and then empirically demonstrate that it improves the performance of base model at pass@50 by on an average ~21.6% across various benchmarks compared to RS. Furthermore, models trained on trajectories of GuidedSampling exhibit substantial performance improvements at pass@5 by on an average ~9.7%, compared to models trained on traditional RS. Additionally, models trained with GuidedSampling increases the average number of concepts per instance (1.67 -> 3.03), yielding a diverse set of candidates than traditional RS.
- Abstract(参考訳): 繰り返しサンプリング (RS) は複雑なタスクにおけるモデル性能を改善するための単純な推論時アルゴリズムである。
推論時間を効果的にスケーリングする方法であるが、様々な解の候補を生成するのに苦労し、しばしば問題を解くために同じ基本的なアプローチに依存し、結果として冗長なサンプルを生成する。
この制限に対処するため,提案アルゴリズムである GuidedSampling を提案する。
探索フェーズは問題を解くために利用できる複数の概念を識別し、生成フェーズは最終解候補を提供するための特定の概念を適用する。
まず、まず GuidedSampling の理論的境界を定義し、次に、RS と比較して、平均 21.6% でpass@50 におけるベースモデルの性能を改善することを実証的に示す。
さらに、 GuidedSamplingの軌道で訓練されたモデルは、従来のRSで訓練されたモデルと比較して、平均で9.7%のパス@5で大幅に性能が向上した。
さらに、 GuidedSamplingでトレーニングされたモデルでは、インスタンス毎の平均コンセプト数(1.67 -> 3.03)が増加し、従来のRSよりも多様な候補が生成される。
関連論文リスト
- Efficiently Generating Correlated Sample Paths from Multi-step Time Series Foundation Models [66.60042743462175]
時系列基礎モデルから正確な相関サンプルパスを効率的に生成するためのコプラに基づく手法を提案する。
提案手法は, 自己回帰サンプリングよりもはるかに高速に相関したサンプルパスを生成する。
論文 参考訳(メタデータ) (2025-10-02T17:08:58Z) - Learning to Refine: Self-Refinement of Parallel Reasoning in LLMs [102.48588475875749]
本稿では,新しい並列テスト時間スケーリングフレームワークであるGenerative Self-Refinement (GSR)を紹介する。
GSRは一連の候補応答を並列に生成し、その後自己精製を行い、新しい優れた解を合成する。
提案手法は,5つの数学ベンチマークにおいて,最先端性能を実現する。
論文 参考訳(メタデータ) (2025-08-27T06:51:48Z) - Reinforce LLM Reasoning through Multi-Agent Reflection [8.088795955922656]
DPSDPは,自己生成データを直接選好学習することで,アクタクリティカルなLLMシステムを反復的に洗練する強化学習アルゴリズムである。
理論的には、DPSDPはトレーニング分布内の任意のポリシーのパフォーマンスと一致させることができる。
例えば、ベンチマークMATH 500では、5つの改良ステップ以上の多数投票がミニストラーモデルで第1回投票の精度を58.2%から63.2%に向上させた。
論文 参考訳(メタデータ) (2025-06-10T02:43:47Z) - Unlocking the Potential of Difficulty Prior in RL-based Multimodal Reasoning [69.64809103333839]
先行情報に対する問題の難易度を明示的にモデル化し,多モーダル推論における強化学習に基づく微調整の有効性を検証した。
提案手法は,2段階学習データのみを2K+0.6Kとする多モード数学的推論ベンチマークにおいて有意な性能を示す。
論文 参考訳(メタデータ) (2025-05-19T15:43:10Z) - On the Effect of Sampling Diversity in Scaling LLM Inference [57.31028064284527]
大規模言語モデル(LLM)のスケーリング推論は、パフォーマンス向上の鍵となる。
解の精度と応答の有意な多様性の関係から,スケーリング推論における急激な多様性の効果を体系的に研究した。
また,Best-of-N$選択後の有意義な多様なプロンプトから生成した応答は,定常的なプロンプトから生成した応答よりも有意に低い値を示した。
論文 参考訳(メタデータ) (2025-02-16T07:37:58Z) - Sampling Through the Lens of Sequential Decision Making [9.101505546901999]
我々はアダプティブ・サンプル・ウィズ・リワード(ASR)と呼ばれる報酬誘導型サンプリング戦略を提案する。
提案手法は,サンプリング過程を最適に調整し,最適性能を実現する。
情報検索とクラスタリングの実証的な結果は、異なるデータセット間でのASRのスーパーブパフォーマンスを示している。
論文 参考訳(メタデータ) (2022-08-17T04:01:29Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - Squared $\ell_2$ Norm as Consistency Loss for Leveraging Augmented Data
to Learn Robust and Invariant Representations [76.85274970052762]
元のサンプルと拡張されたサンプルの埋め込み/表現の距離を規則化することは、ニューラルネットワークの堅牢性を改善するための一般的なテクニックである。
本稿では、これらの様々な正規化選択について検討し、埋め込みの正規化方法の理解を深める。
私たちが特定したジェネリックアプローチ(squared $ell$ regularized augmentation)は、それぞれ1つのタスクのために特別に設計されたいくつかの手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-11-25T22:40:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。