論文の概要: BEACON: Bayesian Optimal Stopping for Efficient LLM Sampling
- arxiv url: http://arxiv.org/abs/2510.15945v1
- Date: Thu, 09 Oct 2025 20:26:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-26 16:57:26.46264
- Title: BEACON: Bayesian Optimal Stopping for Efficient LLM Sampling
- Title(参考訳): BEACON: 効率的なLCMサンプリングのためのベイズ最適ストッピング
- Authors: Guangya Wan, Zixin Stephen Xu, Sasa Zorc, Manel Baucells, Mengxuan Hu, Hao Wang, Sheng Li,
- Abstract要約: 本稿では,ベイズ学習を用いた逐次探索に基づく適応型サンプリングフレームワークBEACONを紹介する。
BEACONは応答品質を維持しつつ,平均サンプリングを最大80%削減することを示す。
- 参考スコア(独自算出の注目度): 12.126812175725654
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sampling multiple responses is a common way to improve LLM output quality, but it comes at the cost of additional computation. The key challenge is deciding when to stop generating new samples to balance accuracy gains against efficiency. To address this, we introduce BEACON (Bayesian Efficient Adaptive Criterion for Optimal N-stopping), a principled adaptive sampling framework grounded in Sequential Search with Bayesian Learning. BEACON sequentially generates responses from the policy LLM, updates posterior belief over reward distributions in real time without further training, and determines when to stop by weighing expected gains against computational cost. Sampling terminates once the marginal utility of further exploration no longer justifies the expense. We establish both theoretical optimality guarantees and practical tractability, and show empirically that BEACON reduces average sampling by up to 80% while maintaining response quality. We further demonstrate BEACON's utility for cost-efficient preference data generation and outline practical extensions, offering actionable insights for future researchers.
- Abstract(参考訳): 複数の応答をサンプリングすることは、LCMの出力品質を改善するための一般的な方法であるが、追加計算のコストがかかる。
重要な課題は、正確さと効率のバランスをとるために、いつ新しいサンプルを作成するのをやめるかを決めることである。
これを解決するために,ベイズ学習を用いた逐次探索に基づく適応型サンプリングフレームワークBEACON(Bayesian Efficient Adaptive Criterion for Optimal N-stopping)を紹介する。
BEACONは、ポリシーLSMからの応答を逐次生成し、さらなるトレーニングをすることなく、報酬分布に対する後続の信念をリアルタイムで更新し、計算コストに対して期待される利得を測って、いつ停止するかを決定する。
サンプリングは、さらなる探査の限界効用がもはや費用を正当化しないときに終了する。
理論的最適性保証と実用的トラクタビリティの両方を確立し,BEACONが応答品質を維持しながら平均サンプリングを最大80%削減できることを実証的に示す。
さらに、BEACONのコスト効率の良い選好データ生成ユーティリティを実証し、実用的な拡張の概要を示し、将来の研究者に実用的な洞察を提供する。
関連論文リスト
- Reward-Shifted Speculative Sampling Is An Efficient Test-Time Weak-to-Strong Aligner [24.152878302325508]
提案手法では,対象モデルが変わらず,ヒトの嗜好に沿うような,報酬シフト型投機的サンプリング(SSS)アルゴリズムを導入する。
本アルゴリズムは, 試験時間低強度アライメント実験において, 推定コストを著しく低減し, 優れた金報酬スコアを得る。
論文 参考訳(メタデータ) (2025-08-20T20:10:56Z) - Quantum-Inspired DRL Approach with LSTM and OU Noise for Cut Order Planning Optimization [0.0]
裁量計画(COP)は繊維産業において重要な課題であり、繊維の利用と製造コストに直接影響を及ぼす。
本稿では,Long Short-Term Memory NetworkとOrnstein-Uhlenbeckノイズを統合した量子インスパイアされたDeep Reinforcement Learningフレームワークを提案する。
比較分析の結果,提案手法は従来手法と比較して最大13%のコスト削減を実現していることがわかった。
論文 参考訳(メタデータ) (2025-08-13T05:00:50Z) - Accelerating RL for LLM Reasoning with Optimal Advantage Regression [52.0792918455501]
本稿では,最適優位関数を直接近似する新しい2段階ポリシー最適化フレームワークを提案する。
A$*-POは、幅広い数学的推論ベンチマークで競合性能を達成する。
PPO、GRPO、REBELと比較して、トレーニング時間を最大2$times$、ピークメモリ使用率を30%以上削減する。
論文 参考訳(メタデータ) (2025-05-27T03:58:50Z) - Supervised Optimism Correction: Be Confident When LLMs Are Sure [91.7459076316849]
教師付き微調整とオフライン強化学習の間には,新たな理論的関係が確立されている。
広く使われているビームサーチ法は、許容できない過度な最適化に悩まされていることを示す。
本稿では,トークンレベル$Q$-value推定のための簡易かつ効果的な補助的損失を導入したSupervised Optimism Correctionを提案する。
論文 参考訳(メタデータ) (2025-04-10T07:50:03Z) - Bridging SFT and DPO for Diffusion Model Alignment with Self-Sampling Preference Optimization [67.8738082040299]
自己サンプリング優先最適化(SSPO)は,訓練後強化学習のための新しいアライメント手法である。
SSPOは、SFTのトレーニング安定性を維持しながら、ペアデータと報酬モデルの必要性を排除する。
SSPOは、テキスト・ツー・イメージベンチマークにおける以前のアプローチを全て上回り、テキスト・ツー・ビデオベンチマークにおける優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-10-07T17:56:53Z) - Reasoning Aware Self-Consistency: Leveraging Reasoning Paths for Efficient LLM Sampling [9.44858963874474]
自己整合性は、複数の推論経路をサンプリングすることによって、大規模言語モデル(LLM)における幻覚を緩和する。
本稿では、サンプリング効率を高め、忠実性を推論する新しいフレームワークであるReasoning-Aware Self-Consistency (RASC)を紹介する。
論文 参考訳(メタデータ) (2024-08-30T05:14:59Z) - Switching the Loss Reduces the Cost in Batch (Offline) Reinforcement Learning [57.154674117714265]
本稿では,FQI-log を用いた準最適政策の学習に必要なサンプル数と,最適政策の累積コストについて述べる。
我々は,FQI-logが目標を確実に達成する問題に対して,2乗損失を訓練したFQIよりも少ないサンプルを用いていることを実証的に検証した。
論文 参考訳(メタデータ) (2024-03-08T15:30:58Z) - Overcoming Reward Overoptimization via Adversarial Policy Optimization with Lightweight Uncertainty Estimation [46.61909578101735]
AdvPO(Adversarial Policy Optimization)は、人間からの強化学習における報酬過度最適化の問題に対する新しい解決策である。
本稿では,報酬モデルの最後の層埋め込みにのみ依存して,報酬の不確実性を定量化する軽量な手法を提案する。
論文 参考訳(メタデータ) (2024-03-08T09:20:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。