論文の概要: Series Expansion of Probability of Correct Selection for Improved Finite Budget Allocation in Ranking and Selection
- arxiv url: http://arxiv.org/abs/2411.10695v1
- Date: Sat, 16 Nov 2024 04:26:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:34:40.881188
- Title: Series Expansion of Probability of Correct Selection for Improved Finite Budget Allocation in Ranking and Selection
- Title(参考訳): ランク付け・選択における有限予算配分の改善のための正しい選択の確率の連続的拡張
- Authors: Xinbo Shi, Yijie Peng, Bruno Tuffin,
- Abstract要約: 限られたシミュレーション予算の下でのPCS近似は、有限サンプル設定において精度を欠く可能性がある。
本稿では, 最適条件を逐次推定し, サンプリング比のバランスをとる, 新たな有限予算割当政策を提案する。
拡張として、低信頼シナリオの文献に記述されている非単調なPCS挙動は、PCS近似における同時的不正確なバイナリ比較の無視に起因する可能性があることに留意する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: This paper addresses the challenge of improving finite sample performance in Ranking and Selection by developing a Bahadur-Rao type expansion for the Probability of Correct Selection (PCS). While traditional large deviations approximations captures PCS behavior in the asymptotic regime, they can lack precision in finite sample settings. Our approach enhances PCS approximation under limited simulation budgets, providing more accurate characterization of optimal sampling ratios and optimality conditions dependent of budgets. Algorithmically, we propose a novel finite budget allocation (FCBA) policy, which sequentially estimates the optimality conditions and accordingly balances the sampling ratios. We illustrate numerically on toy examples that our FCBA policy achieves superior PCS performance compared to tested traditional methods. As an extension, we note that the non-monotonic PCS behavior described in the literature for low-confidence scenarios can be attributed to the negligence of simultaneous incorrect binary comparisons in PCS approximations. We provide a refined expansion and a tailored allocation strategy to handle low-confidence scenarios, addressing the non-monotonicity issue.
- Abstract(参考訳): 本稿では,PCS(Probability of correct Selection)のためのBahadur-Rao型拡張を開発することにより,ランク付けと選択における有限サンプル性能の向上を課題とする。
従来の大きな偏差近似は漸近状態におけるPCSの挙動を捉えるが、有限サンプル設定では精度に欠ける。
提案手法は, 限られたシミュレーション予算下でのPCS近似を強化し, 最適なサンプリング比と予算に依存する最適条件をより正確に評価する。
アルゴリズムにより, 最適条件を逐次推定し, サンプリング比のバランスをとる新しい有限予算割当(FCBA)政策を提案する。
FCBAポリシーが従来の試験方法と比較して優れたPCS性能を達成するという,おもちゃの例を数値的に説明する。
拡張として、低信頼シナリオの文献に記述されている非単調なPCS挙動は、PCS近似における同時的不正確なバイナリ比較の無視に起因する可能性があることに留意する。
非単調性問題に対処し、低信頼シナリオを扱うための改良された拡張と調整されたアロケーション戦略を提供する。
関連論文リスト
- Optimizing Probabilistic Conformal Prediction with Vectorized Non-Conformity Scores [6.059745771017814]
本研究では,まず非整合性スコアをランク付きサンプルでベクトル化し,次に同じランクのサンプルに対して定量値を変化させることで,予測値の形状を最適化することにより,効率を向上させる新しいフレームワークを提案する。
提案手法は,不連続かつ効率的な予測セットを生成しながら,有効なカバレッジを提供する。
論文 参考訳(メタデータ) (2024-10-17T16:37:03Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Likelihood Ratio Confidence Sets for Sequential Decision Making [51.66638486226482]
確率に基づく推論の原理を再検討し、確率比を用いて妥当な信頼シーケンスを構築することを提案する。
本手法は, 精度の高い問題に特に適している。
提案手法は,オンライン凸最適化への接続に光を当てることにより,推定器の最適シーケンスを確実に選択する方法を示す。
論文 参考訳(メタデータ) (2023-11-08T00:10:21Z) - Statistical Rejection Sampling Improves Preference Optimization [42.57245965632205]
提案手法は,リジェクションサンプリングを用いた最適ポリシーからのソース選好データに対する新しいアプローチを提案する。
また、嗜好モデルの観点から、SLiC(Sequence Likelihood)とDPO(Direct Preference Optimization)の両方で使用される損失関数を強化する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-13T01:07:25Z) - Provably Efficient UCB-type Algorithms For Learning Predictive State
Representations [55.00359893021461]
逐次決定問題は、予測状態表現(PSR)によってモデル化された低ランク構造が認められる場合、統計的に学習可能である
本稿では,推定モデルと実モデル間の全変動距離を上限とする新しいボーナス項を特徴とする,PSRに対する最初のUCB型アプローチを提案する。
PSRに対する既存のアプローチとは対照的に、UCB型アルゴリズムは計算的トラクタビリティ、最優先の準最適ポリシー、モデルの精度が保証される。
論文 参考訳(メタデータ) (2023-07-01T18:35:21Z) - $K$-Nearest-Neighbor Resampling for Off-Policy Evaluation in Stochastic
Control [0.6906005491572401]
歴史的データからポリシーの性能を推定するための,新規な$K$-nearest 隣人パラメトリック手法を提案する。
私たちの分析は、ほとんどのアプリケーションで一般的なプラクティスであるように、エピソード全体のサンプリングを可能にします。
他のOPE手法と比較して、我々のアルゴリズムは最適化を必要とせず、木に基づく近接探索と並列化によって効率的に実装することができ、環境のダイナミクスのパラメトリックモデルを明示的に仮定することはない。
論文 参考訳(メタデータ) (2023-06-07T23:55:12Z) - Selection of the Most Probable Best [2.1095005405219815]
予測値ランキングと選択(R&S)問題では,すべてのk解のシミュレーション出力が,分布によって不確実性をモデル化可能な共通パラメータに依存する。
我々は、最も確率の高い最適解 (MPB) を、分布に関して最適である確率が最も大きい解と定義する。
最適化条件における未知の手段をその推定値に置き換えるアルゴリズムを考案し,シミュレーション予算が増加するにつれて,アルゴリズムのサンプリング比が条件を満たすことを証明した。
論文 参考訳(メタデータ) (2022-07-15T15:27:27Z) - Probabilistic Conformal Prediction Using Conditional Random Samples [73.26753677005331]
PCPは、不連続な予測セットによって対象変数を推定する予測推論アルゴリズムである。
効率的で、明示的または暗黙的な条件生成モデルと互換性がある。
論文 参考訳(メタデータ) (2022-06-14T03:58:03Z) - Conformal Off-Policy Prediction in Contextual Bandits [54.67508891852636]
コンフォーマルなオフ政治予測は、新しい目標ポリシーの下で、結果に対する信頼できる予測間隔を出力することができる。
理論上の有限サンプル保証は、標準的な文脈的バンディットの設定を超える追加の仮定をすることなく提供する。
論文 参考訳(メタデータ) (2022-06-09T10:39:33Z) - Conformal Uncertainty Sets for Robust Optimization [0.0]
マハラノビス距離を多目的回帰と共同予測領域の構築のための新しい関数として用いる。
また、共形予測領域をロバストな最適化に結び付け、有限サンプル有効かつ保守的な不確実性集合を提供する。
論文 参考訳(メタデータ) (2021-05-31T13:42:24Z) - Amortized Conditional Normalized Maximum Likelihood: Reliable Out of
Distribution Uncertainty Estimation [99.92568326314667]
本研究では,不確実性推定のための拡張性のある汎用的アプローチとして,償却条件正規化最大値(ACNML)法を提案する。
提案アルゴリズムは条件付き正規化最大度(CNML)符号化方式に基づいており、最小記述長の原理に従って最小値の最適特性を持つ。
我々は、ACNMLが、分布外入力のキャリブレーションの観点から、不確実性推定のための多くの手法と好意的に比較することを示した。
論文 参考訳(メタデータ) (2020-11-05T08:04:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。