論文の概要: Conformal-Style Quantile Analyses for Stochastic Bandits
- arxiv url: http://arxiv.org/abs/2605.07115v1
- Date: Fri, 08 May 2026 01:44:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.727742
- Title: Conformal-Style Quantile Analyses for Stochastic Bandits
- Title(参考訳): 確率帯域に対する等角形状量子解析
- Authors: Chengyu Du, Mengfan Xu,
- Abstract要約: ACP-UCB1は、上端の適応型コンフォメーション推定とUTB型最適化ボーナスを組み合わせたコンフォメーションスタイルのポリシーである。
ACP-UCB1 と UCB1 を比較し,数値実験を用いて評価と改善を行った。
- 参考スコア(独自算出の注目度): 5.368069991277497
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Stochastic bandit algorithms are usually analyzed under a mean-reward criterion, yet many problems favor arms with strong upper-tail performance, which we study herein. For a fixed miscoverage level \(α\), the natural upper-tail target of arm \(j\) is the upper endpoint \(F_j^{-1}(1-α/2)\) of a central prediction interval. This target can rank arms differently from their means, creating a central mismatch with the classical bandit objective. To this end, we propose ACP-UCB1, a conformal-style policy that combines an adaptive conformal estimate of the upper endpoint with a UCB-type optimism bonus. The technical challenge is that the conformity scores used by ACP-UCB1 are recomputed from evolving empirical quantile estimates and evaluated at an adaptive level. We control this endpoint through reward-quantile concentration, a perturbation argument for recomputed score quantiles, and deterministic localization of the adaptive level. ACP-UCB1 achieves logarithmic upper-quantile regret with per-arm contribution \(O(\nicefrac{\log n}{Δ_j^{\mathrm{ACP}}})\). We also provide metric-specific regret decompositions comparing ACP-UCB1 with UCB1 and use numerical experiments to validate performance and improvement.
- Abstract(参考訳): 確率的バンディットアルゴリズムは通常、平均回帰基準の下で解析されるが、多くの問題は強力な上尾部パフォーマンスを持つ腕を好んでいる。
固定された誤発見レベル \(α\) に対して、アーム \(j\) の自然な上尾ターゲットは中央予測間隔の上端 \(F_j^{-1}(1-α/2)\) である。
この標的は、その手段と異なる武器のランク付けが可能であり、古典的な盗賊の目標と中央のミスマッチを生じさせる。
この目的のために,上端の適応的等角性推定とUPB型最適化ボーナスを組み合わせた共形型ポリシであるACP-UCB1を提案する。
技術的課題は、ACP-UCB1が使用する適合度スコアが、進化する経験的量子的推定から再計算され、適応レベルで評価されることである。
我々は、この終点を報酬量子濃度、再計算されたスコア量子化の摂動論、適応レベルの決定論的局所化によって制御する。
ACP-UCB1 は、(O(\nicefrac {\log n}{Δ_j^{\mathrm{ACP}}})\) による対数的上量子的後悔を達成する。
また, ACP-UCB1 と UCB1 を比較し, 数値実験を用いて評価と改善を行った。
関連論文リスト
- Rethinking Importance Sampling in LLM Policy Optimization: A Cumulative Token Perspective [22.848847562976633]
トークンレベルのIS比は、PPOとGRPOが採用しているように、プレフィックス状態の分布ミスマッチを無視してバイアスを導入する。
我々は、累積トークンIS比と、累積対数比の自然な$sqrtt$成長に応じて、対数空間のクリップ境界を拡大する位置適応クリッピングを組み合わせたCTPOを提案する。
論文 参考訳(メタデータ) (2026-05-08T06:35:02Z) - Too Correct to Learn: Reinforcement Learning on Saturated Reasoning Data [55.84428098924793]
構造保存探索を行うためのパラメータ自由復号法である Constrained Uniform Top-K Smpling (CUTS) を提案する。
グループ内の利点分散を増幅するために、エクスプロイトと探索的なロールアウトを相乗化するためのトレーニングフレームワークであるMixed-CUTSに統合する。
特にMixed-CUTSは、AIME25ベンチマークのPass@1の精度を標準のGRPOよりも15.1%向上している。
論文 参考訳(メタデータ) (2026-04-20T16:43:28Z) - Balanced Aggregation: Understanding and Fixing Aggregation Bias in GRPO [70.38763678943648]
検証可能な報酬(RLVR)による強化学習は、大規模言語モデルにおける推論とコード生成を改善するための中心的なパラダイムとなっている。
標準的なGRPOはシーケンスアグリゲーションを使用し、最近の研究はトークンアグリゲーションをより良い代替手段として提唱している。
トークンアグリゲーションは符号長結合を導入し、シーケンスアグリゲーションは暗黙的にダウンウェイトを延長する。
論文 参考訳(メタデータ) (2026-04-14T09:48:46Z) - Learning from Emptiness: De-biasing Listwise Rerankers with Content-Agnostic Probability Calibration [76.08899010904652]
CapCalは、ランキング決定から位置バイアスを機械的に分離する、トレーニング不要のフレームワークである。
シングルパス効率を保ちながら、トレーニング不要の手法で優れた性能を発揮する。
論文 参考訳(メタデータ) (2026-04-11T10:47:22Z) - Fair Decisions from Calibrated Scores: Achieving Optimal Classification While Satisfying Sufficiency [2.0686600920324163]
予測確率(スコア)に基づくバイナリ分類は、教師付き機械学習の基本的なタスクである。
群校正スコアの有限集合を仮定して、十分条件下での最適二項分類の正確な解を提案する。
論文 参考訳(メタデータ) (2026-02-07T00:26:40Z) - What is the Alignment Objective of GRPO? [30.36318490634376]
本稿では,GRPOアルゴリズムの定常ポリシを特徴付けるためのフレームワークを提案する。
選好アグリゲーションの正確な形は、報酬選好モデルの定義方法とペナルティ関数から生じる。
二分問題に対する集合的選好の明示的な特徴付けとして,大小2の群に対して,大小2の群に対して,大小の群を限定する。
論文 参考訳(メタデータ) (2025-02-25T15:56:56Z) - Semiparametric conformal prediction [79.6147286161434]
ベクトル値の非整合性スコアの結合相関構造を考慮した共形予測セットを構築する。
スコアの累積分布関数(CDF)を柔軟に推定する。
提案手法は,現実の回帰問題に対して,所望のカバレッジと競争効率をもたらす。
論文 参考訳(メタデータ) (2024-11-04T14:29:02Z) - Actor-Critic based Improper Reinforcement Learning [61.430513757337486]
我々は,未知のマルコフ決定プロセスに対して,学習者に100万ドルのベースコントローラを付与する不適切な強化学習環境を考える。
本稿では,(1)ポリシーグラディエントに基づくアプローチ,(2)単純なアクター・クリティカル・スキームとNatural Actor-Criticスキームを切り替えるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-19T05:55:02Z) - Stochastic Optimization of Areas Under Precision-Recall Curves with
Provable Convergence [66.83161885378192]
ROC(AUROC)と精度リコール曲線(AUPRC)の下の領域は、不均衡問題に対する分類性能を評価するための一般的な指標である。
本稿では,深層学習のためのAUPRCの最適化手法を提案する。
論文 参考訳(メタデータ) (2021-04-18T06:22:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。