論文の概要: Conformal Bandits: Bringing statistical validity and reward efficiency to the small-gap regime
- arxiv url: http://arxiv.org/abs/2512.09850v1
- Date: Wed, 10 Dec 2025 17:34:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-11 15:14:53.613338
- Title: Conformal Bandits: Bringing statistical validity and reward efficiency to the small-gap regime
- Title(参考訳): コンフォーマル帯域:小ギャップ体制に統計的妥当性と報酬効率をもたらす
- Authors: Simone Cuonzo, Nina Deliu,
- Abstract要約: 本稿では,コンフォーマル予測を帯域問題に組み込む新しいフレームワークであるConformal Banditsを紹介する。
有限時間予測カバレッジという形で統計的保証を施した意思決定の盗賊政策の後悔を最小化する可能性を橋渡しする。
これに触発された私たちは、小さなギャップ設定での後悔の観点から、我々のフレームワークの実践的な優位性を示します。
- 参考スコア(独自算出の注目度): 0.39082875522676397
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Conformal Bandits, a novel framework integrating Conformal Prediction (CP) into bandit problems, a classic paradigm for sequential decision-making under uncertainty. Traditional regret-minimisation bandit strategies like Thompson Sampling and Upper Confidence Bound (UCB) typically rely on distributional assumptions or asymptotic guarantees; further, they remain largely focused on regret, neglecting their statistical properties. We address this gap. Through the adoption of CP, we bridge the regret-minimising potential of a decision-making bandit policy with statistical guarantees in the form of finite-time prediction coverage. We demonstrate the potential of it Conformal Bandits through simulation studies and an application to portfolio allocation, a typical small-gap regime, where differences in arm rewards are far too small for classical policies to achieve optimal regret bounds in finite sample. Motivated by this, we showcase our framework's practical advantage in terms of regret in small-gap settings, as well as its added value in achieving nominal coverage guarantees where classical UCB policies fail. Focusing on our application of interest, we further illustrate how integrating hidden Markov models to capture the regime-switching behaviour of financial markets, enhances the exploration-exploitation trade-off, and translates into higher risk-adjusted regret efficiency returns, while preserving coverage guarantees.
- Abstract(参考訳): コンフォーマル予測(CP)をバンド問題に統合する新しいフレームワークであるコンフォーマル帯域(Conformal Bandits)を導入する。
トンプソン・サンプリング(英語版)やアッパー・信頼境界(英語版) (UCB) のような伝統的な後悔最小化の盗賊戦略は、一般に分布的な仮定や漸近的な保証に頼っている。
私たちはこのギャップに対処する。
CPの導入を通じて、有限時間予測の形で統計的に保証された意思決定バンディット政策の後悔を最小化する可能性を橋渡しする。
シミュレーション研究によるコンフォーマルバンドの可能性を実証し、有限サンプルにおける最適後悔境界を達成するには、腕の報酬の差があまりにも小さすぎる典型的な小ギャップ方式であるポートフォリオアロケーションに適用する。
これに触発された当社のフレームワークは,小域設定における後悔の点から,従来の UCB ポリシーが失敗した場合の,名目上のカバレッジ保証を達成する上での付加価値として,現実的な優位性を示します。
興味の応用に焦点をあて、隠れマルコフモデルを統合することで、金融市場の体制変更行動の把握、探索・探索トレードオフの強化、リスク調整による後悔効率の向上、そしてカバレッジ保証の維持等を図っている。
関連論文リスト
- Likelihood Reward Redistribution [0.0]
本稿では,報酬再分配のためのEmphLikelihood Reward Redistribution (LRR) フレームワークを提案する。
ソフトアクター・クライブのような非政治的アルゴリズムと統合すると、LRRは密度が高く情報的な報奨信号を生成する。
論文 参考訳(メタデータ) (2025-03-20T20:50:49Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Regret Distribution in Stochastic Bandits: Optimal Trade-off between Expectation and Tail Risk [26.397343668067382]
我々は,多武装バンディットモデルにおける後悔分布の予測とテールリスクの最適トレードオフについて検討した。
任意の後悔しきい値に対する最適な後悔の尾の確率を特徴付けるために、新しいポリシーが提案されている。
論文 参考訳(メタデータ) (2023-04-10T01:00:18Z) - Contextual bandits with concave rewards, and an application to fair
ranking [108.48223948875685]
CBCR (Contextual Bandits with Concave Rewards) に対する反省点のある最初のアルゴリズムを提案する。
我々は,スカラー・リワード問題に対するCBCRの後悔から,新たな縮小を導出した。
推薦の公正さによって動機づけられたCBCRの特別事例として,ランク付けと公正を意識した目的について述べる。
論文 参考訳(メタデータ) (2022-10-18T16:11:55Z) - Conformal Off-Policy Prediction in Contextual Bandits [54.67508891852636]
コンフォーマルなオフ政治予測は、新しい目標ポリシーの下で、結果に対する信頼できる予測間隔を出力することができる。
理論上の有限サンプル保証は、標準的な文脈的バンディットの設定を超える追加の仮定をすることなく提供する。
論文 参考訳(メタデータ) (2022-06-09T10:39:33Z) - Nonstationary Stochastic Multiarmed Bandits: UCB Policies and Minimax
Regret [5.1398743023989555]
我々は、各腕に関連する報酬の分布が時間変動であると仮定する非定常的マルチアーミングバンディット(MAB)問題を研究する。
提案手法は, 変動予算を満たした報酬分配系列の組に対する後悔の前提となる, 最悪の場合の後悔という観点から, 提案手法の性能を特徴付ける。
論文 参考訳(メタデータ) (2021-01-22T07:34:09Z) - On Lower Bounds for Standard and Robust Gaussian Process Bandit
Optimization [55.937424268654645]
有界ノルムを持つ関数のブラックボックス最適化問題に対するアルゴリズム非依存な下界を考える。
本稿では, 単純さ, 汎用性, エラー確率への依存性の向上など, 後悔の下位境界を導出するための新しい証明手法を提案する。
論文 参考訳(メタデータ) (2020-08-20T03:48:14Z) - Reinforcement Learning of Risk-Constrained Policies in Markov Decision
Processes [5.081241420920605]
マルコフ決定プロセス(MDPs)は、確率的不確実性の存在下でのシーケンシャルな意思決定のためのデファクト・フレームワークである。
破滅的な結果が再帰する障害状態と相まって, 対価を割引したMDPについて検討する。
我々の主な貢献は、UDTのような探索とMDPとの学習的相互作用を組み合わせた効率的なリスク制約型プランニングアルゴリズムである。
論文 参考訳(メタデータ) (2020-02-27T13:36:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。