論文の概要: EVaR-Optimal Arm Identification in Bandits
- arxiv url: http://arxiv.org/abs/2510.04728v1
- Date: Mon, 06 Oct 2025 11:49:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.838949
- Title: EVaR-Optimal Arm Identification in Bandits
- Title(参考訳): バンドにおけるEVaR-Optimal Arm Identification
- Authors: Mehrasa Ahmadipour, Aurélien Garivier,
- Abstract要約: The fixed-confidence best arm identification problem in the multiarmed bandit (MAB) framework under the Entropic Value-at-Risk criterion。
- 参考スコア(独自算出の注目度): 7.340828059560291
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We study the fixed-confidence best arm identification (BAI) problem within the multi-armed bandit (MAB) framework under the Entropic Value-at-Risk (EVaR) criterion. Our analysis considers a nonparametric setting, allowing for general reward distributions bounded in [0,1]. This formulation addresses the critical need for risk-averse decision-making in high-stakes environments, such as finance, moving beyond simple expected value optimization. We propose a $\delta$-correct, Track-and-Stop based algorithm and derive a corresponding lower bound on the expected sample complexity, which we prove is asymptotically matched. The implementation of our algorithm and the characterization of the lower bound both require solving a complex convex optimization problem and a related, simpler non-convex one.
- Abstract(参考訳): 本稿では,多腕バンディット(MAB)フレームワークにおける固定信頼度ベストアーム識別(BAI)問題について,Entropic Value-at-Risk(EVaR)基準の下で検討する。
我々の分析は、[0,1] に有界な一般報酬分布を許容する非パラメトリックな設定を考える。
この定式化は、単純な期待値の最適化を超えて、金融のような高リスク環境におけるリスク-逆決定の重要な必要性に対処する。
我々は$\delta$-correct, Track-and-Stop ベースのアルゴリズムを提案し、期待されるサンプルの複雑さに基づいて対応する下界を導出し、漸近的に一致することを証明した。
本アルゴリズムの実装と下界の特性評価には,複雑な凸最適化問題と,関連するより単純な凸非凸問題の解法が必要である。
関連論文リスト
- Constrained Pareto Set Identification with Bandit Feedback [10.967572582187014]
意味不明の$Kの武器が与えられた場合、平均が他の腕よりも一様でない腕のセットを特定することが目的である。
我々は固定信頼度同定に重点を置いており、レースのようなアルゴリズムを著しく上回るアルゴリズムを導入している。
論文 参考訳(メタデータ) (2025-06-09T18:29:28Z) - Asymptotically Optimal Linear Best Feasible Arm Identification with Fixed Budget [55.938644481736446]
本稿では,誤差確率の指数的減衰を保証し,最適な腕識別のための新しいアルゴリズムを提案する。
我々は,複雑性のレベルが異なる様々な問題インスタンスに対する包括的経験的評価を通じて,アルゴリズムの有効性を検証する。
論文 参考訳(メタデータ) (2025-06-03T02:56:26Z) - Enhancing Distributional Robustness in Principal Component Analysis by Wasserstein Distances [7.695578200868269]
主成分分析(PCA)の分布ロバスト最適化(DRO)モデルについて,基礎となる確率分布の不確実性を考慮する。
結果の定式化は非滑らかな制約付き min-max 最適化問題につながり、曖昧性集合はタイプ2$ワッサーシュタイン距離で分布の不確かさを捉える。
この明示的な特徴付けは、元の DRO モデルを、複雑な非滑らかな項を持つスティーフェル多様体上の最小化問題に同値に再構成する。
論文 参考訳(メタデータ) (2025-03-04T11:00:08Z) - Towards a Sharp Analysis of Offline Policy Learning for $f$-Divergence-Regularized Contextual Bandits [49.96531901205305]
我々は$f$-divergence-regularized offline policy learningを分析する。
逆Kullback-Leibler (KL) の発散に対して、単極集中性の下での最初の$tildeO(epsilon-1)$サンプル複雑性を与える。
これらの結果は,$f$-divergence-regularized policy learningの包括的理解に向けて大きな一歩を踏み出したものと考えられる。
論文 参考訳(メタデータ) (2025-02-09T22:14:45Z) - Optimal Rates for Robust Stochastic Convex Optimization [12.620782629498812]
我々は、$epsilon$-contaminationモデルの下で、最小最適過剰リスク(対数因子まで)を達成する新しいアルゴリズムを開発した。
我々のアルゴリズムは、個々のサンプル関数のリプシッツ連続性や滑らかさを含む厳密な仮定を必要としない。
我々は、ロバストSCOのための厳密な情報理論の下限でアルゴリズム開発を補完する。
論文 参考訳(メタデータ) (2024-12-15T00:52:08Z) - Best Arm Identification with Fixed Budget: A Large Deviation Perspective [54.305323903582845]
我々は、様々な武器の報酬間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
特に、様々な武器の報酬の間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
論文 参考訳(メタデータ) (2023-12-19T13:17:43Z) - Fully Stochastic Trust-Region Sequential Quadratic Programming for
Equality-Constrained Optimization Problems [62.83783246648714]
目的と決定論的等式制約による非線形最適化問題を解くために,逐次2次プログラミングアルゴリズム(TR-StoSQP)を提案する。
アルゴリズムは信頼領域半径を適応的に選択し、既存の直線探索StoSQP方式と比較して不確定なヘッセン行列を利用することができる。
論文 参考訳(メタデータ) (2022-11-29T05:52:17Z) - Beyond No Regret: Instance-Dependent PAC Reinforcement Learning [29.552894877883883]
低後悔を達成し、インスタンス最適率で$epsilon$-optimal Policyを特定できるというトレードオフが存在することを示す。
本稿では,このサンプル複雑性を実現する新しい計画ベースアルゴリズムの提案と解析を行う。
我々のアルゴリズムは最小限の最適値であり、いくつかの例では、インスタンス依存のサンプル複雑性は最悪のケース境界よりも大幅に改善されている。
論文 参考訳(メタデータ) (2021-08-05T16:34:17Z) - Adaptive Sampling for Best Policy Identification in Markov Decision
Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。
最先端アルゴリズムの利点を論じ、解説する。
論文 参考訳(メタデータ) (2020-09-28T15:22:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。