論文の概要: Risk level dependent Minimax Quantile lower bounds for Interactive Statistical Decision Making
- arxiv url: http://arxiv.org/abs/2510.05808v1
- Date: Tue, 07 Oct 2025 11:25:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-27 22:13:09.394998
- Title: Risk level dependent Minimax Quantile lower bounds for Interactive Statistical Decision Making
- Title(参考訳): 対話型統計的決定のためのリスクレベル依存ミニマックス量子下限
- Authors: Raghav Bongole, Amirreza Zamani, Tobias J. Oechtering, Mikael Skoglund,
- Abstract要約: 最小限のリスクと後悔は期待に焦点を合わせ、安全クリティカルな盗賊や強化学習に不可欠な稀な失敗を欠いている。
ミニマックス量子境界は非インタラクティブな推定に制限される; リスクレベル固有の量子的境界よりも期待されるリスクに焦点を絞った統合的対話的分析; 一般的な対話的プロトコルのための量子的ツールキットをいまだに欠いている高確率帯域境界。
- 参考スコア(独自算出の注目度): 38.10483249859454
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Minimax risk and regret focus on expectation, missing rare failures critical in safety-critical bandits and reinforcement learning. Minimax quantiles capture these tails. Three strands of prior work motivate this study: minimax-quantile bounds restricted to non-interactive estimation; unified interactive analyses that focus on expected risk rather than risk level specific quantile bounds; and high-probability bandit bounds that still lack a quantile-specific toolkit for general interactive protocols. To close this gap, within the interactive statistical decision making framework, we develop high-probability Fano and Le Cam tools and derive risk level explicit minimax-quantile bounds, including a quantile-to-expectation conversion and a tight link between strict and lower minimax quantiles. Instantiating these results for the two-armed Gaussian bandit immediately recovers optimal-rate bounds.
- Abstract(参考訳): 最小限のリスクと後悔は期待に焦点を合わせ、安全クリティカルな盗賊や強化学習に不可欠な稀な失敗を欠いている。
ミニマックス量子はこれらの尾を捕獲する。
ミニマックス量子境界は非インタラクティブな推定に制限される; リスクレベル固有の量子的境界よりも期待されるリスクに焦点を絞った統合的対話的分析; 一般的な対話的プロトコルのための量子的ツールキットをいまだに欠いている高確率帯域境界。
このギャップを埋めるために、対話型統計決定フレームワークにおいて、我々は高確率のFanoおよびLe Camツールを開発し、厳密なミニマックス量子化と低いミニマックス量子化の間の密接なリンクを含む、リスクレベルの明示的なミニマックス量子化境界を導出する。
両腕のガウス帯域に対するこれらの結果の検証は、直ちに最適レート境界を回復する。
関連論文リスト
- Information-Theoretic Minimax Regret Bounds for Reinforcement Learning based on Duality [33.907054045921306]
エージェントの目的が堅牢なポリシーを見つけることにある未知の環境で行動するエージェントについて検討する。
我々は,異なる環境パラメータに対する最大後悔を最小化するエージェントについて検討し,ミニマックス後悔の研究につながった。
本研究はマルコフ決定過程におけるミニマックス後悔に対する情報理論的境界の導出に焦点を当てる。
論文 参考訳(メタデータ) (2024-10-21T13:45:02Z) - Assouad, Fano, and Le Cam with Interaction: A Unifying Lower Bound Framework and Characterization for Bandit Learnability [71.82666334363174]
我々は,統計的推定と対話的意思決定において,情報理論の下限を統一する枠組みを開発する。
Emphinteractive Fano methodinteractive と呼ばれる新しい下界アプローチを提案する。
論文 参考訳(メタデータ) (2024-10-07T15:14:58Z) - Best Arm Identification with Minimal Regret [55.831935724659175]
最高の腕識別問題 優雅にアマルガメートは、最小化とBAIを後悔している。
エージェントの目標は、所定の信頼度で最高の腕を特定することである。
二重KL-UCBアルゴリズムは、信頼度がゼロになる傾向があるため、最適性を達成する。
論文 参考訳(メタデータ) (2024-09-27T16:46:02Z) - High-probability minimax lower bounds [2.5993680263955947]
ミニマックス量子化の概念を導入し、その量子化レベルへの依存を明確にする。
我々は、古典的なル・カム法とファノ法の高確率変種を開発し、局所的なミニマックスリスクの下限をミニマックス量子化上の下限に変換する技術を開発した。
論文 参考訳(メタデータ) (2024-06-19T11:15:01Z) - Minimax Linear Regression under the Quantile Risk [31.277788690403522]
量子リスク下での線形回帰におけるミニマックス法の設計問題について検討する。
我々は,最近提案されたmin-max回帰法の変種における最悪のケース量子化リスクに一致する上限を証明した。
論文 参考訳(メタデータ) (2024-06-17T23:24:14Z) - A Unifying Theory of Thompson Sampling for Continuous Risk-Averse
Bandits [91.3755431537592]
本稿では,多腕バンディット問題に対するリスク-逆トンプソンサンプリングアルゴリズムの解析を統一する。
大規模偏差理論における収縮原理を用いることで、連続リスク汎関数に対する新しい濃度境界が証明される。
リスク関数の幅広いクラスと「ニセ」関数が連続性条件を満たすことを示す。
論文 参考訳(メタデータ) (2021-08-25T17:09:01Z) - Minimax Off-Policy Evaluation for Multi-Armed Bandits [58.7013651350436]
有界報酬を用いたマルチアームバンディットモデルにおけるオフポリシー評価の問題点について検討する。
3つの設定でミニマックスレート・オプティマティックな手順を開発。
論文 参考訳(メタデータ) (2021-01-19T18:55:29Z) - On Lower Bounds for Standard and Robust Gaussian Process Bandit
Optimization [55.937424268654645]
有界ノルムを持つ関数のブラックボックス最適化問題に対するアルゴリズム非依存な下界を考える。
本稿では, 単純さ, 汎用性, エラー確率への依存性の向上など, 後悔の下位境界を導出するための新しい証明手法を提案する。
論文 参考訳(メタデータ) (2020-08-20T03:48:14Z) - Constrained regret minimization for multi-criterion multi-armed bandits [5.349852254138086]
リスク制約を条件として,所与の時間的地平線上での後悔の最小化の問題について検討する。
本稿では,対数的後悔を保証するリスク制約付き低信頼境界アルゴリズムを提案する。
我々は,リスク制約付き後悔最小化アルゴリズムの性能に低い限界を証明した。
論文 参考訳(メタデータ) (2020-06-17T04:23:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。