論文の概要: Cascading Bandits With Feedback
- arxiv url: http://arxiv.org/abs/2511.10938v1
- Date: Fri, 14 Nov 2025 03:55:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.422317
- Title: Cascading Bandits With Feedback
- Title(参考訳): フィードバックによるカスケードバンド
- Authors: R Sri Prakash, Nikhil Karamchandani, Sharayu Moharir,
- Abstract要約: 本研究では,各アームが関連する精度と誤差確率を持つ推論モデルに対応するカスケードバンドモデルの変種について検討する。
我々は,4つの意思決定方針(Explore-then-Commit, Action Elimination, Lower Confidence Bound (LCB),Thompson Sampling)を分析し,それぞれに鋭い理論的後悔の保証を与える。
- 参考スコア(独自算出の注目度): 4.305007244430146
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Motivated by the challenges of edge inference, we study a variant of the cascade bandit model in which each arm corresponds to an inference model with an associated accuracy and error probability. We analyse four decision-making policies-Explore-then-Commit, Action Elimination, Lower Confidence Bound (LCB), and Thompson Sampling-and provide sharp theoretical regret guarantees for each. Unlike in classical bandit settings, Explore-then-Commit and Action Elimination incur suboptimal regret because they commit to a fixed ordering after the exploration phase, limiting their ability to adapt. In contrast, LCB and Thompson Sampling continuously update their decisions based on observed feedback, achieving constant O(1) regret. Simulations corroborate these theoretical findings, highlighting the crucial role of adaptivity for efficient edge inference under uncertainty.
- Abstract(参考訳): エッジ推論の課題に触発され、各アームが関連する精度と誤差確率の推論モデルに対応するカスケードバンドモデルの変種について検討する。
我々は,4つの意思決定方針(Explore-then-Commit, Action Elimination, Lower Confidence Bound (LCB),Thompson Sampling)を分析し,それぞれに鋭い理論的後悔の保証を与える。
古典的なバンディット設定とは異なり、エクスプローラー・then-Commitとアクション・エミッション・エミッションは、探索段階の後に一定の順序にコミットし、適応する能力を制限するため、最適以下の後悔を引き起こす。
対照的に、LCBとThompson Samplingは、観察されたフィードバックに基づいて意思決定を継続的に更新し、絶え間ないO(1)後悔を達成する。
シミュレーションはこれらの理論的な知見を裏付け、不確実性の下での効率的なエッジ推論に対する適応性の重要な役割を浮き彫りにした。
関連論文リスト
- AdvChain: Adversarial Chain-of-Thought Tuning for Robust Safety Alignment of Large Reasoning Models [62.70575022567081]
本稿では,逆CoTチューニングによる動的自己補正をモデルに教えるアライメントパラダイムであるAdvChainを提案する。
私たちの仕事は、より堅牢で信頼性の高い推論モデルを構築するための新しい方向性を確立します。
論文 参考訳(メタデータ) (2025-09-29T04:27:23Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Piecewise-Stationary Combinatorial Semi-Bandit with Causally Related
Rewards [5.347237827669861]
本稿では,因果関係の報酬を用いた定常半帯域問題について検討する。
非定常環境では、ベースアームの分布の変化、報酬間の因果関係、またはその両方が報酬生成プロセスを変化させる。
この問題は半帯域設定で増加し、意思決定者は選択したアームの束の結果のみを観察する。
論文 参考訳(メタデータ) (2023-07-26T12:06:13Z) - Best of Both Worlds Model Selection [39.211071446838474]
ネストされた政策クラスが存在する場合のバンディットシナリオにおけるモデル選択の問題について検討する。
私たちのアプローチでは、各ベース学習者は、保持するかもしれないし持たないかもしれない後悔の候補を伴わなければならない。
これらは、(線形)バンディットのシナリオでモデル選択を行いながら、(確率的および敵対的)双方の保証を最大限に達成する最初の理論的結果である。
論文 参考訳(メタデータ) (2022-06-29T20:57:30Z) - On the Complexity of Adversarial Decision Making [101.14158787665252]
決定推定係数は, 相手の意思決定に対する後悔度を低く抑えるのに必要であり, 十分であることを示す。
我々は、決定推定係数を他のよく知られた複雑性尺度の変種に結びつける新しい構造結果を提供する。
論文 参考訳(メタデータ) (2022-06-27T06:20:37Z) - Continuous Mean-Covariance Bandits [39.820490484375156]
本稿では,選択肢相関を考慮した連続平均共分散帯域モデルを提案する。
CMCBでは、与えられた選択肢の重みベクトルを逐次選択し、決定に従ってランダムなフィードバックを観察する学習者がいる。
最適な後悔(対数的因子を含む)を伴う新しいアルゴリズムを提案し、それらの最適性を検証するために一致した下界を提供する。
論文 参考訳(メタデータ) (2021-02-24T06:37:05Z) - Off-policy Evaluation in Infinite-Horizon Reinforcement Learning with
Latent Confounders [62.54431888432302]
無限水平エルゴードマルコフ決定過程におけるOPE問題について考察する。
我々は、状態と行動の潜在変数モデルのみを考慮すれば、政策値が政治外のデータから特定できることを示す。
論文 参考訳(メタデータ) (2020-07-27T22:19:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。