論文の概要: Using causal abstractions to accelerate decision-making in complex bandit problems
- arxiv url: http://arxiv.org/abs/2509.04296v1
- Date: Thu, 04 Sep 2025 15:11:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 20:21:10.198989
- Title: Using causal abstractions to accelerate decision-making in complex bandit problems
- Title(参考訳): 複雑な包帯問題における因果的抽象化を用いた意思決定の促進
- Authors: Joel Dyer, Nicholas Bishop, Anisoara Calinescu, Michael Wooldridge, Fabio Massimo Zennaro,
- Abstract要約: 本稿では,様々な抽象レベルで定義されたCMAB問題インスタンス間の共有情報を効率的に活用するアルゴリズムAT-UCBを提案する。
我々は,AT-UCBの利点を理論的に説明し,累積的後悔に対する新たな上限を通じて,様々な解像度と計算コストを持つ疫学シミュレータにAT-UCBを適用して実証的に説明する。
- 参考スコア(独自算出の注目度): 4.09922517136932
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although real-world decision-making problems can often be encoded as causal multi-armed bandits (CMABs) at different levels of abstraction, a general methodology exploiting the information and computational advantages of each abstraction level is missing. In this paper, we propose AT-UCB, an algorithm which efficiently exploits shared information between CMAB problem instances defined at different levels of abstraction. More specifically, AT-UCB leverages causal abstraction (CA) theory to explore within a cheap-to-simulate and coarse-grained CMAB instance, before employing the traditional upper confidence bound (UCB) algorithm on a restricted set of potentially optimal actions in the CMAB of interest, leading to significant reductions in cumulative regret when compared to the classical UCB algorithm. We illustrate the advantages of AT-UCB theoretically, through a novel upper bound on the cumulative regret, and empirically, by applying AT-UCB to epidemiological simulators with varying resolution and computational cost.
- Abstract(参考訳): 実世界の意思決定問題は、抽象レベルでの因果的マルチアーム・バンディット(CMAB)として符号化されることが多いが、抽象レベルでの情報と計算上の優位性を利用する一般的な手法は欠落している。
本稿では,様々な抽象化レベルで定義されたCMAB問題インスタンス間の共有情報を効率的に活用するアルゴリズムであるAT-UCBを提案する。
より具体的には、AT-UCBは因果的抽象化(CA)理論を利用して、従来の上位信頼境界(UCB)アルゴリズムをCMABにおける潜在的に最適な行動の制限セットに使用する前に、安価なシミュレーションと粗い粒度のCMABインスタンス内で探索し、古典的 UCBアルゴリズムと比較して累積的後悔を著しく減少させる。
我々は,AT-UCBの利点を理論的に説明し,累積的後悔に対する新たな上限を通じて,様々な解像度と計算コストを持つ疫学シミュレータにAT-UCBを適用して実証的に説明する。
関連論文リスト
- Hierarchical Upper Confidence Bounds for Constrained Online Learning [4.8951183832371]
階層的制約付き帯域幅(HCB)フレームワークを導入し、コンテキスト的帯域幅問題を拡張して階層的決定構造とマルチレベル制約を組み込む。
我々の理論的解析はHC-UCBのサブ線形後悔境界を確立し、すべての階層レベルでの制約満足度を高い確率で保証する。
論文 参考訳(メタデータ) (2024-10-22T17:41:14Z) - Causally Abstracted Multi-armed Bandits [7.741729770041214]
マルチアームバンディット (MAB) と因果MAB (CMAB) は意思決定問題の枠組みとして確立されている。
転送学習を、潜在的に異なる変数で定義されたCMABを含む設定に拡張する。
本稿では,CAMABで学習するアルゴリズムを提案し,その後悔について検討する。
論文 参考訳(メタデータ) (2024-04-26T15:48:09Z) - Provably Efficient UCB-type Algorithms For Learning Predictive State
Representations [55.00359893021461]
逐次決定問題は、予測状態表現(PSR)によってモデル化された低ランク構造が認められる場合、統計的に学習可能である
本稿では,推定モデルと実モデル間の全変動距離を上限とする新しいボーナス項を特徴とする,PSRに対する最初のUCB型アプローチを提案する。
PSRに対する既存のアプローチとは対照的に、UCB型アルゴリズムは計算的トラクタビリティ、最優先の準最適ポリシー、モデルの精度が保証される。
論文 参考訳(メタデータ) (2023-07-01T18:35:21Z) - On Leave-One-Out Conditional Mutual Information For Generalization [122.2734338600665]
残余条件付き相互情報(loo-CMI)の新しい尺度に基づく教師付き学習アルゴリズムのための情報理論の一般化境界を導出する。
他のCMI境界とは対照的に、我々のloo-CMI境界は容易に計算でき、古典的なout-out-out-cross-validationのような他の概念と関連して解釈できる。
ディープラーニングのシナリオにおいて予測された一般化ギャップを評価することにより,境界の質を実証的に検証する。
論文 参考訳(メタデータ) (2022-07-01T17:58:29Z) - Value-Function-based Sequential Minimization for Bi-level Optimization [52.39882976848064]
勾配に基づくBi-Level Optimization (BLO)法は、現代の学習課題に広く応用されている。
機能的制約のあるBLOや悲観的なBLOなど、難解なシナリオでBLOを解くことができる勾配ベースの方法はほとんどない。
上記の問題に対処するために,BVFSM(Bi-level Value-Function-based Sequential Minimization)を提案する。
論文 参考訳(メタデータ) (2021-10-11T03:13:39Z) - Learning with Multiclass AUC: Theory and Algorithms [141.63211412386283]
ROC曲線 (AUC) の下の領域は、不均衡学習やレコメンダシステムといった問題に対するよく知られたランキング基準である。
本稿では,マルチクラスAUCメトリクスを最適化することで,多クラススコアリング関数を学習する問題について検討する。
論文 参考訳(メタデータ) (2021-07-28T05:18:10Z) - A High Performance, Low Complexity Algorithm for Multi-Player Bandits
Without Collision Sensing Information [7.198362232890585]
本論文では,Selfish KL-UCBアルゴリズムに触発された計算複雑性が非常に低いアルゴリズムであるRandomized Selfish KL-UCBを提案する。
ほぼすべての環境で、時には数桁のオーダーで、最先端のアルゴリズムが必要とする追加の知識なしで、最先端のアルゴリズムをはるかに上回ることを示す。
論文 参考訳(メタデータ) (2021-02-19T23:10:48Z) - Risk-Constrained Thompson Sampling for CVaR Bandits [82.47796318548306]
CVaR(Conditional Value at Risk)として知られる量的ファイナンスにおける一般的なリスク尺度について考察する。
本稿では,トンプソンサンプリングに基づくCVaR-TSアルゴリズムの性能について検討する。
論文 参考訳(メタデータ) (2020-11-16T15:53:22Z) - Thompson Sampling Algorithms for Mean-Variance Bandits [97.43678751629189]
我々は平均分散MABのためのトンプソンサンプリング型アルゴリズムを開発した。
我々はまた、ガウシアンとベルヌーイの盗賊に対する包括的後悔の分析も提供する。
我々のアルゴリズムは、全てのリスク許容度に対して既存のLCBベースのアルゴリズムを著しく上回っている。
論文 参考訳(メタデータ) (2020-02-01T15:33:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。