論文の概要: Causally Abstracted Multi-armed Bandits
- arxiv url: http://arxiv.org/abs/2404.17493v2
- Date: Wed, 17 Jul 2024 07:10:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-18 22:07:40.915914
- Title: Causally Abstracted Multi-armed Bandits
- Title(参考訳): 因果的抽象化マルチアームバンド
- Authors: Fabio Massimo Zennaro, Nicholas Bishop, Joel Dyer, Yorgos Felekis, Anisoara Calinescu, Michael Wooldridge, Theodoros Damoulas,
- Abstract要約: マルチアームバンディット (MAB) と因果MAB (CMAB) は意思決定問題の枠組みとして確立されている。
転送学習を、潜在的に異なる変数で定義されたCMABを含む設定に拡張する。
本稿では,CAMABで学習するアルゴリズムを提案し,その後悔について検討する。
- 参考スコア(独自算出の注目度): 7.741729770041214
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-armed bandits (MAB) and causal MABs (CMAB) are established frameworks for decision-making problems. The majority of prior work typically studies and solves individual MAB and CMAB in isolation for a given problem and associated data. However, decision-makers are often faced with multiple related problems and multi-scale observations where joint formulations are needed in order to efficiently exploit the problem structures and data dependencies. Transfer learning for CMABs addresses the situation where models are defined on identical variables, although causal connections may differ. In this work, we extend transfer learning to setups involving CMABs defined on potentially different variables, with varying degrees of granularity, and related via an abstraction map. Formally, we introduce the problem of causally abstracted MABs (CAMABs) by relying on the theory of causal abstraction in order to express a rigorous abstraction map. We propose algorithms to learn in a CAMAB, and study their regret. We illustrate the limitations and the strengths of our algorithms on a real-world scenario related to online advertising.
- Abstract(参考訳): マルチアームバンディット (MAB) と因果MAB (CMAB) は意思決定問題の枠組みとして確立されている。
先行研究の大部分は、通常、与えられた問題と関連するデータに対して、個別のMABとCMABを分離して研究し、解決する。
しかし、意思決定者は、問題構造やデータ依存関係を効率的に活用するために、複数の関連する問題や共同定式化が必要なマルチスケールな観察に直面していることが多い。
CMABの転送学習は、因果関係が異なるとしても、モデルが同一変数上で定義される状況に対処する。
本研究は,変換学習を,多種多様な変数に対して定義したCMABを含む設定に拡張する。
本稿では,因果的抽象マップを表現するために因果的抽象理論に頼って因果的抽象MAB(CAMAB)の問題を導入する。
本稿では,CAMABで学習するアルゴリズムを提案し,その後悔について検討する。
オンライン広告に関連する現実のシナリオにおいて、アルゴリズムの限界と強みについて説明する。
関連論文リスト
- Decision Mamba: A Multi-Grained State Space Model with Self-Evolution Regularization for Offline RL [57.202733701029594]
決定マンバ(Decision Mamba)は、自己進化的な政策学習戦略を持つ、新しい多粒状態空間モデルである。
雑音性軌道上における過度に適合する問題を緩和するために,進行正則化を用いて自己進化政策を提案する。
この政策は、自身の過去の知識を用いて、準最適動作を洗練させ、ノイズの多い実演における堅牢性を高めることで進化する。
論文 参考訳(メタデータ) (2024-06-08T10:12:00Z) - Combinatorial Multivariant Multi-Armed Bandits with Applications to Episodic Reinforcement Learning and Beyond [58.39457881271146]
CMAB(Multi-armed bandits)の多変量および確率的トリガーアーム(CMAB-MT)を用いた新しい枠組みを導入する。
CMAB-MTは既存のCMABと比べ、モデリング能力を高めるだけでなく、多変量確率変数の異なる統計特性を活用することで結果を改善することができる。
本フレームワークは, エピソード強化学習(RL)や商品分布の確率的最大カバレッジなど, 応用として多くの重要な問題を含むことができる。
論文 参考訳(メタデータ) (2024-06-03T14:48:53Z) - Causal Optimal Transport of Abstractions [8.642152250082368]
因果抽象化(CA)理論は、複数の構造因果モデル(SCM)を異なるレベルの粒度で関連付けるための公式な基準を確立する。
基礎となるSCMの完全な知識を前提とせずに、観測データや介入データから抽象地図を学習する最初の方法であるCOTAを提案する。
合成および実世界の問題に対してCOTAを広範囲に評価し,非因果的・独立的・集合的COTA定式化に対するCOTAの優位性を示す。
論文 参考訳(メタデータ) (2023-12-13T12:54:34Z) - DCID: Deep Canonical Information Decomposition [84.59396326810085]
本稿では,2つの1次元目標変数間で共有される信号の同定について考察する。
そこで本研究では,地中トラスラベルの存在下で使用可能な評価指標であるICMを提案する。
また、共有変数を学習するための単純かつ効果的なアプローチとして、Deep Canonical Information Decomposition (DCID)を提案する。
論文 参考訳(メタデータ) (2023-06-27T16:59:06Z) - Jointly Learning Consistent Causal Abstractions Over Multiple
Interventional Distributions [8.767175335575386]
抽象化は、同じシステムを表す2つの構造因果モデルを異なる解像度で関連付けるために使用できる。
リシェルが最近提案した抽象化の形式化に基づく,SCM間の因果的抽象化学習のための第1のフレームワークを紹介する。
論文 参考訳(メタデータ) (2023-01-14T11:22:16Z) - Causal Inference Through the Structural Causal Marginal Problem [17.91174054672512]
本稿では,複数のデータセットからの情報をマージする手法を提案する。
応答関数の定式化による分類的SCMに対するこのアプローチの形式化と,それが許容される辺縁および関節SCMの空間を減少させることを示す。
論文 参考訳(メタデータ) (2022-02-02T21:45:10Z) - Partial Counterfactual Identification from Observational and
Experimental Data [83.798237968683]
観測データと実験データの任意の組み合わせから最適境界を近似する有効なモンテカルロアルゴリズムを開発した。
我々のアルゴリズムは、合成および実世界のデータセットに基づいて広範囲に検証されている。
論文 参考訳(メタデータ) (2021-10-12T02:21:30Z) - Stein Variational Model Predictive Control [130.60527864489168]
不確実性の下での意思決定は、現実の自律システムにとって極めて重要である。
モデル予測制御 (MPC) 法は, 複雑な分布を扱う場合, 適用範囲が限られている。
この枠組みが、挑戦的で非最適な制御問題における計画の成功に繋がることを示す。
論文 参考訳(メタデータ) (2020-11-15T22:36:59Z) - Multi-armed Bandits with Cost Subsidy [1.6631602844999724]
本稿では、インテリジェントSMSルーティング問題と広告オーディエンス最適化問題という2つのアプリケーションを提案する。
既存のMABアルゴリズムの素早い一般化は、この問題に対してうまく機能しないことを示す。
また,このアルゴリズムに対して,探索定理の簡単な変種を提示し,ほぼ最適な後悔境界を定めている。
論文 参考訳(メタデータ) (2020-11-03T05:38:42Z) - Invariant Causal Prediction for Block MDPs [106.63346115341862]
環境全体にわたる一般化は、実世界の課題への強化学習アルゴリズムの適用の成功に不可欠である。
本稿では,多環境環境における新しい観測を一般化するモデル不適合状態抽象化(MISA)を学習するための不変予測法を提案する。
論文 参考訳(メタデータ) (2020-03-12T21:03:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。