論文の概要: Causal Contextual Bandits with Adaptive Context
- arxiv url: http://arxiv.org/abs/2405.18626v2
- Date: Sun, 2 Jun 2024 13:54:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-04 13:50:03.182221
- Title: Causal Contextual Bandits with Adaptive Context
- Title(参考訳): 適応的文脈をもつ因果文脈帯域
- Authors: Rahul Madhavan, Aurghya Maiti, Gaurav Sinha, Siddharth Barman,
- Abstract要約: 本研究では,学習者が選択した初期介入に基づいて,文脈が選択される因果的文脈包帯の変種について検討する。
私たちは、私たちの単純な後悔が、多くのインスタンスに対して本質的にきついことを証明しています。
- 参考スコア(独自算出の注目度): 12.205797997133397
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We study a variant of causal contextual bandits where the context is chosen based on an initial intervention chosen by the learner. At the beginning of each round, the learner selects an initial action, depending on which a stochastic context is revealed by the environment. Following this, the learner then selects a final action and receives a reward. Given $T$ rounds of interactions with the environment, the objective of the learner is to learn a policy (of selecting the initial and the final action) with maximum expected reward. In this paper we study the specific situation where every action corresponds to intervening on a node in some known causal graph. We extend prior work from the deterministic context setting to obtain simple regret minimization guarantees. This is achieved through an instance-dependent causal parameter, $\lambda$, which characterizes our upper bound. Furthermore, we prove that our simple regret is essentially tight for a large class of instances. A key feature of our work is that we use convex optimization to address the bandit exploration problem. We also conduct experiments to validate our theoretical results, and release our code at our project GitHub repository: https://github.com/adaptiveContextualCausalBandits/aCCB.
- Abstract(参考訳): 本研究では,学習者が選択した初期介入に基づいて,文脈が選択される因果的文脈包帯の変種について検討する。
各ラウンドの開始時に、学習者は、環境によって確率的文脈が明らかになるかに応じて、初期動作を選択する。
その後、学習者は最終動作を選択し、報酬を受け取る。
環境との相互作用にT$が与えられた場合、学習者の目的は、(最初のアクションと最後のアクションを選択する)ポリシーを最大限の報酬で学習することである。
本稿では、ある既知の因果グラフにおいて、全ての動作がノード上での介入に対応する特定の状況について検討する。
決定論的文脈設定から事前作業を拡張し、簡単な後悔の最小化保証を得る。
これは、インスタンス依存の因果パラメータ$\lambda$によって実現されます。
さらに、私たちの単純な後悔は、多くのインスタンスに対して本質的にきついことを証明します。
我々の研究の重要な特徴は、バンディット探索問題に対処するために凸最適化を使うことである。
また、理論的結果を検証し、プロジェクトのGitHubリポジトリでコードをリリースするための実験も行っています。
関連論文リスト
- Neural Dueling Bandits [58.90189511247936]
ニューラルネットワークを用いて、予め選択した腕の好みフィードバックを用いて報酬関数を推定する。
次に、理論結果を二項フィードバックによる文脈的帯域幅問題に拡張し、それはそれ自体は自明な寄与ではない。
論文 参考訳(メタデータ) (2024-07-24T09:23:22Z) - Contextual Bandits and Imitation Learning via Preference-Based Active
Queries [17.73844193143454]
本研究では,学習者が実行された行動報酬の直接的な知識を欠いている文脈的包帯と模倣学習の問題を考察する。
その代わり、学習者は各ラウンドのエキスパートに積極的に問い合わせて2つのアクションを比較し、ノイズの多い好みのフィードバックを受け取ることができる。
学習者の目的は、実行されたアクションに関連する後悔を最小限に抑えると同時に、専門家が行った比較クエリの数を最小化することである。
論文 参考訳(メタデータ) (2023-07-24T16:36:04Z) - Reward Learning as Doubly Nonparametric Bandits: Optimal Design and
Scaling Laws [22.099915149343957]
本稿では、報酬学習と関連する最適実験設計問題を研究するための理論的枠組みを提案する。
まず、リッジ回帰に基づく単純なプラグイン推定器の非漸近的過剰リスク境界を導出する。
次に、クエリセットの選択に関してこれらのリスク境界を最適化し、有限サンプル統計率を得ることにより、クエリ設計問題を解決する。
論文 参考訳(メタデータ) (2023-02-23T22:07:33Z) - Contextual Bandits in a Survey Experiment on Charitable Giving:
Within-Experiment Outcomes versus Policy Learning [21.9468085255912]
我々は,対象とする治療課題ポリシーを学習するための適応的な実験(文脈的帯域幅')を設計し,実装する。
目的は、参加者のアンケート回答を使用して、寄付募集においてどの慈善団体に公開するかを決定することである。
パイロットデータを収集し, シミュレーション実験を行うことにより, 代替実験設計の評価を行った。
論文 参考訳(メタデータ) (2022-11-22T04:44:17Z) - Online Selective Classification with Limited Feedback [82.68009460301585]
オンライン学習モデルにおいて、予測者がインスタンスの分類を控える可能性のある選択的分類について検討する。
私たちが考慮している設定の健全な2つの側面は、データが不可避である可能性があるため、データは不可避である可能性があるということです。
smash$tildeO(T1-mu)$ over abstention against Adaptive adversaries. smash$tildeO(T1-mu)$ incurring smash$tildeO(T1-mu)$ over abstention。
論文 参考訳(メタデータ) (2021-10-27T08:00:53Z) - Bayesian decision-making under misspecified priors with applications to
meta-learning [64.38020203019013]
トンプソンサンプリングやその他のシーケンシャルな意思決定アルゴリズムは、文脈的包帯における探索と探索のトレードオフに取り組むための一般的なアプローチである。
性能は不特定な事前条件で優雅に低下することを示す。
論文 参考訳(メタデータ) (2021-07-03T23:17:26Z) - MetaKernel: Learning Variational Random Features with Limited Labels [120.90737681252594]
少数の注釈付きサンプルから学習し、新しいタスクでうまく一般化できるという根本的かつ困難な問題に、少数のショットラーニングが対処します。
マルチショット学習のためのランダムなフーリエ機能を備えたメタラーニングカーネルをMeta Kernelと呼びます。
論文 参考訳(メタデータ) (2021-05-08T21:24:09Z) - Continuous Mean-Covariance Bandits [39.820490484375156]
本稿では,選択肢相関を考慮した連続平均共分散帯域モデルを提案する。
CMCBでは、与えられた選択肢の重みベクトルを逐次選択し、決定に従ってランダムなフィードバックを観察する学習者がいる。
最適な後悔(対数的因子を含む)を伴う新しいアルゴリズムを提案し、それらの最適性を検証するために一致した下界を提供する。
論文 参考訳(メタデータ) (2021-02-24T06:37:05Z) - Context Prior for Scene Segmentation [118.46210049742993]
我々はアフィニティ・ロスを監督する文脈優先を開発する。
学習されたコンテキスト優先は、同じカテゴリに属するピクセルを抽出し、逆のコンテキスト優先は異なるクラスのピクセルに焦点を当てる。
本アルゴリズムはADE20Kで46.3% mIoU,PASCAL-Contextで53.9% mIoU,Cityscapesで81.3% mIoUを達成した。
論文 参考訳(メタデータ) (2020-04-03T13:16:32Z) - Predictive Bandits [68.8204255655161]
我々は,予測的盗賊と呼ばれる,新たな盗賊問題を紹介し,研究する。
各ラウンドで、意思決定者はまず、特定の武器の報酬に関する情報を集めるかどうかを決定する。
意思決定者は、ラウンドで実際にプレイされる腕を選択する。
論文 参考訳(メタデータ) (2020-04-02T17:12:33Z) - Regret Minimization in Stochastic Contextual Dueling Bandits [40.17224226373741]
我々は、コンテキスト設定において、$K$武装デュエルバンディットの問題を考察する。
提案手法は, それぞれ, 後悔の保証を施した2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-02-20T06:36:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。