論文の概要: Dual Instrumental Method for Confounded Kernelized Bandits
- arxiv url: http://arxiv.org/abs/2209.03224v1
- Date: Wed, 7 Sep 2022 15:25:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-08 11:55:09.144222
- Title: Dual Instrumental Method for Confounded Kernelized Bandits
- Title(参考訳): 核化バンディットの2重インストゥルメンタル法
- Authors: Xueping Gong and Jiheng Zhang
- Abstract要約: 文脈的帯域幅問題は、様々な分野の幅広い応用のフレームワークである。
本稿では,騒音がコンテキストと報酬の両方に影響を与える潜在的共同設立者となる,包括的バンドイット問題を提案する。
双対楽器変数回帰は真の報酬関数を正しく識別できることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The contextual bandit problem is a theoretically justified framework with
wide applications in various fields. While the previous study on this problem
usually requires independence between noise and contexts, our work considers a
more sensible setting where the noise becomes a latent confounder that affects
both contexts and rewards. Such a confounded setting is more realistic and
could expand to a broader range of applications. However, the unresolved
confounder will cause a bias in reward function estimation and thus lead to a
large regret. To deal with the challenges brought by the confounder, we apply
the dual instrumental variable regression, which can correctly identify the
true reward function. We prove the convergence rate of this method is
near-optimal in two types of widely used reproducing kernel Hilbert spaces.
Therefore, we can design computationally efficient and regret-optimal
algorithms based on the theoretical guarantees for confounded bandit problems.
The numerical results illustrate the efficacy of our proposed algorithms in the
confounded bandit setting.
- Abstract(参考訳): コンテキストバンディット問題は、様々な分野で広く応用される理論的に正当化された枠組みである。
この問題に関する以前の研究は通常、ノイズとコンテキストの独立性を必要とするが、我々の研究は、ノイズがコンテキストと報酬の両方に影響を与える潜在的共同創設者になる、より合理的な設定を考える。
このような統合設定はより現実的であり、より広い範囲のアプリケーションにも拡張できるだろう。
しかし、未解決の共同設立者は報酬関数の推定に偏りを生じさせ、大きな後悔を招くことになる。
共同設立者によってもたらされる課題に対処するために、我々は、真の報酬関数を正確に識別できる2つのインストゥルメンタル変数回帰を適用する。
この手法の収束率は、2種類の広く用いられている再生カーネルヒルベルト空間においてほぼ最適であることを示す。
したがって,共立バンディット問題の理論的保証に基づいて,計算効率と後悔の最適アルゴリズムを設計できる。
その結果,本提案手法がバンディット設定において有効であることを示す。
関連論文リスト
- Neural Dueling Bandits [58.90189511247936]
ニューラルネットワークを用いて、予め選択した腕の好みフィードバックを用いて報酬関数を推定する。
次に、理論結果を二項フィードバックによる文脈的帯域幅問題に拡張し、それはそれ自体は自明な寄与ではない。
論文 参考訳(メタデータ) (2024-07-24T09:23:22Z) - $\alpha$-Fair Contextual Bandits [10.74025233418392]
コンテキストバンディットアルゴリズムは、レコメンデータシステム、臨床試験、最適なポートフォリオ選択など、多くのアプリケーションの中核にある。
文脈的バンディット文学で研究される最も一般的な問題の1つは、各ラウンドにおける報酬の合計を最大化することである。
本稿では,大域的な$alpha$-fairtextual Con Bandits問題を考える。
論文 参考訳(メタデータ) (2023-10-22T03:42:59Z) - Variance-Aware Regret Bounds for Stochastic Contextual Dueling Bandits [53.281230333364505]
本稿では, 一般化線形モデル(GLM)から, デュエルアームのバイナリ比較を生成するコンテキストデュエルバンド問題について検討する。
本稿では,SupLinUCB型アルゴリズムを提案する。このアルゴリズムは,計算効率と分散を意識したリセットバウンド$tilde Obig(dsqrtsum_t=1Tsigma_t2 + dbig)$を提案する。
我々の後悔は、比較が決定論的である場合の直感的な期待と自然に一致し、アルゴリズムは$tilde O(d)$ regretにのみ悩まされる。
論文 参考訳(メタデータ) (2023-10-02T08:15:52Z) - On Kernelized Multi-Armed Bandits with Constraints [16.102401271318012]
一般に未知の報酬関数と一般未知の制約関数を併用した帯域幅問題について検討する。
本稿では,アルゴリズムの性能解析のための一般的なフレームワークを提案する。
本稿では,数値実験により提案アルゴリズムの優れた性能を示す。
論文 参考訳(メタデータ) (2022-03-29T14:02:03Z) - Versatile Dueling Bandits: Best-of-both-World Analyses for Online
Learning from Preferences [28.79598714109439]
両環境および敵環境における$K$武器のデュエルバンディットの問題について検討する。
まず,マルチアームのバンディットに対して,任意の(一般的な)デュエル・バンドレットから新たなリダクションを提案する。
提案アルゴリズムは,コンドルチェット・ウィンナーベンチマークに対して最適な$O(sum_i = 1K fraclog TDelta_i)$ regret boundを達成した最初のアルゴリズムでもある。
論文 参考訳(メタデータ) (2022-02-14T13:37:23Z) - Deep Hierarchy in Bandits [51.22833900944146]
行動の報酬は、しばしば相関する。
統計的効率を最大化するためには,これらの相関を学習に活用することが重要である。
平均作用報酬の相関が階層的ベイズモデルで表されるこの問題のバンディット変法を定式化する。
論文 参考訳(メタデータ) (2022-02-03T08:15:53Z) - Optimal Gradient-based Algorithms for Non-concave Bandit Optimization [76.57464214864756]
この研究は、未知の報酬関数が非可逆であるようなバンドイット問題の大群を考察する。
我々のアルゴリズムは、非常に一般化されたゼロ階最適化のパラダイムに基づいている。
標準的な楽観的アルゴリズムは次元因子によって準最適であることを示す。
論文 参考訳(メタデータ) (2021-07-09T16:04:24Z) - Efficient First-Order Contextual Bandits: Prediction, Allocation, and
Triangular Discrimination [82.52105963476703]
統計的学習、オンライン学習、その他における繰り返しのテーマは、低騒音の問題に対してより速い収束率が可能であることである。
1次保証は統計的およびオンライン学習において比較的よく理解されている。
三角識別と呼ばれる対数損失と情報理論量が一階保証を得る上で基本的な役割を担っていることを示す。
論文 参考訳(メタデータ) (2021-07-05T19:20:34Z) - Corruption-Tolerant Gaussian Process Bandit Optimization [130.60115798580136]
未知(典型的には非生成)関数を有界ノルムで最適化する問題を考察する。
我々は「高速だが非ローバスト」と「スロー」に基づく高速スローGP-UCBに基づくアルゴリズムを提案する。
ある種の依存関係は、汚職レベルによっては要求できない、と我々は主張する。
論文 参考訳(メタデータ) (2020-03-04T09:46:58Z) - Bandit algorithms to emulate human decision making using probabilistic
distortions [20.422725678982726]
報奨分布に歪んだ確率を持つ2つの多重武装バンディット問題を定式化する。
以上のような後悔の最小化の問題と、マルチアームバンディットのための最高の腕識別フレームワークについて考察する。
論文 参考訳(メタデータ) (2016-11-30T17:37:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。