Fugu-MT 論文翻訳(概要): Dual Instrumental Method for Confounded Kernelized Bandits

論文の概要: Dual Instrumental Method for Confounded Kernelized Bandits

arxiv url: http://arxiv.org/abs/2209.03224v1
Date: Wed, 7 Sep 2022 15:25:57 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-08 11:55:09.144222
Title: Dual Instrumental Method for Confounded Kernelized Bandits
Title（参考訳）: 核化バンディットの2重インストゥルメンタル法
Authors: Xueping Gong and Jiheng Zhang
Abstract要約: 文脈的帯域幅問題は、様々な分野の幅広い応用のフレームワークである。本稿では,騒音がコンテキストと報酬の両方に影響を与える潜在的共同設立者となる,包括的バンドイット問題を提案する。双対楽器変数回帰は真の報酬関数を正しく識別できることを示す。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The contextual bandit problem is a theoretically justified framework with wide applications in various fields. While the previous study on this problem usually requires independence between noise and contexts, our work considers a more sensible setting where the noise becomes a latent confounder that affects both contexts and rewards. Such a confounded setting is more realistic and could expand to a broader range of applications. However, the unresolved confounder will cause a bias in reward function estimation and thus lead to a large regret. To deal with the challenges brought by the confounder, we apply the dual instrumental variable regression, which can correctly identify the true reward function. We prove the convergence rate of this method is near-optimal in two types of widely used reproducing kernel Hilbert spaces. Therefore, we can design computationally efficient and regret-optimal algorithms based on the theoretical guarantees for confounded bandit problems. The numerical results illustrate the efficacy of our proposed algorithms in the confounded bandit setting.
Abstract（参考訳）: コンテキストバンディット問題は、様々な分野で広く応用される理論的に正当化された枠組みである。この問題に関する以前の研究は通常、ノイズとコンテキストの独立性を必要とするが、我々の研究は、ノイズがコンテキストと報酬の両方に影響を与える潜在的共同創設者になる、より合理的な設定を考える。このような統合設定はより現実的であり、より広い範囲のアプリケーションにも拡張できるだろう。しかし、未解決の共同設立者は報酬関数の推定に偏りを生じさせ、大きな後悔を招くことになる。共同設立者によってもたらされる課題に対処するために、我々は、真の報酬関数を正確に識別できる2つのインストゥルメンタル変数回帰を適用する。この手法の収束率は、2種類の広く用いられている再生カーネルヒルベルト空間においてほぼ最適であることを示す。したがって,共立バンディット問題の理論的保証に基づいて,計算効率と後悔の最適アルゴリズムを設計できる。その結果,本提案手法がバンディット設定において有効であることを示す。

関連論文リスト

Single Index Bandits: Generalized Linear Contextual Bandits with Unknown Reward Functions [8.48717433940334]
我々は、報酬関数が未知な一般化線形バンドイット(英語版)の新たな問題、いわゆるシングルインデックスバンドイット(英語版)を導入する。まず,未知の報酬関数が単調に増加している場合について考察し,新しいアルゴリズムであるSTORとESTORを提案する。次に,提案手法を高次元スパース設定に拡張し,空間指数で同じ後悔率が得られることを示す。
論文参考訳（メタデータ） (2025-06-15T07:19:00Z)
Asymptotically Optimal Linear Best Feasible Arm Identification with Fixed Budget [55.938644481736446]
本稿では,誤差確率の指数的減衰を保証し,最適な腕識別のための新しいアルゴリズムを提案する。我々は,複雑性のレベルが異なる様々な問題インスタンスに対する包括的経験的評価を通じて,アルゴリズムの有効性を検証する。
論文参考訳（メタデータ） (2025-06-03T02:56:26Z)
Neural Dueling Bandits [58.90189511247936]
ニューラルネットワークを用いて、予め選択した腕の好みフィードバックを用いて報酬関数を推定する。次に、理論結果を二項フィードバックによる文脈的帯域幅問題に拡張し、それはそれ自体は自明な寄与ではない。
論文参考訳（メタデータ） (2024-07-24T09:23:22Z)
$\alpha$-Fair Contextual Bandits [10.74025233418392]
コンテキストバンディットアルゴリズムは、レコメンデータシステム、臨床試験、最適なポートフォリオ選択など、多くのアプリケーションの中核にある。文脈的バンディット文学で研究される最も一般的な問題の1つは、各ラウンドにおける報酬の合計を最大化することである。本稿では,大域的な$alpha$-fairtextual Con Bandits問題を考える。
論文参考訳（メタデータ） (2023-10-22T03:42:59Z)
Variance-Aware Regret Bounds for Stochastic Contextual Dueling Bandits [53.281230333364505]
本稿では, 一般化線形モデル(GLM)から, デュエルアームのバイナリ比較を生成するコンテキストデュエルバンド問題について検討する。本稿では,SupLinUCB型アルゴリズムを提案する。このアルゴリズムは,計算効率と分散を意識したリセットバウンド$tilde Obig(dsqrtsum_t=1Tsigma_t2 + dbig)$を提案する。我々の後悔は、比較が決定論的である場合の直感的な期待と自然に一致し、アルゴリズムは$tilde O(d)$ regretにのみ悩まされる。
論文参考訳（メタデータ） (2023-10-02T08:15:52Z)
On Kernelized Multi-Armed Bandits with Constraints [16.102401271318012]
一般に未知の報酬関数と一般未知の制約関数を併用した帯域幅問題について検討する。本稿では,アルゴリズムの性能解析のための一般的なフレームワークを提案する。本稿では,数値実験により提案アルゴリズムの優れた性能を示す。
論文参考訳（メタデータ） (2022-03-29T14:02:03Z)
Versatile Dueling Bandits: Best-of-both-World Analyses for Online Learning from Preferences [28.79598714109439]
両環境および敵環境における$K$武器のデュエルバンディットの問題について検討する。まず,マルチアームのバンディットに対して,任意の(一般的な)デュエル・バンドレットから新たなリダクションを提案する。提案アルゴリズムは,コンドルチェット・ウィンナーベンチマークに対して最適な$O(sum_i = 1K fraclog TDelta_i)$ regret boundを達成した最初のアルゴリズムでもある。
論文参考訳（メタデータ） (2022-02-14T13:37:23Z)
Deep Hierarchy in Bandits [51.22833900944146]
行動の報酬は、しばしば相関する。統計的効率を最大化するためには,これらの相関を学習に活用することが重要である。平均作用報酬の相関が階層的ベイズモデルで表されるこの問題のバンディット変法を定式化する。
論文参考訳（メタデータ） (2022-02-03T08:15:53Z)
Risk-Aware Algorithms for Combinatorial Semi-Bandits [7.716156977428555]
半帯域フィードバック下でのマルチアームバンディット問題について検討する。本稿では,最悪の場合の報酬のみを考慮したリスク尺度であるCVaR(Conditional Value-at-Risk)の最大化の問題を検討する。本稿では,バンディットのスーパーアームから得られる報酬のCVaRを最大化するアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-12-02T11:29:43Z)
Optimal Gradient-based Algorithms for Non-concave Bandit Optimization [76.57464214864756]
この研究は、未知の報酬関数が非可逆であるようなバンドイット問題の大群を考察する。我々のアルゴリズムは、非常に一般化されたゼロ階最適化のパラダイムに基づいている。標準的な楽観的アルゴリズムは次元因子によって準最適であることを示す。
論文参考訳（メタデータ） (2021-07-09T16:04:24Z)
Efficient First-Order Contextual Bandits: Prediction, Allocation, and Triangular Discrimination [82.52105963476703]
統計的学習、オンライン学習、その他における繰り返しのテーマは、低騒音の問題に対してより速い収束率が可能であることである。 1次保証は統計的およびオンライン学習において比較的よく理解されている。三角識別と呼ばれる対数損失と情報理論量が一階保証を得る上で基本的な役割を担っていることを示す。
論文参考訳（メタデータ） (2021-07-05T19:20:34Z)
Corruption-Tolerant Gaussian Process Bandit Optimization [130.60115798580136]
未知(典型的には非生成)関数を有界ノルムで最適化する問題を考察する。我々は「高速だが非ローバスト」と「スロー」に基づく高速スローGP-UCBに基づくアルゴリズムを提案する。ある種の依存関係は、汚職レベルによっては要求できない、と我々は主張する。
論文参考訳（メタデータ） (2020-03-04T09:46:58Z)
Bandit algorithms to emulate human decision making using probabilistic distortions [20.422725678982726]
報奨分布に歪んだ確率を持つ2つの多重武装バンディット問題を定式化する。以上のような後悔の最小化の問題と、マルチアームバンディットのための最高の腕識別フレームワークについて考察する。
論文参考訳（メタデータ） (2016-11-30T17:37:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。