論文の概要: New classes of the greedy-applicable arm feature distributions in the
sparse linear bandit problem
- arxiv url: http://arxiv.org/abs/2312.12400v1
- Date: Tue, 19 Dec 2023 18:35:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-20 14:43:18.220538
- Title: New classes of the greedy-applicable arm feature distributions in the
sparse linear bandit problem
- Title(参考訳): スパース線形バンディット問題における greedy-applicable arm feature distributions の新しいクラス
- Authors: Koji Ichikawa, Shinji Ito, Daisuke Hatano, Hanna Sumita, Takuro
Fukunaga, Naonori Kakimura, Ken-ichi Kawarabayashi
- Abstract要約: スパースパラメータの内積を通じて腕の特徴が報酬に影響を及ぼすスパースコンテキストバンドイット問題を考える。
近年の研究では、グリーディアーム選択ポリシーに基づくスパーシリティ非依存アルゴリズムが開発されている。
- 参考スコア(独自算出の注目度): 36.24229768711781
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the sparse contextual bandit problem where arm feature affects
reward through the inner product of sparse parameters. Recent studies have
developed sparsity-agnostic algorithms based on the greedy arm selection
policy. However, the analysis of these algorithms requires strong assumptions
on the arm feature distribution to ensure that the greedily selected samples
are sufficiently diverse; One of the most common assumptions, relaxed symmetry,
imposes approximate origin-symmetry on the distribution, which cannot allow
distributions that has origin-asymmetric support. In this paper, we show that
the greedy algorithm is applicable to a wider range of the arm feature
distributions from two aspects. Firstly, we show that a mixture distribution
that has a greedy-applicable component is also greedy-applicable. Second, we
propose new distribution classes, related to Gaussian mixture, discrete, and
radial distribution, for which the sample diversity is guaranteed. The proposed
classes can describe distributions with origin-asymmetric support and, in
conjunction with the first claim, provide theoretical guarantees of the greedy
policy for a very wide range of the arm feature distributions.
- Abstract(参考訳): スパースパラメータの内積を通じて腕の特徴が報酬に影響を与えるスパース文脈バンドイット問題を考える。
近年の研究では、グリーディアーム選択ポリシーに基づくスパーシリティ非依存アルゴリズムが開発されている。
しかし、これらのアルゴリズムの解析には、厳格に選択されたサンプルが十分に多様であることを保証するために、アーム特徴分布の強い仮定が必要であり、最も一般的な仮定の1つは、緩和された対称性であり、分布に近似原点対称性を課し、原点非対称な支持を持つ分布を許すことはできない。
本稿では,グリーディアルゴリズムが2つの側面からより広い範囲の腕の特徴分布に適用可能であることを示す。
まず,greedy-applicable成分を有する混合分布もgreedy-applicableであることを示す。
次に,ガウス混合,離散分布,放射分布に関連する新しい分布クラスを提案し,サンプルの多様性が保証される。
提案されたクラスは、原点非対称な支持を持つ分布を記述することができ、最初の主張と共に、非常に広い範囲のarm特徴分布に対する欲望ポリシーの理論的保証を提供する。
関連論文リスト
- Non-asymptotic Convergence of Discrete-time Diffusion Models: New
Approach and Improved Rate [54.596887384531236]
我々は離散時間拡散モデルの下で、分布のかなり大きなクラスに対する収束保証を確立する。
パラメータ依存を明示した分布の興味深いクラスに対して,結果の専門化を行う。
本稿では,新しい加速サンプリング器を提案し,対応する正則サンプリング器の収束率を桁違いに向上することを示す。
論文 参考訳(メタデータ) (2024-02-21T16:11:47Z) - Constrained Pure Exploration Multi-Armed Bandits with a Fixed Budget [4.226118870861363]
固定予算の下で、制約のある純粋な探索、多武装バンディットの定式化を検討する。
本稿では,Successive Rejects フレームワークに基づく textscConstrained-SR というアルゴリズムを提案する。
また, ある特別な場合において, 関連する崩壊速度は情報理論的下界に対してほぼ最適であることを示した。
論文 参考訳(メタデータ) (2022-11-27T08:58:16Z) - On Best-Arm Identification with a Fixed Budget in Non-Parametric
Multi-Armed Bandits [0.0]
我々は、腕上の分布の一般、おそらくはパラメトリックでないモデルDを考える。
情報理論量に基づいて最適なアームを誤識別する平均対数確率の上限を提案する。
論文 参考訳(メタデータ) (2022-09-30T10:55:40Z) - Wrapped Distributions on homogeneous Riemannian manifolds [58.720142291102135]
パラメータ、対称性、モダリティなどの分布の性質の制御は、フレキシブルな分布の族を生み出す。
変動型オートエンコーダと潜在空間ネットワークモデル内で提案した分布を利用して,我々のアプローチを実証的に検証する。
論文 参考訳(メタデータ) (2022-04-20T21:25:21Z) - From Optimality to Robustness: Dirichlet Sampling Strategies in
Stochastic Bandits [0.0]
本研究では、腕の観察を再サンプリングした経験的指標のペア比較に基づいて、ジェネリックディリクレサンプリング(DS)アルゴリズムについて検討する。
この戦略の異なる変種は、分布が有界であるときに証明可能な最適後悔保証と、半有界分布に対して軽度量子状態の対数後悔を実現することを示す。
論文 参考訳(メタデータ) (2021-11-18T14:34:21Z) - Robust Learning of Optimal Auctions [84.13356290199603]
本研究では、入札者の評価値のサンプルを逆向きに破損させたり、逆向きに歪んだ分布から引き出すことができる場合に、サンプルから収益-最適マルチバイダオークションを学習する問題について検討する。
我々は,コルモゴロフ-スミルノフ距離における元の分布に対して$alpha$-closeの「全ての真の分布」に対して,収入がほぼ同時に最適であるメカニズムを学習できる新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-07-13T17:37:21Z) - Von Mises-Fisher Elliptical Distribution [5.7559253770425425]
本稿では,von-mises-fisher(vmf)分布を用いて,歪楕円分布の明示的かつ単純な確率表現を求める。
これは、非対称学習システムに対処できるだけでなく、歪んだ分布を一般化するための物理的に意味のある方法を提供するためにも示される。
また,提案するvmf分布は,理論上および実例を通じて,生成が容易であり,推定が安定であることを示す。
論文 参考訳(メタデータ) (2021-03-14T15:14:04Z) - Implicit Distributional Reinforcement Learning [61.166030238490634]
2つのディープジェネレータネットワーク(DGN)上に構築された暗黙の分布型アクター批判(IDAC)
半単純アクター (SIA) は、フレキシブルなポリシー分布を利用する。
我々は,代表的OpenAI Gym環境において,IDACが最先端のアルゴリズムより優れていることを観察する。
論文 参考訳(メタデータ) (2020-07-13T02:52:18Z) - Distributionally Robust Bayesian Quadrature Optimization [60.383252534861136]
確率分布が未知な分布の不確実性の下でBQOについて検討する。
標準的なBQOアプローチは、固定されたサンプル集合が与えられたときの真の期待目標のモンテカルロ推定を最大化する。
この目的のために,新しい後方サンプリングに基づくアルゴリズム,すなわち分布的に堅牢なBQO(DRBQO)を提案する。
論文 参考訳(メタデータ) (2020-01-19T12:00:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。