論文の概要: New Classes of the Greedy-Applicable Arm Feature Distributions in the Sparse Linear Bandit Problem
- arxiv url: http://arxiv.org/abs/2312.12400v2
- Date: Fri, 29 Mar 2024 02:58:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-01 20:07:17.656829
- Title: New Classes of the Greedy-Applicable Arm Feature Distributions in the Sparse Linear Bandit Problem
- Title(参考訳): 疎線形帯域問題におけるGreedy-Applicable Arm特徴分布の新しいクラス
- Authors: Koji Ichikawa, Shinji Ito, Daisuke Hatano, Hanna Sumita, Takuro Fukunaga, Naonori Kakimura, Ken-ichi Kawarabayashi,
- Abstract要約: スパースパラメータの内積を通じて腕の特徴が報酬に影響を及ぼすスパースコンテキストバンドイット問題を考える。
近年の研究では、グリーディアーム選択ポリシーに基づくスパーシリティ非依存アルゴリズムが開発されている。
- 参考スコア(独自算出の注目度): 34.51168440208439
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the sparse contextual bandit problem where arm feature affects reward through the inner product of sparse parameters. Recent studies have developed sparsity-agnostic algorithms based on the greedy arm selection policy. However, the analysis of these algorithms requires strong assumptions on the arm feature distribution to ensure that the greedily selected samples are sufficiently diverse; One of the most common assumptions, relaxed symmetry, imposes approximate origin-symmetry on the distribution, which cannot allow distributions that has origin-asymmetric support. In this paper, we show that the greedy algorithm is applicable to a wider range of the arm feature distributions from two aspects. Firstly, we show that a mixture distribution that has a greedy-applicable component is also greedy-applicable. Second, we propose new distribution classes, related to Gaussian mixture, discrete, and radial distribution, for which the sample diversity is guaranteed. The proposed classes can describe distributions with origin-asymmetric support and, in conjunction with the first claim, provide theoretical guarantees of the greedy policy for a very wide range of the arm feature distributions.
- Abstract(参考訳): スパースパラメータの内積を通じて腕の特徴が報酬に影響を及ぼすスパースコンテキストバンドイット問題を考える。
近年の研究では、グリーディアーム選択ポリシーに基づくスパーシリティ非依存アルゴリズムが開発されている。
しかしながら、これらのアルゴリズムの分析は、厳密に選択されたサンプルが十分に多様であることを保証するために、腕の特徴分布に強い仮定を必要とする。
本稿では,グリーディアルゴリズムが2つの側面からより広い範囲の腕の特徴分布に適用可能であることを示す。
まず,greedy-applicable成分を有する混合分布もgreedy-applicableであることを示す。
次に,ガウス混合,離散分布,放射分布に関連する新しい分布クラスを提案し,サンプルの多様性が保証される。
提案したクラスは、原点非対称な支持を持つ分布を記述することができ、第1のクレームと共に、非常に広い範囲の腕の特徴分布に対して、グリージーポリシーの理論的保証を提供する。
関連論文リスト
- Theory on Score-Mismatched Diffusion Models and Zero-Shot Conditional Samplers [49.97755400231656]
本報告では,明示的な次元の一般スコアミスマッチ拡散サンプリング器を用いた最初の性能保証について述べる。
その結果, スコアミスマッチは, 目標分布とサンプリング分布の分布バイアスとなり, 目標分布とトレーニング分布の累積ミスマッチに比例することがわかった。
この結果は、測定ノイズに関係なく、任意の条件モデルに対するゼロショット条件付きサンプリングに直接適用することができる。
論文 参考訳(メタデータ) (2024-10-17T16:42:12Z) - Learning Counterfactual Distributions via Kernel Nearest Neighbors [8.971989179518216]
カーネルをベースとした近傍の分布一般化を導入し,その基礎となる分布を推定する。
2つ以上の測定値にアクセスできれば, 近接するアプローチがヘテロセシダスティックノイズに対して堅牢であることを示す。
論文 参考訳(メタデータ) (2024-10-17T09:36:01Z) - The Rate-Distortion-Perception Trade-off: The Role of Private Randomness [53.81648040452621]
圧縮速度がソースのエントロピーよりも低い場合、プライベートなランダム性は役に立たないことを示す。
圧縮速度がソースのエントロピーよりも低い場合, プライベートなランダム性が有用でないことを示す。
論文 参考訳(メタデータ) (2024-04-01T13:36:01Z) - Constrained Pure Exploration Multi-Armed Bandits with a Fixed Budget [4.226118870861363]
固定予算の下で、制約のある純粋な探索、多武装バンディットの定式化を検討する。
本稿では,Successive Rejects フレームワークに基づく textscConstrained-SR というアルゴリズムを提案する。
また, ある特別な場合において, 関連する崩壊速度は情報理論的下界に対してほぼ最適であることを示した。
論文 参考訳(メタデータ) (2022-11-27T08:58:16Z) - Wrapped Distributions on homogeneous Riemannian manifolds [58.720142291102135]
パラメータ、対称性、モダリティなどの分布の性質の制御は、フレキシブルな分布の族を生み出す。
変動型オートエンコーダと潜在空間ネットワークモデル内で提案した分布を利用して,我々のアプローチを実証的に検証する。
論文 参考訳(メタデータ) (2022-04-20T21:25:21Z) - Robust Learning of Optimal Auctions [84.13356290199603]
本研究では、入札者の評価値のサンプルを逆向きに破損させたり、逆向きに歪んだ分布から引き出すことができる場合に、サンプルから収益-最適マルチバイダオークションを学習する問題について検討する。
我々は,コルモゴロフ-スミルノフ距離における元の分布に対して$alpha$-closeの「全ての真の分布」に対して,収入がほぼ同時に最適であるメカニズムを学習できる新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-07-13T17:37:21Z) - Von Mises-Fisher Elliptical Distribution [5.7559253770425425]
本稿では,von-mises-fisher(vmf)分布を用いて,歪楕円分布の明示的かつ単純な確率表現を求める。
これは、非対称学習システムに対処できるだけでなく、歪んだ分布を一般化するための物理的に意味のある方法を提供するためにも示される。
また,提案するvmf分布は,理論上および実例を通じて,生成が容易であり,推定が安定であることを示す。
論文 参考訳(メタデータ) (2021-03-14T15:14:04Z) - Implicit Distributional Reinforcement Learning [61.166030238490634]
2つのディープジェネレータネットワーク(DGN)上に構築された暗黙の分布型アクター批判(IDAC)
半単純アクター (SIA) は、フレキシブルなポリシー分布を利用する。
我々は,代表的OpenAI Gym環境において,IDACが最先端のアルゴリズムより優れていることを観察する。
論文 参考訳(メタデータ) (2020-07-13T02:52:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。