Fugu-MT 論文翻訳(概要): New classes of the greedy-applicable arm feature distributions in the sparse linear bandit problem

論文の概要: New classes of the greedy-applicable arm feature distributions in the sparse linear bandit problem

arxiv url: http://arxiv.org/abs/2312.12400v1
Date: Tue, 19 Dec 2023 18:35:33 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-20 14:43:18.220538
Title: New classes of the greedy-applicable arm feature distributions in the sparse linear bandit problem
Title（参考訳）: スパース線形バンディット問題における greedy-applicable arm feature distributions の新しいクラス
Authors: Koji Ichikawa, Shinji Ito, Daisuke Hatano, Hanna Sumita, Takuro Fukunaga, Naonori Kakimura, Ken-ichi Kawarabayashi
Abstract要約: スパースパラメータの内積を通じて腕の特徴が報酬に影響を及ぼすスパースコンテキストバンドイット問題を考える。近年の研究では、グリーディアーム選択ポリシーに基づくスパーシリティ非依存アルゴリズムが開発されている。
参考スコア（独自算出の注目度）: 36.24229768711781
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We consider the sparse contextual bandit problem where arm feature affects reward through the inner product of sparse parameters. Recent studies have developed sparsity-agnostic algorithms based on the greedy arm selection policy. However, the analysis of these algorithms requires strong assumptions on the arm feature distribution to ensure that the greedily selected samples are sufficiently diverse; One of the most common assumptions, relaxed symmetry, imposes approximate origin-symmetry on the distribution, which cannot allow distributions that has origin-asymmetric support. In this paper, we show that the greedy algorithm is applicable to a wider range of the arm feature distributions from two aspects. Firstly, we show that a mixture distribution that has a greedy-applicable component is also greedy-applicable. Second, we propose new distribution classes, related to Gaussian mixture, discrete, and radial distribution, for which the sample diversity is guaranteed. The proposed classes can describe distributions with origin-asymmetric support and, in conjunction with the first claim, provide theoretical guarantees of the greedy policy for a very wide range of the arm feature distributions.
Abstract（参考訳）: スパースパラメータの内積を通じて腕の特徴が報酬に影響を与えるスパース文脈バンドイット問題を考える。近年の研究では、グリーディアーム選択ポリシーに基づくスパーシリティ非依存アルゴリズムが開発されている。しかし、これらのアルゴリズムの解析には、厳格に選択されたサンプルが十分に多様であることを保証するために、アーム特徴分布の強い仮定が必要であり、最も一般的な仮定の1つは、緩和された対称性であり、分布に近似原点対称性を課し、原点非対称な支持を持つ分布を許すことはできない。本稿では,グリーディアルゴリズムが2つの側面からより広い範囲の腕の特徴分布に適用可能であることを示す。まず,greedy-applicable成分を有する混合分布もgreedy-applicableであることを示す。次に,ガウス混合,離散分布,放射分布に関連する新しい分布クラスを提案し,サンプルの多様性が保証される。提案されたクラスは、原点非対称な支持を持つ分布を記述することができ、最初の主張と共に、非常に広い範囲のarm特徴分布に対する欲望ポリシーの理論的保証を提供する。

関連論文リスト

Nonparametric Kernel Clustering with Bandit Feedback [9.68728390492671]
バンディットフィードバックによるクラスタリングは、クラスタリングアルゴリズムがアイテムをシーケンシャルにクエリしてノイズの多い観察を受信する、一連のアイテムを分割する問題を指す。我々はカーネルベースのアプローチを導入し、非パラメトリック問題をヒルベルトカーネル空間(RKHS)への平均埋め込みをカーネルに従ってクラスタ化するタスクとして再構築する。本稿では,アーム分布の最大平均誤差(MMD)とRKHSのばらつきに依存する問題に対して,信号対雑音比の概念を導入する。
論文参考訳（メタデータ） (2026-01-12T13:36:07Z)
Theory on Score-Mismatched Diffusion Models and Zero-Shot Conditional Samplers [49.97755400231656]
本報告では,明示的な次元の一般スコアミスマッチ拡散サンプリング器を用いた最初の性能保証について述べる。その結果, スコアミスマッチは, 目標分布とサンプリング分布の分布バイアスとなり, 目標分布とトレーニング分布の累積ミスマッチに比例することがわかった。この結果は、測定ノイズに関係なく、任意の条件モデルに対するゼロショット条件付きサンプリングに直接適用することができる。
論文参考訳（メタデータ） (2024-10-17T16:42:12Z)
Learning Counterfactual Distributions via Kernel Nearest Neighbors [8.971989179518216]
カーネルをベースとした近傍の分布一般化を導入し,その基礎となる分布を推定する。 2つ以上の測定値にアクセスできれば, 近接するアプローチがヘテロセシダスティックノイズに対して堅牢であることを示す。
論文参考訳（メタデータ） (2024-10-17T09:36:01Z)
The Rate-Distortion-Perception Trade-off: The Role of Private Randomness [53.81648040452621]
圧縮速度がソースのエントロピーよりも低い場合、プライベートなランダム性は役に立たないことを示す。圧縮速度がソースのエントロピーよりも低い場合, プライベートなランダム性が有用でないことを示す。
論文参考訳（メタデータ） (2024-04-01T13:36:01Z)
Constrained Pure Exploration Multi-Armed Bandits with a Fixed Budget [4.226118870861363]
固定予算の下で、制約のある純粋な探索、多武装バンディットの定式化を検討する。本稿では,Successive Rejects フレームワークに基づく textscConstrained-SR というアルゴリズムを提案する。また, ある特別な場合において, 関連する崩壊速度は情報理論的下界に対してほぼ最適であることを示した。
論文参考訳（メタデータ） (2022-11-27T08:58:16Z)
Wrapped Distributions on homogeneous Riemannian manifolds [58.720142291102135]
パラメータ、対称性、モダリティなどの分布の性質の制御は、フレキシブルな分布の族を生み出す。変動型オートエンコーダと潜在空間ネットワークモデル内で提案した分布を利用して,我々のアプローチを実証的に検証する。
論文参考訳（メタデータ） (2022-04-20T21:25:21Z)
Robust Learning of Optimal Auctions [84.13356290199603]
本研究では、入札者の評価値のサンプルを逆向きに破損させたり、逆向きに歪んだ分布から引き出すことができる場合に、サンプルから収益-最適マルチバイダオークションを学習する問題について検討する。我々は,コルモゴロフ-スミルノフ距離における元の分布に対して$alpha$-closeの「全ての真の分布」に対して,収入がほぼ同時に最適であるメカニズムを学習できる新しいアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-07-13T17:37:21Z)
Von Mises-Fisher Elliptical Distribution [5.7559253770425425]
本稿では,von-mises-fisher(vmf)分布を用いて,歪楕円分布の明示的かつ単純な確率表現を求める。これは、非対称学習システムに対処できるだけでなく、歪んだ分布を一般化するための物理的に意味のある方法を提供するためにも示される。また,提案するvmf分布は,理論上および実例を通じて,生成が容易であり,推定が安定であることを示す。
論文参考訳（メタデータ） (2021-03-14T15:14:04Z)
Implicit Distributional Reinforcement Learning [61.166030238490634]
2つのディープジェネレータネットワーク(DGN)上に構築された暗黙の分布型アクター批判(IDAC) 半単純アクター (SIA) は、フレキシブルなポリシー分布を利用する。我々は,代表的OpenAI Gym環境において,IDACが最先端のアルゴリズムより優れていることを観察する。
論文参考訳（メタデータ） (2020-07-13T02:52:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。