論文の概要: Pure exploration in multi-armed bandits with low rank structure using
oblivious sampler
- arxiv url: http://arxiv.org/abs/2306.15856v1
- Date: Wed, 28 Jun 2023 01:14:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-29 16:14:11.823904
- Title: Pure exploration in multi-armed bandits with low rank structure using
oblivious sampler
- Title(参考訳): 斜め試料を用いた低位構造を有する多腕帯の純探査
- Authors: Yaxiong Liu, Atsuyoshi Nakamura, Kohei Hatano, Eiji Takimoto
- Abstract要約: 純粋探索問題の報酬系列の下位構造を考察する。
報酬ベクトルのカーネル情報を含むことにより、時間変化と固定の両方のケースに対して効率的なアルゴリズムを提供する。
- 参考スコア(独自算出の注目度): 1.988145627448243
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we consider the low rank structure of the reward sequence of
the pure exploration problems. Firstly, we propose the separated setting in
pure exploration problem, where the exploration strategy cannot receive the
feedback of its explorations. Due to this separation, it requires that the
exploration strategy to sample the arms obliviously. By involving the kernel
information of the reward vectors, we provide efficient algorithms for both
time-varying and fixed cases with regret bound $O(d\sqrt{(\ln N)/n})$. Then, we
show the lower bound to the pure exploration in multi-armed bandits with low
rank sequence. There is an $O(\sqrt{\ln N})$ gap between our upper bound and
the lower bound.
- Abstract(参考訳): 本稿では,純探索問題の報酬系列の低階構造について考察する。
まず, 探索戦略が探査のフィードバックを得られない純粋な探査問題において, 分離した設定を提案する。
この分離のため、腕を標本化するための探索戦略が必要である。
報奨ベクトルの核情報を取り込むことにより、result bound $o(d\sqrt{(\ln n)/n})$を持つ時間変動と固定ケースの両方に対して効率的なアルゴリズムを提供する。
次に,低位列の多腕バンディットにおける純粋探索に対する下限を示す。
我々の上界と下界の間には$o(\sqrt{\ln n})$ギャップがある。
関連論文リスト
- Deterministic Exploration via Stationary Bellman Error Maximization [6.474106100512158]
探索は強化学習(RL)の重要かつ特異な側面である
本稿では,後者を安定させ,決定論的探索政策に到達するための3つの修正点を紹介する。
実験結果から,本手法は高密度かつスパースな報酬設定において,$varepsilon$-greedyよりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-10-31T11:46:48Z) - Diminishing Exploration: A Minimalist Approach to Piecewise Stationary Multi-Armed Bandits [17.02018075805672]
片側定常バンドイット問題は、報酬分布の急激な変化を考察する。
既存のアルゴリズムは、変化点の数に関する知識を$M$とするか、非常に高い計算複雑性を必要とする。
そこで本研究では,MM$に関する知識の必要をなくす,減少探索と呼ばれる新奇で汎用的な探索機構を提案する。
論文 参考訳(メタデータ) (2024-10-08T06:51:32Z) - Reward Augmentation in Reinforcement Learning for Testing Distributed Systems [6.0560257343687995]
人気のある分散プロトコル実装のバグは、人気のあるインターネットサービスにおける多くのダウンタイムの源となっている。
本稿では,強化学習に基づく分散プロトコル実装のためのランダム化テスト手法について述べる。
お互いに構築する2つの異なるテクニックを示します。
論文 参考訳(メタデータ) (2024-09-02T15:07:05Z) - An Optimal Algorithm for the Real-Valued Combinatorial Pure Exploration
of Multi-Armed Bandit [65.268245109828]
多武装バンディット(R-CPE-MAB)の真価純探査問題について検討する。
既存のR-CPE-MABの手法は、いわゆるトランスダクティブ線形帯域の特殊な場合と見なすことができる。
本稿では,差分探索アルゴリズム (CombGapE) を提案する。
論文 参考訳(メタデータ) (2023-06-15T15:37:31Z) - Neural Exploitation and Exploration of Contextual Bandits [51.25537742455235]
本研究では,ニューラルネットワークを用いたコンテキスト型マルチアームバンディットの活用と探索について検討する。
EE-Netは、ニューラルベースによる新たなエクスプロイトと探索戦略である。
EE-Netは、実世界のデータセット上での線形およびニューラルネットワークの帯域ベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-05T18:34:49Z) - Communication-Constrained Bandits under Additive Gaussian Noise [111.06688156723018]
クライアントが学習者にコミュニケーション制約のあるフィードバックを提供する分散マルチアームバンディットについて検討する。
我々は、この下限を小さな加法係数にマッチさせるマルチフェーズ帯域幅アルゴリズム、$mathtUEtext-UCB++$を提案する。
論文 参考訳(メタデータ) (2023-04-25T09:31:20Z) - Bandit Social Learning: Exploration under Myopic Behavior [58.75758600464338]
オンラインプラットフォーム上でのレビューによって動機付けられた社会学習のダイナミクスについて検討する。
エージェントはまとめて単純なマルチアームのバンディットプロトコルに従うが、各エージェントは探索を伴わずにミオプティカルに振る舞う。
このような振る舞いに対して,スターク学習の失敗を導出し,好意的な結果を提供する。
論文 参考訳(メタデータ) (2023-02-15T01:57:57Z) - CORe: Capitalizing On Rewards in Bandit Exploration [15.694813164770862]
過去の観測をランダム化して純粋に探索するバンディットアルゴリズムを提案する。
平均報酬推定における十分な楽観性は、過去の観測された報酬の分散を利用して達成される。
アルゴリズムCapitalizing On Rewards(CORe)と名付けます。
論文 参考訳(メタデータ) (2021-03-07T16:09:37Z) - Neural Contextual Bandits with Deep Representation and Shallow
Exploration [105.8099566651448]
本稿では,深部ReLUニューラルネットワークの最後の隠蔽層を用いて,原特徴ベクトルを変換する新しい学習アルゴリズムを提案する。
既存のニューラルネットワークと比較して、ディープニューラルネットワークの最後の層でのみ探索する必要があるため、我々のアプローチは計算的にはるかに効率的です。
論文 参考訳(メタデータ) (2020-12-03T09:17:55Z) - Hyper-parameter Tuning for the Contextual Bandit [22.721128745617076]
本稿では,線形報酬関数の設定によるコンテキスト的帯域問題における探索的エクスプロイトトレードオフの学習問題について検討する。
提案アルゴリズムは,観測された文脈に基づいて,適切な探索パラメータをオンラインで選択することを学ぶ。
ここでは,文脈的帯域幅アルゴリズムの最適探索を求めるために,帯域幅を用いた2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-04T17:20:19Z) - The Price of Incentivizing Exploration: A Characterization via Thompson
Sampling and Sample Complexity [83.81297078039836]
インセンティブ付き探索(Incentivized Exploring)は、武器の選択を自給自足エージェントによって制御するマルチアーム・バンディットのバージョンである。
我々は、インセンティブの価格に焦点を合わせ、インセンティブの適合性のために、広く解釈された、パフォーマンスの喪失が引き起こされる。
論文 参考訳(メタデータ) (2020-02-03T04:58:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。