論文の概要: Pure exploration in multi-armed bandits with low rank structure using
oblivious sampler
- arxiv url: http://arxiv.org/abs/2306.15856v1
- Date: Wed, 28 Jun 2023 01:14:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-29 16:14:11.823904
- Title: Pure exploration in multi-armed bandits with low rank structure using
oblivious sampler
- Title(参考訳): 斜め試料を用いた低位構造を有する多腕帯の純探査
- Authors: Yaxiong Liu, Atsuyoshi Nakamura, Kohei Hatano, Eiji Takimoto
- Abstract要約: 純粋探索問題の報酬系列の下位構造を考察する。
報酬ベクトルのカーネル情報を含むことにより、時間変化と固定の両方のケースに対して効率的なアルゴリズムを提供する。
- 参考スコア(独自算出の注目度): 1.988145627448243
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we consider the low rank structure of the reward sequence of
the pure exploration problems. Firstly, we propose the separated setting in
pure exploration problem, where the exploration strategy cannot receive the
feedback of its explorations. Due to this separation, it requires that the
exploration strategy to sample the arms obliviously. By involving the kernel
information of the reward vectors, we provide efficient algorithms for both
time-varying and fixed cases with regret bound $O(d\sqrt{(\ln N)/n})$. Then, we
show the lower bound to the pure exploration in multi-armed bandits with low
rank sequence. There is an $O(\sqrt{\ln N})$ gap between our upper bound and
the lower bound.
- Abstract(参考訳): 本稿では,純探索問題の報酬系列の低階構造について考察する。
まず, 探索戦略が探査のフィードバックを得られない純粋な探査問題において, 分離した設定を提案する。
この分離のため、腕を標本化するための探索戦略が必要である。
報奨ベクトルの核情報を取り込むことにより、result bound $o(d\sqrt{(\ln n)/n})$を持つ時間変動と固定ケースの両方に対して効率的なアルゴリズムを提供する。
次に,低位列の多腕バンディットにおける純粋探索に対する下限を示す。
我々の上界と下界の間には$o(\sqrt{\ln n})$ギャップがある。
関連論文リスト
- An Optimal Algorithm for the Real-Valued Combinatorial Pure Exploration
of Multi-Armed Bandit [65.268245109828]
多武装バンディット(R-CPE-MAB)の真価純探査問題について検討する。
既存のR-CPE-MABの手法は、いわゆるトランスダクティブ線形帯域の特殊な場合と見なすことができる。
本稿では,差分探索アルゴリズム (CombGapE) を提案する。
論文 参考訳(メタデータ) (2023-06-15T15:37:31Z) - Neural Exploitation and Exploration of Contextual Bandits [51.25537742455235]
本研究では,ニューラルネットワークを用いたコンテキスト型マルチアームバンディットの活用と探索について検討する。
EE-Netは、ニューラルベースによる新たなエクスプロイトと探索戦略である。
EE-Netは、実世界のデータセット上での線形およびニューラルネットワークの帯域ベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-05T18:34:49Z) - Communication-Constrained Bandits under Additive Gaussian Noise [111.06688156723018]
クライアントが学習者にコミュニケーション制約のあるフィードバックを提供する分散マルチアームバンディットについて検討する。
我々は、この下限を小さな加法係数にマッチさせるマルチフェーズ帯域幅アルゴリズム、$mathtUEtext-UCB++$を提案する。
論文 参考訳(メタデータ) (2023-04-25T09:31:20Z) - Bandit Social Learning: Exploration under Myopic Behavior [58.75758600464338]
オンラインプラットフォーム上でのレビューによって動機付けられた社会学習のダイナミクスについて検討する。
エージェントはまとめて単純なマルチアームのバンディットプロトコルに従うが、各エージェントは探索を伴わずにミオプティカルに振る舞う。
このような振る舞いに対して,スターク学習の失敗を導出し,好意的な結果を提供する。
論文 参考訳(メタデータ) (2023-02-15T01:57:57Z) - Redeeming Intrinsic Rewards via Constrained Optimization [17.203887958936168]
最先端強化学習(RL)アルゴリズムは、通常、探索にランダムサンプリング(例えば$epsilon$-greedy)を用いるが、モンテズマのRevengeのようなハードな探索には失敗する。
探索ボーナス(本質的な報酬または好奇心とも呼ばれる)を使って、エージェントが新しい国家を訪問する動機付けをする以前の作品
このような手法は, 厳密な探索作業において優れた結果をもたらすが, 課題報酬のみを用いて訓練したエージェントと比較して, 内在的な報酬バイアスや過小評価に悩まされる可能性がある。
そこで本研究では,本質的な報酬の重要度を自動的に調整する制約付きポリシ最適化手法を提案する。
論文 参考訳(メタデータ) (2022-11-14T18:49:26Z) - CORe: Capitalizing On Rewards in Bandit Exploration [15.694813164770862]
過去の観測をランダム化して純粋に探索するバンディットアルゴリズムを提案する。
平均報酬推定における十分な楽観性は、過去の観測された報酬の分散を利用して達成される。
アルゴリズムCapitalizing On Rewards(CORe)と名付けます。
論文 参考訳(メタデータ) (2021-03-07T16:09:37Z) - Neural Contextual Bandits with Deep Representation and Shallow
Exploration [105.8099566651448]
本稿では,深部ReLUニューラルネットワークの最後の隠蔽層を用いて,原特徴ベクトルを変換する新しい学習アルゴリズムを提案する。
既存のニューラルネットワークと比較して、ディープニューラルネットワークの最後の層でのみ探索する必要があるため、我々のアプローチは計算的にはるかに効率的です。
論文 参考訳(メタデータ) (2020-12-03T09:17:55Z) - Hyper-parameter Tuning for the Contextual Bandit [22.721128745617076]
本稿では,線形報酬関数の設定によるコンテキスト的帯域問題における探索的エクスプロイトトレードオフの学習問題について検討する。
提案アルゴリズムは,観測された文脈に基づいて,適切な探索パラメータをオンラインで選択することを学ぶ。
ここでは,文脈的帯域幅アルゴリズムの最適探索を求めるために,帯域幅を用いた2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-04T17:20:19Z) - The Price of Incentivizing Exploration: A Characterization via Thompson
Sampling and Sample Complexity [83.81297078039836]
インセンティブ付き探索(Incentivized Exploring)は、武器の選択を自給自足エージェントによって制御するマルチアーム・バンディットのバージョンである。
我々は、インセンティブの価格に焦点を合わせ、インセンティブの適合性のために、広く解釈された、パフォーマンスの喪失が引き起こされる。
論文 参考訳(メタデータ) (2020-02-03T04:58:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。