Fugu-MT 論文翻訳(概要): Pure exploration in multi-armed bandits with low rank structure using oblivious sampler

論文の概要: Pure exploration in multi-armed bandits with low rank structure using oblivious sampler

arxiv url: http://arxiv.org/abs/2306.15856v1
Date: Wed, 28 Jun 2023 01:14:55 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-29 16:14:11.823904
Title: Pure exploration in multi-armed bandits with low rank structure using oblivious sampler
Title（参考訳）: 斜め試料を用いた低位構造を有する多腕帯の純探査
Authors: Yaxiong Liu, Atsuyoshi Nakamura, Kohei Hatano, Eiji Takimoto
Abstract要約: 純粋探索問題の報酬系列の下位構造を考察する。報酬ベクトルのカーネル情報を含むことにより、時間変化と固定の両方のケースに対して効率的なアルゴリズムを提供する。
参考スコア（独自算出の注目度）: 1.988145627448243
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this paper, we consider the low rank structure of the reward sequence of the pure exploration problems. Firstly, we propose the separated setting in pure exploration problem, where the exploration strategy cannot receive the feedback of its explorations. Due to this separation, it requires that the exploration strategy to sample the arms obliviously. By involving the kernel information of the reward vectors, we provide efficient algorithms for both time-varying and fixed cases with regret bound $O(d\sqrt{(\ln N)/n})$. Then, we show the lower bound to the pure exploration in multi-armed bandits with low rank sequence. There is an $O(\sqrt{\ln N})$ gap between our upper bound and the lower bound.
Abstract（参考訳）: 本稿では,純探索問題の報酬系列の低階構造について考察する。まず, 探索戦略が探査のフィードバックを得られない純粋な探査問題において, 分離した設定を提案する。この分離のため、腕を標本化するための探索戦略が必要である。報奨ベクトルの核情報を取り込むことにより、result bound $o(d\sqrt{(\ln n)/n})$を持つ時間変動と固定ケースの両方に対して効率的なアルゴリズムを提供する。次に,低位列の多腕バンディットにおける純粋探索に対する下限を示す。我々の上界と下界の間には$o(\sqrt{\ln n})$ギャップがある。

関連論文リスト

The Batch Complexity of Bandit Pure Exploration [10.036727981085223]
マルチアームバンディットにおける純粋な探索問題では、アルゴリズムは武器を反復的にサンプリングし、できるだけ早く停止し、武器分布に関する質問に対する正しい答えを返すべきである。私たちは、バッチ化メソッドに興味を持ち、サンプルの振る舞いを数回だけ、観察のバッチ間で変更します。純粋な探索タスクに対して,任意のサンプル効率アルゴリズムが使用するバッチ数に対して,インスタンス依存の低いバウンダリを与える。
論文参考訳（メタデータ） (2025-02-03T15:03:45Z)
Deterministic Exploration via Stationary Bellman Error Maximization [6.474106100512158]
探索は強化学習(RL)の重要かつ特異な側面である本稿では,後者を安定させ,決定論的探索政策に到達するための3つの修正点を紹介する。実験結果から,本手法は高密度かつスパースな報酬設定において,$varepsilon$-greedyよりも優れていることがわかった。
論文参考訳（メタデータ） (2024-10-31T11:46:48Z)
Diminishing Exploration: A Minimalist Approach to Piecewise Stationary Multi-Armed Bandits [17.02018075805672]
片側定常バンドイット問題は、報酬分布の急激な変化を考察する。既存のアルゴリズムは、変化点の数に関する知識を$M$とするか、非常に高い計算複雑性を必要とする。そこで本研究では,MM$に関する知識の必要をなくす,減少探索と呼ばれる新奇で汎用的な探索機構を提案する。
論文参考訳（メタデータ） (2024-10-08T06:51:32Z)
Reward Augmentation in Reinforcement Learning for Testing Distributed Systems [6.0560257343687995]
人気のある分散プロトコル実装のバグは、人気のあるインターネットサービスにおける多くのダウンタイムの源となっている。本稿では,強化学習に基づく分散プロトコル実装のためのランダム化テスト手法について述べる。お互いに構築する2つの異なるテクニックを示します。
論文参考訳（メタデータ） (2024-09-02T15:07:05Z)
Random Latent Exploration for Deep Reinforcement Learning [71.88709402926415]
RLE(Random Latent Exploration)は、強化学習における単純かつ効果的な探索戦略である。 RLEは、エージェントの行動を混乱させるノイズベースの手法と、新しい行動を試みるエージェントに報酬を与えるボーナスベースの探索を平均的に上回る。 RLEはノイズベースの手法と同じくらい単純であり、複雑なボーナス計算は避けるが、ボーナスベースの手法の深い探索の利点を保っている。
論文参考訳（メタデータ） (2024-07-18T17:55:22Z)
An Optimal Algorithm for the Real-Valued Combinatorial Pure Exploration of Multi-Armed Bandit [65.268245109828]
多武装バンディット(R-CPE-MAB)の真価純探査問題について検討する。既存のR-CPE-MABの手法は、いわゆるトランスダクティブ線形帯域の特殊な場合と見なすことができる。本稿では,差分探索アルゴリズム (CombGapE) を提案する。
論文参考訳（メタデータ） (2023-06-15T15:37:31Z)
Neural Exploitation and Exploration of Contextual Bandits [51.25537742455235]
本研究では,ニューラルネットワークを用いたコンテキスト型マルチアームバンディットの活用と探索について検討する。 EE-Netは、ニューラルベースによる新たなエクスプロイトと探索戦略である。 EE-Netは、実世界のデータセット上での線形およびニューラルネットワークの帯域ベースラインよりも優れていることを示す。
論文参考訳（メタデータ） (2023-05-05T18:34:49Z)
Communication-Constrained Bandits under Additive Gaussian Noise [111.06688156723018]
クライアントが学習者にコミュニケーション制約のあるフィードバックを提供する分散マルチアームバンディットについて検討する。我々は、この下限を小さな加法係数にマッチさせるマルチフェーズ帯域幅アルゴリズム、$mathtUEtext-UCB++$を提案する。
論文参考訳（メタデータ） (2023-04-25T09:31:20Z)
Bandit Social Learning: Exploration under Myopic Behavior [58.75758600464338]
オンラインプラットフォーム上でのレビューによって動機付けられた社会学習のダイナミクスについて検討する。エージェントはまとめて単純なマルチアームのバンディットプロトコルに従うが、各エージェントは探索を伴わずにミオプティカルに振る舞う。このような振る舞いに対して,スターク学習の失敗を導出し,好意的な結果を提供する。
論文参考訳（メタデータ） (2023-02-15T01:57:57Z)
CORe: Capitalizing On Rewards in Bandit Exploration [15.694813164770862]
過去の観測をランダム化して純粋に探索するバンディットアルゴリズムを提案する。平均報酬推定における十分な楽観性は、過去の観測された報酬の分散を利用して達成される。アルゴリズムCapitalizing On Rewards(CORe)と名付けます。
論文参考訳（メタデータ） (2021-03-07T16:09:37Z)
BeBold: Exploration Beyond the Boundary of Explored Regions [66.88415950549556]
本稿では,本質的報酬(IR)の簡便かつ効果的な基準として,逆訪問回数の規制的差異を提案する。この基準は、エージェントが探索された地域の境界を越えて探索し、短視力や分離などのカウントベースの方法の一般的な問題を緩和するのに役立ちます。その結果得られたBeBoldは、MiniGridの12の最も難しい手続き的タスクを、カリキュラムの学習なしにわずか120万の環境ステップで解決する。
論文参考訳（メタデータ） (2020-12-15T21:26:54Z)
Neural Contextual Bandits with Deep Representation and Shallow Exploration [105.8099566651448]
本稿では,深部ReLUニューラルネットワークの最後の隠蔽層を用いて,原特徴ベクトルを変換する新しい学習アルゴリズムを提案する。既存のニューラルネットワークと比較して、ディープニューラルネットワークの最後の層でのみ探索する必要があるため、我々のアプローチは計算的にはるかに効率的です。
論文参考訳（メタデータ） (2020-12-03T09:17:55Z)
Hyper-parameter Tuning for the Contextual Bandit [22.721128745617076]
本稿では,線形報酬関数の設定によるコンテキスト的帯域問題における探索的エクスプロイトトレードオフの学習問題について検討する。提案アルゴリズムは,観測された文脈に基づいて,適切な探索パラメータをオンラインで選択することを学ぶ。ここでは,文脈的帯域幅アルゴリズムの最適探索を求めるために,帯域幅を用いた2つのアルゴリズムを提案する。
論文参考訳（メタデータ） (2020-05-04T17:20:19Z)
Reward-Free Exploration for Reinforcement Learning [82.3300753751066]
探索の課題を分離する「逆フリーなRL」フレームワークを提案する。我々は,$tildemathcalO(S2Amathrmpoly(H)/epsilon2)$の探索を効率的に行うアルゴリズムを提案する。また、ほぼ一致する$Omega(S2AH2/epsilon2)$ lower boundを与え、この設定でアルゴリズムのほぼ最適性を示す。
論文参考訳（メタデータ） (2020-02-07T14:03:38Z)
The Price of Incentivizing Exploration: A Characterization via Thompson Sampling and Sample Complexity [83.81297078039836]
インセンティブ付き探索(Incentivized Exploring)は、武器の選択を自給自足エージェントによって制御するマルチアーム・バンディットのバージョンである。我々は、インセンティブの価格に焦点を合わせ、インセンティブの適合性のために、広く解釈された、パフォーマンスの喪失が引き起こされる。
論文参考訳（メタデータ） (2020-02-03T04:58:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。