論文の概要: Performance analysis of a hybrid agent for quantum-accessible
reinforcement learning
- arxiv url: http://arxiv.org/abs/2107.14001v1
- Date: Thu, 29 Jul 2021 14:19:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-20 11:30:57.946743
- Title: Performance analysis of a hybrid agent for quantum-accessible
reinforcement learning
- Title(参考訳): 量子アクセス性強化学習用ハイブリッドエージェントの性能解析
- Authors: Arne Hamann, Sabine W\"olk
- Abstract要約: 強化学習では、ある環境が与える課題を解決するために、いわゆるエージェントが挑戦される。
決定論的厳密なエポック環境のような古典的なタスク環境では、アナログ量子環境を構築することができる。
探索における2次高速化と古典的エージェントのポリシー更新を組み合わせたハイブリッドエージェントの挙動を解析的に解析する。
- 参考スコア(独自算出の注目度): 0.3655021726150368
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the last decade quantum machine learning has provided fascinating and
fundamental improvements to supervised, unsupervised and reinforcement
learning. In reinforcement learning, a so-called agent is challenged to solve a
task given by some environment. The agent learns to solve the task by exploring
the environment and exploiting the rewards it gets from the environment. For
some classical task environments, such as deterministic strictly epochal
environments, an analogue quantum environment can be constructed which allows
to find rewards quadratically faster by applying quantum algorithms. In this
paper, we analytically analyze the behavior of a hybrid agent which combines
this quadratic speedup in exploration with the policy update of a classical
agent. This leads to a faster learning of the hybrid agent compared to the
classical agent. We demonstrate that if the classical agent needs on average
$\langle J \rangle$ rewards and $\langle T \rangle_c$ epochs to learn how to
solve the task, the hybrid agent will take $\langle T \rangle_q \leq \alpha
\sqrt{\langle T \rangle_c \langle J \rangle}$ epochs on average. Here, $\alpha$
denotes a constant which is independent of the problem size. Additionally, we
prove that if the environment allows for maximally $\alpha_o k_\text{max}$
sequential coherent interactions, e.g. due to noise effects, an improvement
given by $\langle T \rangle_q \approx \alpha_o\langle T \rangle_c/4
k_\text{max}$ is still possible.
- Abstract(参考訳): この10年間、量子機械学習は、教師なし、教師なし、強化学習に魅力的な、そして基本的な改善を提供してきた。
強化学習では、ある環境が与える課題を解決するために、いわゆるエージェントが挑戦される。
エージェントは、環境を探索し、環境から得られる報酬を活用することで、タスクの解決を学ぶ。
決定論的厳密なエポック環境のような古典的なタスク環境では、類似した量子環境を構築し、量子アルゴリズムを適用することで報酬を2次的に高速に見つけることができる。
本稿では,この2次高速化と古典的エージェントのポリシー更新を組み合わせたハイブリッドエージェントの挙動を解析的に分析する。
これにより、従来のエージェントに比べてハイブリッドエージェントの学習が速くなる。
従来のエージェントが平均$\langle J \rangle$ rewards と $\langle T \rangle_c$ epochs でタスクの解決方法を学ぶ必要がある場合、ハイブリッドエージェントは平均$\langle T \rangle_q \leq \alpha \sqrt{\langle T \rangle_c \langle J \rangle}$ epochs を取る。
ここで、$\alpha$は問題のサイズに依存しない定数を表す。
さらに、もし環境が最大$\alpha_o k_\text{max}$シーケンシャルコヒーレント相互作用を許容するなら、例えばノイズ効果により、$\langle T \rangle_q \approx \alpha_o\langle T \rangle_c/4 k_\text{max}$で与えられる改善が引き続き可能であることを証明している。
関連論文リスト
- Near-Optimal Dynamic Regret for Adversarial Linear Mixture MDPs [63.47351876442425]
本研究は,完全情報フィードバックの下で,相変わらずの相変わらずの線形混合MDPについて検討した。
本稿では,占領率に基づく手法と政策に基づく手法の利点を組み合わせた新しいアルゴリズムを提案する。
我々のアルゴリズムは$widetildemathcalO(d sqrtH3 K + sqrtHK(H + barP_K$)$ dynamic regret, ここで$d$は特徴次元である。
論文 参考訳(メタデータ) (2024-11-05T13:55:52Z) - Cooperative Multi-Agent Constrained Stochastic Linear Bandits [2.099922236065961]
N$エージェントのネットワークがローカルに通信し、期待されるコストを所定の閾値$tau$で保持しながら、全体的な後悔を最小限に抑える。
我々は、textitMA-OPLBと呼ばれる安全な分散上信頼度有界アルゴリズムを提案し、そのT$ラウンドの後悔に基づく高い確率を確立する。
我々の後悔の限界は次数$ MathcalOleft(fracdtau-c_0fraclog(NT)2sqrtNsqrtTlog (1/|lambda|)であることを示す。
論文 参考訳(メタデータ) (2024-10-22T19:34:53Z) - Stochastic Q-learning for Large Discrete Action Spaces [79.1700188160944]
離散的な行動空間を持つ複雑な環境では、強化学習(RL)において効果的な意思決定が重要である
我々は、$n$アクションの集合全体を最適化するのとは対照的に、おそらく$mathcalO(log(n)$)$のような変数の集合のみを考える。
提示された値ベースのRL手法には、Q-learning、StochDQN、StochDDQNなどが含まれる。
論文 参考訳(メタデータ) (2024-05-16T17:58:44Z) - Optimal Horizon-Free Reward-Free Exploration for Linear Mixture MDPs [60.40452803295326]
線形マルコフ決定過程(MDP)を学習するための新たな報酬なしアルゴリズムを提案する。
我々のアルゴリズムの核心は、探索駆動の擬似回帰を用いた不確実性重み付き値目標回帰である。
我々のアルゴリズムは$tilde O(d2varepsilon-2)$ episodesを探索するだけで、$varepsilon$-optimal policyを見つけることができる。
論文 参考訳(メタデータ) (2023-03-17T17:53:28Z) - Free Job-Shop Scheduling With Hardcoded Constraints [0.0]
同様に構築されたミキサーの所望の特性は、純粋に古典的な対象に直接リンク可能であることを示す。
より自然にグループ構造を組み込む新しい変分量子アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-11-10T19:25:20Z) - Simultaneously Learning Stochastic and Adversarial Bandits under the
Position-Based Model [9.945948163150874]
本研究は, 位置ベースモデルに基づくオンライン学習における課題のランク付けに関する研究である。
提案アルゴリズムは,対向環境において$O(logT)$後悔を同時に達成し,対向環境において$O(msqrtnT)$後悔を同時に達成する。
実験により,本アルゴリズムは,既存手法と競合する環境下で同時に学習できることが確認された。
論文 参考訳(メタデータ) (2022-07-12T10:00:14Z) - Quantum Algorithms for Reinforcement Learning with a Generative Model [16.168901236223117]
強化学習は、エージェントがその累積報酬を最大化するために環境とどのように相互作用するかを研究する。
最適ポリシー(pi*$)、最適値関数(v*$)、最適値関数(q*$)を近似する量子アルゴリズムを設計する。
一致する量子下界を証明して、q*$を計算するための量子アルゴリズムが最適であることを示す。
論文 参考訳(メタデータ) (2021-12-15T19:51:49Z) - Anti-Concentrated Confidence Bonuses for Scalable Exploration [57.91943847134011]
固有の報酬は、探検と探検のトレードオフを扱う上で中心的な役割を果たす。
楕円ボーナスを効率的に近似するためのエンファンティ集中型信頼境界を導入する。
我々は,Atariベンチマーク上での現代固有の報酬と競合する,深層強化学習のための実用的な変種を開発する。
論文 参考訳(メタデータ) (2021-10-21T15:25:15Z) - On Reward-Free RL with Kernel and Neural Function Approximations:
Single-Agent MDP and Markov Game [140.19656665344917]
エージェントが事前に特定された報酬関数を使わずに環境を徹底的に探索することを目的とした報酬のないRL問題について検討する。
関数近似の文脈でこの問題に取り組み、強力な関数近似器を活用する。
我々は、カーネルとニューラルファンクション近似器を用いた、証明可能な効率の良い報酬なしRLアルゴリズムを確立した。
論文 参考訳(メタデータ) (2021-10-19T07:26:33Z) - Decentralized Cooperative Multi-Agent Reinforcement Learning with
Exploration [35.75029940279768]
マルコフチーム(Markov team)において、最も基本的な協調環境でマルチエージェント強化学習を研究する。
本稿では,各エージェントが独立してステージベースのVラーニングスタイルのアルゴリズムを実行するアルゴリズムを提案する。
エージェントは、少なくとも$proptowidetildeO (1/epsilon4)$ episodesにおいて、$epsilon$-approximate Nash平衡ポリシーを学ぶことができる。
論文 参考訳(メタデータ) (2021-10-12T02:45:12Z) - Navigating to the Best Policy in Markov Decision Processes [68.8204255655161]
マルコフ決定過程における純粋探索問題について検討する。
エージェントはアクションを逐次選択し、結果のシステム軌道から可能な限り早くベストを目標とする。
論文 参考訳(メタデータ) (2021-06-05T09:16:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。