論文の概要: Performance analysis of a hybrid agent for quantum-accessible
reinforcement learning
- arxiv url: http://arxiv.org/abs/2107.14001v1
- Date: Thu, 29 Jul 2021 14:19:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-20 11:30:57.946743
- Title: Performance analysis of a hybrid agent for quantum-accessible
reinforcement learning
- Title(参考訳): 量子アクセス性強化学習用ハイブリッドエージェントの性能解析
- Authors: Arne Hamann, Sabine W\"olk
- Abstract要約: 強化学習では、ある環境が与える課題を解決するために、いわゆるエージェントが挑戦される。
決定論的厳密なエポック環境のような古典的なタスク環境では、アナログ量子環境を構築することができる。
探索における2次高速化と古典的エージェントのポリシー更新を組み合わせたハイブリッドエージェントの挙動を解析的に解析する。
- 参考スコア(独自算出の注目度): 0.3655021726150368
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the last decade quantum machine learning has provided fascinating and
fundamental improvements to supervised, unsupervised and reinforcement
learning. In reinforcement learning, a so-called agent is challenged to solve a
task given by some environment. The agent learns to solve the task by exploring
the environment and exploiting the rewards it gets from the environment. For
some classical task environments, such as deterministic strictly epochal
environments, an analogue quantum environment can be constructed which allows
to find rewards quadratically faster by applying quantum algorithms. In this
paper, we analytically analyze the behavior of a hybrid agent which combines
this quadratic speedup in exploration with the policy update of a classical
agent. This leads to a faster learning of the hybrid agent compared to the
classical agent. We demonstrate that if the classical agent needs on average
$\langle J \rangle$ rewards and $\langle T \rangle_c$ epochs to learn how to
solve the task, the hybrid agent will take $\langle T \rangle_q \leq \alpha
\sqrt{\langle T \rangle_c \langle J \rangle}$ epochs on average. Here, $\alpha$
denotes a constant which is independent of the problem size. Additionally, we
prove that if the environment allows for maximally $\alpha_o k_\text{max}$
sequential coherent interactions, e.g. due to noise effects, an improvement
given by $\langle T \rangle_q \approx \alpha_o\langle T \rangle_c/4
k_\text{max}$ is still possible.
- Abstract(参考訳): この10年間、量子機械学習は、教師なし、教師なし、強化学習に魅力的な、そして基本的な改善を提供してきた。
強化学習では、ある環境が与える課題を解決するために、いわゆるエージェントが挑戦される。
エージェントは、環境を探索し、環境から得られる報酬を活用することで、タスクの解決を学ぶ。
決定論的厳密なエポック環境のような古典的なタスク環境では、類似した量子環境を構築し、量子アルゴリズムを適用することで報酬を2次的に高速に見つけることができる。
本稿では,この2次高速化と古典的エージェントのポリシー更新を組み合わせたハイブリッドエージェントの挙動を解析的に分析する。
これにより、従来のエージェントに比べてハイブリッドエージェントの学習が速くなる。
従来のエージェントが平均$\langle J \rangle$ rewards と $\langle T \rangle_c$ epochs でタスクの解決方法を学ぶ必要がある場合、ハイブリッドエージェントは平均$\langle T \rangle_q \leq \alpha \sqrt{\langle T \rangle_c \langle J \rangle}$ epochs を取る。
ここで、$\alpha$は問題のサイズに依存しない定数を表す。
さらに、もし環境が最大$\alpha_o k_\text{max}$シーケンシャルコヒーレント相互作用を許容するなら、例えばノイズ効果により、$\langle T \rangle_q \approx \alpha_o\langle T \rangle_c/4 k_\text{max}$で与えられる改善が引き続き可能であることを証明している。
関連論文リスト
- Scalable Primal-Dual Actor-Critic Method for Safe Multi-Agent RL with
General Utilities [12.104551746465932]
安全マルチエージェント強化学習について検討し、エージェントはそれぞれの安全制約を満たしつつ、局所的な目的の総和をまとめて最大化しようとする。
我々のアルゴリズムは、$mathcalOleft(T-2/3right)$のレートで1次定常点(FOSP)に収束する。
サンプルベースの設定では、高い確率で、我々のアルゴリズムは、$epsilon$-FOSPを達成するために$widetildemathcalOleft(epsilon-3.5right)$サンプルが必要です。
論文 参考訳(メタデータ) (2023-05-27T20:08:35Z) - Optimal Horizon-Free Reward-Free Exploration for Linear Mixture MDPs [60.40452803295326]
線形マルコフ決定過程(MDP)を学習するための新たな報酬なしアルゴリズムを提案する。
我々のアルゴリズムの核心は、探索駆動の擬似回帰を用いた不確実性重み付き値目標回帰である。
我々のアルゴリズムは$tilde O(d2varepsilon-2)$ episodesを探索するだけで、$varepsilon$-optimal policyを見つけることができる。
論文 参考訳(メタデータ) (2023-03-17T17:53:28Z) - Free Job-Shop Scheduling With Hardcoded Constraints [0.0]
同様に構築されたミキサーの所望の特性は、純粋に古典的な対象に直接リンク可能であることを示す。
より自然にグループ構造を組み込む新しい変分量子アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-11-10T19:25:20Z) - Simultaneously Learning Stochastic and Adversarial Bandits under the
Position-Based Model [9.945948163150874]
本研究は, 位置ベースモデルに基づくオンライン学習における課題のランク付けに関する研究である。
提案アルゴリズムは,対向環境において$O(logT)$後悔を同時に達成し,対向環境において$O(msqrtnT)$後悔を同時に達成する。
実験により,本アルゴリズムは,既存手法と競合する環境下で同時に学習できることが確認された。
論文 参考訳(メタデータ) (2022-07-12T10:00:14Z) - Quantum Algorithms for Reinforcement Learning with a Generative Model [16.168901236223117]
強化学習は、エージェントがその累積報酬を最大化するために環境とどのように相互作用するかを研究する。
最適ポリシー(pi*$)、最適値関数(v*$)、最適値関数(q*$)を近似する量子アルゴリズムを設計する。
一致する量子下界を証明して、q*$を計算するための量子アルゴリズムが最適であることを示す。
論文 参考訳(メタデータ) (2021-12-15T19:51:49Z) - Anti-Concentrated Confidence Bonuses for Scalable Exploration [57.91943847134011]
固有の報酬は、探検と探検のトレードオフを扱う上で中心的な役割を果たす。
楕円ボーナスを効率的に近似するためのエンファンティ集中型信頼境界を導入する。
我々は,Atariベンチマーク上での現代固有の報酬と競合する,深層強化学習のための実用的な変種を開発する。
論文 参考訳(メタデータ) (2021-10-21T15:25:15Z) - On Reward-Free RL with Kernel and Neural Function Approximations:
Single-Agent MDP and Markov Game [140.19656665344917]
エージェントが事前に特定された報酬関数を使わずに環境を徹底的に探索することを目的とした報酬のないRL問題について検討する。
関数近似の文脈でこの問題に取り組み、強力な関数近似器を活用する。
我々は、カーネルとニューラルファンクション近似器を用いた、証明可能な効率の良い報酬なしRLアルゴリズムを確立した。
論文 参考訳(メタデータ) (2021-10-19T07:26:33Z) - Decentralized Cooperative Multi-Agent Reinforcement Learning with
Exploration [35.75029940279768]
マルコフチーム(Markov team)において、最も基本的な協調環境でマルチエージェント強化学習を研究する。
本稿では,各エージェントが独立してステージベースのVラーニングスタイルのアルゴリズムを実行するアルゴリズムを提案する。
エージェントは、少なくとも$proptowidetildeO (1/epsilon4)$ episodesにおいて、$epsilon$-approximate Nash平衡ポリシーを学ぶことができる。
論文 参考訳(メタデータ) (2021-10-12T02:45:12Z) - Navigating to the Best Policy in Markov Decision Processes [68.8204255655161]
マルコフ決定過程における純粋探索問題について検討する。
エージェントはアクションを逐次選択し、結果のシステム軌道から可能な限り早くベストを目標とする。
論文 参考訳(メタデータ) (2021-06-05T09:16:28Z) - Byzantine-Resilient Non-Convex Stochastic Gradient Descent [61.6382287971982]
敵対的レジリエントな分散最適化。
機械は独立して勾配を計算し 協力することができます
私達のアルゴリズムは新しい集中の技術およびサンプル複雑性に基づいています。
それは非常に実用的です:それはないときすべての前の方法の性能を改善します。
セッティングマシンがあります。
論文 参考訳(メタデータ) (2020-12-28T17:19:32Z) - Finite-Time Analysis for Double Q-learning [50.50058000948908]
二重Q-ラーニングのための非漸近的有限時間解析を初めて提供する。
同期と非同期の二重Q-ラーニングの両方が,グローバル最適化の$epsilon$-accurate近辺に収束することが保証されていることを示す。
論文 参考訳(メタデータ) (2020-09-29T18:48:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。