論文の概要: Performance analysis of a hybrid agent for quantum-accessible
reinforcement learning
- arxiv url: http://arxiv.org/abs/2107.14001v1
- Date: Thu, 29 Jul 2021 14:19:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-20 11:30:57.946743
- Title: Performance analysis of a hybrid agent for quantum-accessible
reinforcement learning
- Title(参考訳): 量子アクセス性強化学習用ハイブリッドエージェントの性能解析
- Authors: Arne Hamann, Sabine W\"olk
- Abstract要約: 強化学習では、ある環境が与える課題を解決するために、いわゆるエージェントが挑戦される。
決定論的厳密なエポック環境のような古典的なタスク環境では、アナログ量子環境を構築することができる。
探索における2次高速化と古典的エージェントのポリシー更新を組み合わせたハイブリッドエージェントの挙動を解析的に解析する。
- 参考スコア(独自算出の注目度): 0.3655021726150368
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the last decade quantum machine learning has provided fascinating and
fundamental improvements to supervised, unsupervised and reinforcement
learning. In reinforcement learning, a so-called agent is challenged to solve a
task given by some environment. The agent learns to solve the task by exploring
the environment and exploiting the rewards it gets from the environment. For
some classical task environments, such as deterministic strictly epochal
environments, an analogue quantum environment can be constructed which allows
to find rewards quadratically faster by applying quantum algorithms. In this
paper, we analytically analyze the behavior of a hybrid agent which combines
this quadratic speedup in exploration with the policy update of a classical
agent. This leads to a faster learning of the hybrid agent compared to the
classical agent. We demonstrate that if the classical agent needs on average
$\langle J \rangle$ rewards and $\langle T \rangle_c$ epochs to learn how to
solve the task, the hybrid agent will take $\langle T \rangle_q \leq \alpha
\sqrt{\langle T \rangle_c \langle J \rangle}$ epochs on average. Here, $\alpha$
denotes a constant which is independent of the problem size. Additionally, we
prove that if the environment allows for maximally $\alpha_o k_\text{max}$
sequential coherent interactions, e.g. due to noise effects, an improvement
given by $\langle T \rangle_q \approx \alpha_o\langle T \rangle_c/4
k_\text{max}$ is still possible.
- Abstract(参考訳): この10年間、量子機械学習は、教師なし、教師なし、強化学習に魅力的な、そして基本的な改善を提供してきた。
強化学習では、ある環境が与える課題を解決するために、いわゆるエージェントが挑戦される。
エージェントは、環境を探索し、環境から得られる報酬を活用することで、タスクの解決を学ぶ。
決定論的厳密なエポック環境のような古典的なタスク環境では、類似した量子環境を構築し、量子アルゴリズムを適用することで報酬を2次的に高速に見つけることができる。
本稿では,この2次高速化と古典的エージェントのポリシー更新を組み合わせたハイブリッドエージェントの挙動を解析的に分析する。
これにより、従来のエージェントに比べてハイブリッドエージェントの学習が速くなる。
従来のエージェントが平均$\langle J \rangle$ rewards と $\langle T \rangle_c$ epochs でタスクの解決方法を学ぶ必要がある場合、ハイブリッドエージェントは平均$\langle T \rangle_q \leq \alpha \sqrt{\langle T \rangle_c \langle J \rangle}$ epochs を取る。
ここで、$\alpha$は問題のサイズに依存しない定数を表す。
さらに、もし環境が最大$\alpha_o k_\text{max}$シーケンシャルコヒーレント相互作用を許容するなら、例えばノイズ効果により、$\langle T \rangle_q \approx \alpha_o\langle T \rangle_c/4 k_\text{max}$で与えられる改善が引き続き可能であることを証明している。
関連論文リスト
- Near-Optimal Online Learning for Multi-Agent Submodular Coordination: Tight Approximation and Communication Efficiency [52.60557300927007]
離散部分モジュラー問題を連続的に最適化するために,$textbfMA-OSMA$アルゴリズムを提案する。
また、一様分布を混合することによりKLの発散を効果的に活用する、プロジェクションフリーな$textbfMA-OSEA$アルゴリズムも導入する。
我々のアルゴリズムは最先端OSGアルゴリズムによって提供される$(frac11+c)$-approximationを大幅に改善する。
論文 参考訳(メタデータ) (2025-02-07T15:57:56Z) - Mean-Field Sampling for Cooperative Multi-Agent Reinforcement Learning [4.899818550820576]
マルチエージェント強化学習のための新しいアルゴリズムを提案する。
この学習されたポリシーは、サブサンプルエージェントの数が増加するにつれて、$tildeO (1/sqrtk)$の順序で最適ポリシーに収束することを示す。
論文 参考訳(メタデータ) (2024-12-01T03:45:17Z) - Stochastic Q-learning for Large Discrete Action Spaces [79.1700188160944]
離散的な行動空間を持つ複雑な環境では、強化学習(RL)において効果的な意思決定が重要である
我々は、$n$アクションの集合全体を最適化するのとは対照的に、おそらく$mathcalO(log(n)$)$のような変数の集合のみを考える。
提示された値ベースのRL手法には、Q-learning、StochDQN、StochDDQNなどが含まれる。
論文 参考訳(メタデータ) (2024-05-16T17:58:44Z) - Energy-Guided Continuous Entropic Barycenter Estimation for General Costs [95.33926437521046]
任意のOTコスト関数に対して連続的エントロピーOT(EOT)バリセンタを近似する新しいアルゴリズムを提案する。
本手法は、弱いOTに基づくEOT問題の二重再構成に基づいている。
論文 参考訳(メタデータ) (2023-10-02T11:24:36Z) - Free Job-Shop Scheduling With Hardcoded Constraints [0.0]
同様に構築されたミキサーの所望の特性は、純粋に古典的な対象に直接リンク可能であることを示す。
より自然にグループ構造を組み込む新しい変分量子アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-11-10T19:25:20Z) - Simultaneously Learning Stochastic and Adversarial Bandits under the
Position-Based Model [9.945948163150874]
本研究は, 位置ベースモデルに基づくオンライン学習における課題のランク付けに関する研究である。
提案アルゴリズムは,対向環境において$O(logT)$後悔を同時に達成し,対向環境において$O(msqrtnT)$後悔を同時に達成する。
実験により,本アルゴリズムは,既存手法と競合する環境下で同時に学習できることが確認された。
論文 参考訳(メタデータ) (2022-07-12T10:00:14Z) - Quantum Algorithms for Reinforcement Learning with a Generative Model [16.168901236223117]
強化学習は、エージェントがその累積報酬を最大化するために環境とどのように相互作用するかを研究する。
最適ポリシー(pi*$)、最適値関数(v*$)、最適値関数(q*$)を近似する量子アルゴリズムを設計する。
一致する量子下界を証明して、q*$を計算するための量子アルゴリズムが最適であることを示す。
論文 参考訳(メタデータ) (2021-12-15T19:51:49Z) - Anti-Concentrated Confidence Bonuses for Scalable Exploration [57.91943847134011]
固有の報酬は、探検と探検のトレードオフを扱う上で中心的な役割を果たす。
楕円ボーナスを効率的に近似するためのエンファンティ集中型信頼境界を導入する。
我々は,Atariベンチマーク上での現代固有の報酬と競合する,深層強化学習のための実用的な変種を開発する。
論文 参考訳(メタデータ) (2021-10-21T15:25:15Z) - On Reward-Free RL with Kernel and Neural Function Approximations:
Single-Agent MDP and Markov Game [140.19656665344917]
エージェントが事前に特定された報酬関数を使わずに環境を徹底的に探索することを目的とした報酬のないRL問題について検討する。
関数近似の文脈でこの問題に取り組み、強力な関数近似器を活用する。
我々は、カーネルとニューラルファンクション近似器を用いた、証明可能な効率の良い報酬なしRLアルゴリズムを確立した。
論文 参考訳(メタデータ) (2021-10-19T07:26:33Z) - Decentralized Cooperative Multi-Agent Reinforcement Learning with
Exploration [35.75029940279768]
マルコフチーム(Markov team)において、最も基本的な協調環境でマルチエージェント強化学習を研究する。
本稿では,各エージェントが独立してステージベースのVラーニングスタイルのアルゴリズムを実行するアルゴリズムを提案する。
エージェントは、少なくとも$proptowidetildeO (1/epsilon4)$ episodesにおいて、$epsilon$-approximate Nash平衡ポリシーを学ぶことができる。
論文 参考訳(メタデータ) (2021-10-12T02:45:12Z) - Navigating to the Best Policy in Markov Decision Processes [68.8204255655161]
マルコフ決定過程における純粋探索問題について検討する。
エージェントはアクションを逐次選択し、結果のシステム軌道から可能な限り早くベストを目標とする。
論文 参考訳(メタデータ) (2021-06-05T09:16:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。