Fugu-MT 論文翻訳(概要): Performance analysis of a hybrid agent for quantum-accessible reinforcement learning

論文の概要: Performance analysis of a hybrid agent for quantum-accessible reinforcement learning

arxiv url: http://arxiv.org/abs/2107.14001v1
Date: Thu, 29 Jul 2021 14:19:46 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-20 11:30:57.946743
Title: Performance analysis of a hybrid agent for quantum-accessible reinforcement learning
Title（参考訳）: 量子アクセス性強化学習用ハイブリッドエージェントの性能解析
Authors: Arne Hamann, Sabine W\"olk
Abstract要約: 強化学習では、ある環境が与える課題を解決するために、いわゆるエージェントが挑戦される。決定論的厳密なエポック環境のような古典的なタスク環境では、アナログ量子環境を構築することができる。探索における2次高速化と古典的エージェントのポリシー更新を組み合わせたハイブリッドエージェントの挙動を解析的に解析する。
参考スコア（独自算出の注目度）: 0.3655021726150368
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In the last decade quantum machine learning has provided fascinating and fundamental improvements to supervised, unsupervised and reinforcement learning. In reinforcement learning, a so-called agent is challenged to solve a task given by some environment. The agent learns to solve the task by exploring the environment and exploiting the rewards it gets from the environment. For some classical task environments, such as deterministic strictly epochal environments, an analogue quantum environment can be constructed which allows to find rewards quadratically faster by applying quantum algorithms. In this paper, we analytically analyze the behavior of a hybrid agent which combines this quadratic speedup in exploration with the policy update of a classical agent. This leads to a faster learning of the hybrid agent compared to the classical agent. We demonstrate that if the classical agent needs on average $\langle J \rangle$ rewards and $\langle T \rangle_c$ epochs to learn how to solve the task, the hybrid agent will take $\langle T \rangle_q \leq \alpha \sqrt{\langle T \rangle_c \langle J \rangle}$ epochs on average. Here, $\alpha$ denotes a constant which is independent of the problem size. Additionally, we prove that if the environment allows for maximally $\alpha_o k_\text{max}$ sequential coherent interactions, e.g. due to noise effects, an improvement given by $\langle T \rangle_q \approx \alpha_o\langle T \rangle_c/4 k_\text{max}$ is still possible.
Abstract（参考訳）: この10年間、量子機械学習は、教師なし、教師なし、強化学習に魅力的な、そして基本的な改善を提供してきた。強化学習では、ある環境が与える課題を解決するために、いわゆるエージェントが挑戦される。エージェントは、環境を探索し、環境から得られる報酬を活用することで、タスクの解決を学ぶ。決定論的厳密なエポック環境のような古典的なタスク環境では、類似した量子環境を構築し、量子アルゴリズムを適用することで報酬を2次的に高速に見つけることができる。本稿では,この2次高速化と古典的エージェントのポリシー更新を組み合わせたハイブリッドエージェントの挙動を解析的に分析する。これにより、従来のエージェントに比べてハイブリッドエージェントの学習が速くなる。従来のエージェントが平均$\langle J \rangle$ rewards と $\langle T \rangle_c$ epochs でタスクの解決方法を学ぶ必要がある場合、ハイブリッドエージェントは平均$\langle T \rangle_q \leq \alpha \sqrt{\langle T \rangle_c \langle J \rangle}$ epochs を取る。ここで、$\alpha$は問題のサイズに依存しない定数を表す。さらに、もし環境が最大$\alpha_o k_\text{max}$シーケンシャルコヒーレント相互作用を許容するなら、例えばノイズ効果により、$\langle T \rangle_q \approx \alpha_o\langle T \rangle_c/4 k_\text{max}$で与えられる改善が引き続き可能であることを証明している。

関連論文リスト

Quantum reinforcement learning in dynamic environments [0.0]
量子アクセス性強化学習のためのハイブリッドエージェントは、特定の学習問題に対するサンプル複雑性の2次的高速化を実現する。本研究では,ハイブリッドエージェントの動的RL環境への適用性について検討する。以上の結果から, 修飾ハイブリッド剤は環境変化に迅速に適応できる可能性が示唆された。
論文参考訳（メタデータ） (2025-07-02T13:17:51Z)
Policy-Based Radiative Transfer: Solving the $2$-Level Atom Non-LTE Problem using Soft Actor-Critic Reinforcement Learning [0.0]
本稿では,古典的2レベル原子非LTE放射伝達問題の解法として,新しい強化学習法を提案する。エージェントのポリシーは、放射移動エンジンとの報酬ベースの相互作用によって完全に最適化される。実験を通して、単純なフィードフォワードニューラルネットワークは、SEに対して、おそらく問題の移動目標の性質のために、厳密に訓練されただけでは解決できないことを示す。
論文参考訳（メタデータ） (2025-04-22T08:03:09Z)
Near-Optimal Online Learning for Multi-Agent Submodular Coordination: Tight Approximation and Communication Efficiency [52.60557300927007]
離散部分モジュラー問題を連続的に最適化するために,$textbfMA-OSMA$アルゴリズムを提案する。また、一様分布を混合することによりKLの発散を効果的に活用する、プロジェクションフリーな$textbfMA-OSEA$アルゴリズムも導入する。我々のアルゴリズムは最先端OSGアルゴリズムによって提供される$(frac11+c)$-approximationを大幅に改善する。
論文参考訳（メタデータ） (2025-02-07T15:57:56Z)
Mean-Field Sampling for Cooperative Multi-Agent Reinforcement Learning [4.899818550820576]
マルチエージェント強化学習のための新しいアルゴリズムを提案する。この学習されたポリシーは、サブサンプルエージェントの数が増加するにつれて、$tildeO (1/sqrtk)$の順序で最適ポリシーに収束することを示す。
論文参考訳（メタデータ） (2024-12-01T03:45:17Z)
Near-Optimal Dynamic Regret for Adversarial Linear Mixture MDPs [63.47351876442425]
本研究は,完全情報フィードバックの下で,相変わらずの相変わらずの線形混合MDPについて検討した。本稿では,占領率に基づく手法と政策に基づく手法の利点を組み合わせた新しいアルゴリズムを提案する。我々のアルゴリズムは$widetildemathcalO(d sqrtH3 K + sqrtHK(H + barP_K$)$ dynamic regret, ここで$d$は特徴次元である。
論文参考訳（メタデータ） (2024-11-05T13:55:52Z)
Cooperative Multi-Agent Constrained Stochastic Linear Bandits [2.099922236065961]
N$エージェントのネットワークがローカルに通信し、期待されるコストを所定の閾値$tau$で保持しながら、全体的な後悔を最小限に抑える。我々は、textitMA-OPLBと呼ばれる安全な分散上信頼度有界アルゴリズムを提案し、そのT$ラウンドの後悔に基づく高い確率を確立する。我々の後悔の限界は次数$ MathcalOleft(fracdtau-c_0fraclog(NT)2sqrtNsqrtTlog (1/|lambda|)であることを示す。
論文参考訳（メタデータ） (2024-10-22T19:34:53Z)
Reinforcement Learning with Quasi-Hyperbolic Discounting [2.3999111269325266]
準双曲(QH)割引は、このバイアスをモデル化するための単純な代替手段である。我々の研究は、強化学習の実践的応用を著しく前進させる。
論文参考訳（メタデータ） (2024-09-16T06:00:42Z)
Stochastic Q-learning for Large Discrete Action Spaces [79.1700188160944]
離散的な行動空間を持つ複雑な環境では、強化学習(RL)において効果的な意思決定が重要である我々は、$n$アクションの集合全体を最適化するのとは対照的に、おそらく$mathcalO(log(n)$)$のような変数の集合のみを考える。提示された値ベースのRL手法には、Q-learning、StochDQN、StochDDQNなどが含まれる。
論文参考訳（メタデータ） (2024-05-16T17:58:44Z)
Energy-Guided Continuous Entropic Barycenter Estimation for General Costs [95.33926437521046]
任意のOTコスト関数に対して連続的エントロピーOT(EOT)バリセンタを近似する新しいアルゴリズムを提案する。本手法は、弱いOTに基づくEOT問題の二重再構成に基づいている。
論文参考訳（メタデータ） (2023-10-02T11:24:36Z)
Optimal Horizon-Free Reward-Free Exploration for Linear Mixture MDPs [60.40452803295326]
線形マルコフ決定過程(MDP)を学習するための新たな報酬なしアルゴリズムを提案する。我々のアルゴリズムの核心は、探索駆動の擬似回帰を用いた不確実性重み付き値目標回帰である。我々のアルゴリズムは$tilde O(d2varepsilon-2)$ episodesを探索するだけで、$varepsilon$-optimal policyを見つけることができる。
論文参考訳（メタデータ） (2023-03-17T17:53:28Z)
Free Job-Shop Scheduling With Hardcoded Constraints [0.0]
同様に構築されたミキサーの所望の特性は、純粋に古典的な対象に直接リンク可能であることを示す。より自然にグループ構造を組み込む新しい変分量子アルゴリズムを提案する。
論文参考訳（メタデータ） (2022-11-10T19:25:20Z)
Simultaneously Learning Stochastic and Adversarial Bandits under the Position-Based Model [9.945948163150874]
本研究は, 位置ベースモデルに基づくオンライン学習における課題のランク付けに関する研究である。提案アルゴリズムは,対向環境において$O(logT)$後悔を同時に達成し,対向環境において$O(msqrtnT)$後悔を同時に達成する。実験により,本アルゴリズムは,既存手法と競合する環境下で同時に学習できることが確認された。
論文参考訳（メタデータ） (2022-07-12T10:00:14Z)
Quantum Algorithms for Reinforcement Learning with a Generative Model [16.168901236223117]
強化学習は、エージェントがその累積報酬を最大化するために環境とどのように相互作用するかを研究する。最適ポリシー(pi*$)、最適値関数(v*$)、最適値関数(q*$)を近似する量子アルゴリズムを設計する。一致する量子下界を証明して、q*$を計算するための量子アルゴリズムが最適であることを示す。
論文参考訳（メタデータ） (2021-12-15T19:51:49Z)
Anti-Concentrated Confidence Bonuses for Scalable Exploration [57.91943847134011]
固有の報酬は、探検と探検のトレードオフを扱う上で中心的な役割を果たす。楕円ボーナスを効率的に近似するためのエンファンティ集中型信頼境界を導入する。我々は,Atariベンチマーク上での現代固有の報酬と競合する,深層強化学習のための実用的な変種を開発する。
論文参考訳（メタデータ） (2021-10-21T15:25:15Z)
On Reward-Free RL with Kernel and Neural Function Approximations: Single-Agent MDP and Markov Game [140.19656665344917]
エージェントが事前に特定された報酬関数を使わずに環境を徹底的に探索することを目的とした報酬のないRL問題について検討する。関数近似の文脈でこの問題に取り組み、強力な関数近似器を活用する。我々は、カーネルとニューラルファンクション近似器を用いた、証明可能な効率の良い報酬なしRLアルゴリズムを確立した。
論文参考訳（メタデータ） (2021-10-19T07:26:33Z)
Decentralized Cooperative Multi-Agent Reinforcement Learning with Exploration [35.75029940279768]
マルコフチーム(Markov team)において、最も基本的な協調環境でマルチエージェント強化学習を研究する。本稿では,各エージェントが独立してステージベースのVラーニングスタイルのアルゴリズムを実行するアルゴリズムを提案する。エージェントは、少なくとも$proptowidetildeO (1/epsilon4)$ episodesにおいて、$epsilon$-approximate Nash平衡ポリシーを学ぶことができる。
論文参考訳（メタデータ） (2021-10-12T02:45:12Z)
Navigating to the Best Policy in Markov Decision Processes [68.8204255655161]
マルコフ決定過程における純粋探索問題について検討する。エージェントはアクションを逐次選択し、結果のシステム軌道から可能な限り早くベストを目標とする。
論文参考訳（メタデータ） (2021-06-05T09:16:28Z)
Tightening the Dependence on Horizon in the Sample Complexity of Q-Learning [59.71676469100807]
この研究は、同期Q-ラーニングのサンプルの複雑さを、任意の$0varepsilon 1$に対して$frac|mathcalS| (1-gamma)4varepsilon2$の順序に絞る。計算やストレージを余分に必要とせずに、高速なq-learningにマッチするvanilla q-learningの有効性を明らかにした。
論文参考訳（メタデータ） (2021-02-12T14:22:05Z)
Finite-Time Analysis for Double Q-learning [50.50058000948908]
二重Q-ラーニングのための非漸近的有限時間解析を初めて提供する。同期と非同期の二重Q-ラーニングの両方が,グローバル最適化の$epsilon$-accurate近辺に収束することが保証されていることを示す。
論文参考訳（メタデータ） (2020-09-29T18:48:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。