論文の概要: BCQQ: Batch-Constraint Quantum Q-Learning with Cyclic Data Re-uploading
- arxiv url: http://arxiv.org/abs/2305.00905v2
- Date: Mon, 18 Mar 2024 12:02:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-21 01:30:29.883315
- Title: BCQQ: Batch-Constraint Quantum Q-Learning with Cyclic Data Re-uploading
- Title(参考訳): BCQQ: 周期データ再アップロードによるバッチ制約量子Q-Learning
- Authors: Maniraman Periyasamy, Marc Hölle, Marco Wiedmann, Daniel D. Scherer, Axel Plinge, Christopher Mutschler,
- Abstract要約: 量子コンピューティングの最近の進歩は、量子モデルは古典的手法に比べて訓練に必要なデータが少ないことを示唆している。
離散バッチ制約深部Q-ラーニングアルゴリズムにおいて,VQCを関数近似器として利用するバッチRLアルゴリズムを提案する。
我々は,OpenAI CartPole環境におけるアルゴリズムの有効性を評価し,その性能を従来のニューラルネットワークに基づく離散BCQと比較した。
- 参考スコア(独自算出の注目度): 2.502222151305252
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep reinforcement learning (DRL) often requires a large number of data and environment interactions, making the training process time-consuming. This challenge is further exacerbated in the case of batch RL, where the agent is trained solely on a pre-collected dataset without environment interactions. Recent advancements in quantum computing suggest that quantum models might require less data for training compared to classical methods. In this paper, we investigate this potential advantage by proposing a batch RL algorithm that utilizes VQC as function approximators within the discrete batch-constraint deep Q-learning (BCQ) algorithm. Additionally, we introduce a novel data re-uploading scheme by cyclically shifting the order of input variables in the data encoding layers. We evaluate the efficiency of our algorithm on the OpenAI CartPole environment and compare its performance to the classical neural network-based discrete BCQ.
- Abstract(参考訳): 深層強化学習(DRL)は、しばしば大量のデータと環境の相互作用を必要とし、トレーニングプロセスに時間がかかる。
バッチRLでは、エージェントは環境の相互作用を伴わずに、事前にコンパイルされたデータセットにのみトレーニングされる。
量子コンピューティングの最近の進歩は、量子モデルは古典的手法に比べて訓練に必要なデータが少ないことを示唆している。
本稿では、離散バッチ制約深度Q-ラーニング(BCQ)アルゴリズムにおいて、VQCを関数近似器として利用するバッチRLアルゴリズムを提案する。
さらに,データエンコーディング層における入力変数の順序を周期的にシフトさせることにより,新しいデータ再ロード方式を導入する。
我々は,OpenAI CartPole環境におけるアルゴリズムの有効性を評価し,その性能を従来のニューラルネットワークに基づく離散BCQと比較した。
関連論文リスト
- Q-SFT: Q-Learning for Language Models via Supervised Fine-Tuning [62.984693936073974]
価値に基づく強化学習は、幅広いマルチターン問題に対する効果的なポリシーを学ぶことができる。
現在の値ベースのRL法は、特に大規模な言語モデルの設定にスケールすることが困難であることが証明されている。
本稿では,これらの欠点に対処する新しいオフラインRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-11-07T21:36:52Z) - Memory-Augmented Hybrid Quantum Reservoir Computing [0.0]
本稿では、量子計測の古典的後処理を通じてメモリを実装するハイブリッド量子古典的アプローチを提案する。
我々は、完全に連結されたIsingモデルとRydberg原子配列の2つの物理プラットフォーム上でモデルをテストした。
論文 参考訳(メタデータ) (2024-09-15T22:44:09Z) - Hype or Heuristic? Quantum Reinforcement Learning for Join Order Optimisation [5.373015313199384]
最適な結合順序(JO)を特定することは、データベースの研究とエンジニアリングにおいて重要な課題である。
近年, JO の強化学習 (RL) の研究開発に成功している。
本稿では,交互変分量子アンサッツに基づく量子強化学習(QRL)をJOに適用した新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-13T14:14:12Z) - Learning RL-Policies for Joint Beamforming Without Exploration: A Batch
Constrained Off-Policy Approach [1.0080317855851213]
本稿では,ネットワークにおけるパラメータキャンセル最適化の問題点について考察する。
探索と学習のために実世界でアルゴリズムをデプロイすることは、探索せずにデータによって達成できることを示す。
論文 参考訳(メタデータ) (2023-10-12T18:36:36Z) - BatchGFN: Generative Flow Networks for Batch Active Learning [80.73649229919454]
BatchGFNは、生成フローネットワークを使用してバッチ報酬に比例したデータポイントのセットをサンプリングする、プールベースのアクティブラーニングのための新しいアプローチである。
提案手法は,おもちゃの回帰問題において,1点当たり1回の前方通過で推定時間に近距離最適効用バッチをサンプリングすることを可能にした。
論文 参考訳(メタデータ) (2023-06-26T20:41:36Z) - Emulation Learning for Neuromimetic Systems [0.0]
ニューラル量子化システムに関する最近の研究に基づいて、量子化運動の学習結果とチャネルドロップアウトに対するレジリエンスを報告する。
本稿では,経路を学習するだけでなく,チャネルドロップアウトに対するレジリエンスの利点を示す一般のディープQネットワーク(DQN)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-05-04T22:47:39Z) - Quantum Imitation Learning [74.15588381240795]
本稿では、量子優位性を利用してILを高速化する量子模倣学習(QIL)を提案する。
量子行動クローニング(Q-BC)と量子生成逆模倣学習(Q-GAIL)という2つのQILアルゴリズムを開発した。
実験結果から,Q-BCとQ-GAILの両者が,従来のものと同等の性能を達成できることが判明した。
論文 参考訳(メタデータ) (2023-04-04T12:47:35Z) - A didactic approach to quantum machine learning with a single qubit [68.8204255655161]
我々は、データ再ロード技術を用いて、単一のキュービットで学習するケースに焦点を当てる。
我々は、Qiskit量子コンピューティングSDKを用いて、おもちゃと現実世界のデータセットに異なる定式化を実装した。
論文 参考訳(メタデータ) (2022-11-23T18:25:32Z) - Optimizing Tensor Network Contraction Using Reinforcement Learning [86.05566365115729]
本稿では,グラフニューラルネットワーク(GNN)と組み合わせた強化学習(RL)手法を提案する。
この問題は、巨大な検索スペース、重い尾の報酬分布、そして困難なクレジット割り当てのために非常に難しい。
GNNを基本方針として利用するRLエージェントが,これらの課題にどのように対処できるかを示す。
論文 参考訳(メタデータ) (2022-04-18T21:45:13Z) - Quantum agents in the Gym: a variational quantum algorithm for deep
Q-learning [0.0]
本稿では、離散的かつ連続的な状態空間に対するRLタスクを解くために使用できるパラメタライズド量子回路(PQC)のトレーニング手法を提案する。
量子Q学習エージェントのどのアーキテクチャ選択が、特定の種類の環境をうまく解決するのに最も重要であるかを検討する。
論文 参考訳(メタデータ) (2021-03-28T08:57:22Z) - Conservative Q-Learning for Offline Reinforcement Learning [106.05582605650932]
CQLは既存のオフラインRLメソッドよりも大幅に優れており、多くの場合、ファイナルリターンの2~5倍高いポリシを学習しています。
理論的には、CQLは現在のポリシーの価値の低いバウンダリを生成し、理論的改善保証を伴う政策学習手順に組み込むことができることを示す。
論文 参考訳(メタデータ) (2020-06-08T17:53:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。