論文の概要: Robust Quantum Control using Reinforcement Learning from Demonstration
- arxiv url: http://arxiv.org/abs/2503.21085v1
- Date: Thu, 27 Mar 2025 02:01:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-28 12:52:07.248514
- Title: Robust Quantum Control using Reinforcement Learning from Demonstration
- Title(参考訳): デモから強化学習を用いたロバスト量子制御
- Authors: Shengyong Li, Yidian Fan, Xiang Li, Xinhui Ruan, Qianchuan Zhao, Zhihui Peng, Re-Bing Wu, Jing Zhang, Pengtao Song,
- Abstract要約: システムモデルで生成された制御シーケンスを活用するために,Reinforcement Learning from Demonstration (RLfD) を用いる。
このアプローチはサンプル数を減らしてサンプル効率を高めることができ、トレーニング時間を著しく短縮することができる。
我々はRLfD法を用いて複数の高忠実度非古典状態の生成をシミュレートした。
- 参考スコア(独自算出の注目度): 13.321147424579065
- License:
- Abstract: Quantum control requires high-precision and robust control pulses to ensure optimal system performance. However, control sequences generated with a system model may suffer from model bias, leading to low fidelity. While model-free reinforcement learning (RL) methods have been developed to avoid such biases, training an RL agent from scratch can be time-consuming, often taking hours to gather enough samples for convergence. This challenge has hindered the broad application of RL techniques to larger and more complex quantum control issues, limiting their adaptability. In this work, we use Reinforcement Learning from Demonstration (RLfD) to leverage the control sequences generated with system models and further optimize them with RL to avoid model bias. By avoiding learning from scratch and starting with reasonable control pulse shapes, this approach can increase sample efficiency by reducing the number of samples, which can significantly reduce the training time. Thus, this method can effectively handle pulse shapes that are discretized into more than 1000 pieces without compromising final fidelity. We have simulated the preparation of several high-fidelity non-classical states using the RLfD method. We also find that the training process is more stable when using RLfD. In addition, this method is suitable for fast gate calibration using reinforcement learning.
- Abstract(参考訳): 量子制御は最適なシステム性能を確保するために高精度で堅牢な制御パルスを必要とする。
しかし、システムモデルで生成された制御シーケンスはモデルバイアスに悩まされ、忠実度が低い。
このようなバイアスを避けるためにモデルフリー強化学習法(RL)が開発されているが、RLエージェントをスクラッチから訓練するのは時間を要するため、しばしば収束のための十分なサンプルを集めるのに時間を要する。
この課題は、より大規模で複雑な量子制御問題へのRL技術の適用を妨げ、適応性を制限している。
本研究では,Reinforcement Learning from Demonstration (RLfD) を用いて,システムモデルで生成された制御シーケンスを活用し,モデルバイアスを回避するためにRLでそれらを最適化する。
スクラッチから学習を回避し、適切な制御パルス形状から始めることで、サンプル数を減らしてサンプル効率を向上させることができ、トレーニング時間を著しく短縮することができる。
これにより、最終的な忠実さを損なうことなく、1000個以上の小片に識別されたパルス形状を効果的に処理することができる。
我々はRLfD法を用いて複数の高忠実度非古典状態の生成をシミュレートした。
また、RLfDを使用する場合、トレーニングプロセスはより安定していることがわかった。
また、この方法は強化学習を用いた高速ゲート校正に適している。
関連論文リスト
- Controlling nonergodicity in quantum many-body systems by reinforcement learning [0.0]
量子非エルゴディティ制御のためのモデルフリー・ディープ強化学習フレームワークを開発した。
我々は, DRLエージェントが量子多体系を効率的に学習できることを実証するために, パラダイム的一次元傾斜Fermi-Hubbardシステムを用いた。
連続制御プロトコルと観測は実験的に実現可能である。
論文 参考訳(メタデータ) (2024-08-21T20:55:44Z) - Adding Conditional Control to Diffusion Models with Reinforcement Learning [68.06591097066811]
拡散モデルは、生成されたサンプルの特性を正確に制御できる強力な生成モデルである。
大規模なデータセットでトレーニングされたこれらの拡散モデルは成功したが、下流の微調整プロセスに新たな制御を導入する必要があることが多い。
本研究では、オフラインデータセットを用いた強化学習(RL)に基づく新しい制御手法を提案する。
論文 参考訳(メタデータ) (2024-06-17T22:00:26Z) - Self-STORM: Deep Unrolled Self-Supervised Learning for Super-Resolution Microscopy [55.2480439325792]
我々は、シーケンス固有のモデルベースのオートエンコーダをトレーニングすることで、そのようなデータの必要性を軽減する、深層無学習の自己教師付き学習を導入する。
提案手法は, 監視対象の性能を超過する。
論文 参考訳(メタデータ) (2024-03-25T17:40:32Z) - Non-Markovian Quantum Control via Model Maximum Likelihood Estimation
and Reinforcement Learning [0.0]
環境の非マルコフ的性質を低次元有効貯留層に組み込む新しい手法を提案する。
従来のトモグラフィ法よりも効率的な量子力学の学習に機械学習技術を用いる。
このアプローチはモデルバイアスの問題を緩和するだけでなく、量子力学のより正確な表現を提供する。
論文 参考訳(メタデータ) (2024-02-07T18:37:17Z) - Value function estimation using conditional diffusion models for control [62.27184818047923]
拡散値関数(DVF)と呼ばれる単純なアルゴリズムを提案する。
拡散モデルを用いて環境-ロボット相互作用の連成多段階モデルを学ぶ。
本稿では,DVFを用いて複数のコントローラの状態を効率よく把握する方法を示す。
論文 参考訳(メタデータ) (2023-06-09T18:40:55Z) - Direct Preference Optimization: Your Language Model is Secretly a Reward Model [119.65409513119963]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。
DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。
我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-29T17:57:46Z) - Sample-efficient Model-based Reinforcement Learning for Quantum Control [0.2999888908665658]
ノイズの多い時間依存ゲート最適化のためのモデルベース強化学習(RL)手法を提案する。
標準モデルフリーRLに比べて,本手法のサンプル複雑性において,桁違いの優位性を示す。
提案アルゴリズムは,部分的特徴付き1量子ビット系と2量子ビット系の制御に適している。
論文 参考訳(メタデータ) (2023-04-19T15:05:19Z) - Real-Time Model-Free Deep Reinforcement Learning for Force Control of a
Series Elastic Actuator [56.11574814802912]
最先端のロボットアプリケーションは、歩行、揚力、操作などの複雑なタスクを達成するために、閉ループ力制御を備えた連続弾性アクチュエータ(SEAs)を使用する。
モデルフリーPID制御法はSEAの非線形性により不安定になりやすい。
深層強化学習は連続制御タスクに有効なモデルレス手法であることが証明されている。
論文 参考訳(メタデータ) (2023-04-11T00:51:47Z) - A stabilizing reinforcement learning approach for sampled systems with
partially unknown models [0.0]
純粋オンライン学習環境におけるシステム制御器閉ループの実用的安定性を保証する手法を提案する。
要求された結果を達成するため、我々は古典的な適応制御技術を採用する。
この方法は適応的なトラクション制御とクルーズ制御でテストされ、コストを大幅に削減することが判明した。
論文 参考訳(メタデータ) (2022-08-31T09:20:14Z) - Supervised Advantage Actor-Critic for Recommender Systems [76.7066594130961]
本稿では、RL成分を学習するための負のサンプリング戦略を提案し、それを教師付き逐次学習と組み合わせる。
サンプル化された(負の)作用 (items) に基づいて、平均ケース上での正の作用の「アドバンテージ」を計算することができる。
SNQNとSA2Cを4つのシーケンシャルレコメンデーションモデルでインスタンス化し、2つの実世界のデータセットで実験を行う。
論文 参考訳(メタデータ) (2021-11-05T12:51:15Z) - Model-Free Quantum Control with Reinforcement Learning [0.0]
本研究では,量子制御タスクにおける強化学習エージェントをモデル無しで学習するための回路ベースアプローチを提案する。
実験可能な観測機器の測定値を用いて学習エージェントに報奨を与える方法を示す。
このアプローチは、サンプル効率の観点から、広く使われているモデルフリーメソッドよりも大幅に優れている。
論文 参考訳(メタデータ) (2021-04-29T17:53:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。