論文の概要: Sample-efficient Model-based Reinforcement Learning for Quantum Control
- arxiv url: http://arxiv.org/abs/2304.09718v2
- Date: Mon, 2 Oct 2023 16:50:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-03 19:38:09.264850
- Title: Sample-efficient Model-based Reinforcement Learning for Quantum Control
- Title(参考訳): 量子制御のためのサンプル効率モデルベース強化学習
- Authors: Irtaza Khalid, Carrie A. Weidner, Edmond A. Jonckheere, Sophie G.
Shermer, Frank C. Langbein
- Abstract要約: ノイズの多い時間依存ゲート最適化のためのモデルベース強化学習(RL)手法を提案する。
標準モデルフリーRLに比べて,本手法のサンプル複雑性において,桁違いの優位性を示す。
提案アルゴリズムは,部分的特徴付き1量子ビット系と2量子ビット系の制御に適している。
- 参考スコア(独自算出の注目度): 0.2999888908665658
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a model-based reinforcement learning (RL) approach for noisy
time-dependent gate optimization with improved sample complexity over
model-free RL. Sample complexity is the number of controller interactions with
the physical system. Leveraging an inductive bias, inspired by recent advances
in neural ordinary differential equations (ODEs), we use an auto-differentiable
ODE parametrised by a learnable Hamiltonian ansatz to represent the model
approximating the environment whose time-dependent part, including the control,
is fully known. Control alongside Hamiltonian learning of continuous
time-independent parameters is addressed through interactions with the system.
We demonstrate an order of magnitude advantage in the sample complexity of our
method over standard model-free RL in preparing some standard unitary gates
with closed and open system dynamics, in realistic numerical experiments
incorporating single shot measurements, arbitrary Hilbert space truncations and
uncertainty in Hamiltonian parameters. Also, the learned Hamiltonian can be
leveraged by existing control methods like GRAPE for further gradient-based
optimization with the controllers found by RL as initializations. Our algorithm
that we apply on nitrogen vacancy (NV) centers and transmons in this paper is
well suited for controlling partially characterised one and two qubit systems.
- Abstract(参考訳): モデルフリーなRLに対するサンプル複雑性を改善した,ノイズの多い時間依存ゲート最適化のためのモデルベース強化学習(RL)手法を提案する。
サンプル複雑性は、物理システムとのコントローラインタラクションの数である。
ニューラル常微分方程式(ODE)の最近の進歩に触発された帰納バイアスを利用して、学習可能なハミルトンアンサッツによってパラメトリされた自己微分可能なODEを用いて、制御を含む時間依存部分が完全に知られている環境を近似するモデルを表現する。
連続時間非依存パラメータのハミルトン学習を伴う制御は、システムとの相互作用によって解決される。
実数値実験において, 単一ショット計測, 任意のヒルベルト空間切断, ハミルトンパラメータの不確かさを組み込んだ実数値実験において, 標準モデルフリー rl に対する本手法のサンプル複雑性における1桁の利点を実証した。
また、学習したハミルトニアンは、GRAPEのような既存の制御手法によって、RLが初期化として見いだした制御器によるさらなる勾配に基づく最適化に活用することができる。
本稿では,窒素空孔(NV)中心とトランスモンに応用したアルゴリズムについて述べる。
関連論文リスト
- Path-minimizing Latent ODEs for improved extrapolation and inference [0.0]
潜在ODEモデルは動的システムの柔軟な記述を提供するが、外挿と複雑な非線形力学の予測に苦労することがある。
本稿では、時間に依存しない潜在表現を奨励することで、この二分法を利用する。
遅延空間における一般的な変分ペナルティを各システムのパス長の$ell$ペナルティに置き換えることで、モデルは異なる構成のシステムと容易に区別できるデータ表現を学ぶ。
これにより、GRU、RNN、LSTM/デコーダによるベースラインODEモデルと比較して、より高速なトレーニング、より小さなモデル、より正確で長時間の外挿が可能となる。
論文 参考訳(メタデータ) (2024-10-11T15:50:01Z) - Random Features Approximation for Control-Affine Systems [6.067043299145924]
制御アフィン構造をキャプチャする非線形特徴表現の2つの新しいクラスを提案する。
提案手法はランダムな特徴(RF)近似を用いて,より少ない計算コストでカーネル手法の表現性を継承する。
論文 参考訳(メタデータ) (2024-06-10T17:54:57Z) - Online Variational Sequential Monte Carlo [49.97673761305336]
我々は,計算効率が高く正確なモデルパラメータ推定とベイジアン潜在状態推定を提供する変分連続モンテカルロ法(VSMC)を構築した。
オンラインVSMCは、パラメータ推定と粒子提案適応の両方を効率よく、完全にオンザフライで実行することができる。
論文 参考訳(メタデータ) (2023-12-19T21:45:38Z) - Sample Complexity of Kernel-Based Q-Learning [11.32718794195643]
任意に大規模に割引されたMDPにおいて,$epsilon$-optimal Policyを求める非パラメトリックQ-ラーニングアルゴリズムを提案する。
我々の知る限りでは、このような一般モデルの下では、有限サンプルの複雑さを示す最初の結果である。
論文 参考訳(メタデータ) (2023-02-01T19:46:25Z) - Deep Learning Approximation of Diffeomorphisms via Linear-Control
Systems [91.3755431537592]
我々は、制御に線形に依存する$dot x = sum_i=1lF_i(x)u_i$という形の制御系を考える。
対応するフローを用いて、コンパクトな点のアンサンブル上の微分同相写像の作用を近似する。
論文 参考訳(メタデータ) (2021-10-24T08:57:46Z) - Continuous-Time Model-Based Reinforcement Learning [4.427447378048202]
本稿では,新しいアクター・クリティック手法に基づく連続時間MBRLフレームワークを提案する。
我々は、連続時間制御システムを明確に解決する新しいODE-RLスイート上で、本手法を実装し、テストする。
論文 参考訳(メタデータ) (2021-02-09T11:30:19Z) - Gaussian Process-based Min-norm Stabilizing Controller for
Control-Affine Systems with Uncertain Input Effects and Dynamics [90.81186513537777]
本稿では,この問題の制御・アフィン特性を捉えた新しい化合物カーネルを提案する。
この結果の最適化問題は凸であることを示し、ガウス過程に基づく制御リャプノフ関数第二次コーンプログラム(GP-CLF-SOCP)と呼ぶ。
論文 参考訳(メタデータ) (2020-11-14T01:27:32Z) - Neural Control Variates [71.42768823631918]
ニューラルネットワークの集合が、積分のよい近似を見つけるという課題に直面していることを示す。
理論的に最適な分散最小化損失関数を導出し、実際に安定したオンライントレーニングを行うための代替の複合損失を提案する。
具体的には、学習した光場近似が高次バウンスに十分な品質であることを示し、誤差補正を省略し、無視可能な可視バイアスのコストでノイズを劇的に低減できることを示した。
論文 参考訳(メタデータ) (2020-06-02T11:17:55Z) - Adaptive Control and Regret Minimization in Linear Quadratic Gaussian
(LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。
LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文 参考訳(メタデータ) (2020-03-12T19:56:38Z) - Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。
また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文 参考訳(メタデータ) (2020-02-20T15:43:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。