論文の概要: Trainability issues in quantum policy gradients
- arxiv url: http://arxiv.org/abs/2406.09614v1
- Date: Thu, 13 Jun 2024 22:45:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-17 17:05:01.904824
- Title: Trainability issues in quantum policy gradients
- Title(参考訳): 量子ポリシー勾配におけるトレーサビリティ問題
- Authors: André Sequeira, Luis Paulo Santos, Luis Soares Barbosa,
- Abstract要約: 本研究では、強化学習における量子回路ベースのポリシーのトレーニング可能性について検討する。
急激な勾配と爆発を伴う標準バレン高原など,重要な課題が明らかとなった。
多くのアクションに対して、基底状態の連続的なパーティショニングが使用される場合、トレーニング可能なウィンドウを多数の測定で確保することができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This research explores the trainability of Parameterized Quantum circuit-based policies in Reinforcement Learning, an area that has recently seen a surge in empirical exploration. While some studies suggest improved sample complexity using quantum gradient estimation, the efficient trainability of these policies remains an open question. Our findings reveal significant challenges, including standard Barren Plateaus with exponentially small gradients and gradient explosion. These phenomena depend on the type of basis-state partitioning and mapping these partitions onto actions. For a polynomial number of actions, a trainable window can be ensured with a polynomial number of measurements if a contiguous-like partitioning of basis-states is employed. These results are empirically validated in a multi-armed bandit environment.
- Abstract(参考訳): 本研究では,最近経験的探索が急増したReinforcement Learning(強化学習)における量子回路のパラメータ化政策の訓練可能性について検討する。
量子勾配推定によるサンプルの複雑さの改善を示唆する研究もあるが、これらのポリシーの効率的な訓練性は未解決の問題である。
急激な勾配と傾斜爆発を伴う標準バレン高原など,大きな課題が指摘された。
これらの現象は基底状態のパーティショニングの種類に依存し、これらのパーティショニングをアクションにマッピングする。
多項式数の作用に対して、基底状態の連続的なパーティショニングが用いられる場合、トレーニング可能なウィンドウは多項式数の測定で確保できる。
これらの結果は、多腕バンディット環境で実証的に検証される。
関連論文リスト
- Quantum Policy Gradient in Reproducing Kernel Hilbert Space [3.8916312075738273]
パラメトリッド量子回路は、機械学習のための表現力とデータ効率の表現を提供する。
量子カーネルにおける量子回路の表現は量子教師あり学習において広く研究されている。
本稿では、量子環境における量子カーネルポリシーを用いたパラメトリックおよび非パラメトリックポリシー勾配とアクタークリティカルアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-11-11T01:34:10Z) - Metrological Characterization of Multipartite Continuous-Variable non-Gaussian Entanglement Structure [0.0]
本稿では,連続変数系における多部絡み構造の検出手法を提案する。
ランダムに生成した105ドル以上の多モード量子状態に対して,本手法の有効性を示す。
この研究は、様々な連続変数系における絡み合い構造を特徴づけるための一般的な枠組みを提供する。
論文 参考訳(メタデータ) (2024-08-22T17:11:13Z) - Combine and Conquer: A Meta-Analysis on Data Shift and Out-of-Distribution Detection [30.377446496559635]
本稿では,アウト・オブ・ディストリビューション(OOD)検出スコアをシームレスに組み合わせるための普遍的アプローチを提案する。
我々のフレームワークは、検出スコアにおける将来の発展にとって容易であり、この文脈で意思決定境界を結合する最初の手段である。
論文 参考訳(メタデータ) (2024-06-23T08:16:44Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Quantum Correlation Sharing: A Review On Recent Progress From
Nonlocality To Other Non-Classical Correlations [1.1829107401215722]
本稿では、逐次測定による量子相関共有の領域の最近の進歩を概説する。
非対称性」や「弱値」といった重要な視点は、様々なシナリオの詳細な分析を通じて精査される。
第4節では、ネットワーク非局所性、量子絡み合い、量子文脈性を含む多様な量子相関の共有について議論している。
論文 参考訳(メタデータ) (2024-02-07T08:36:29Z) - Optimizing Solution-Samplers for Combinatorial Problems: The Landscape
of Policy-Gradient Methods [52.0617030129699]
本稿では,DeepMatching NetworksとReinforcement Learningメソッドの有効性を解析するための新しい理論フレームワークを提案する。
我々の主な貢献は、Max- and Min-Cut、Max-$k$-Bipartite-Bi、Maximum-Weight-Bipartite-Bi、Traveing Salesman Problemを含む幅広い問題である。
本分析の副産物として,バニラ降下による新たな正則化プロセスを導入し,失効する段階的な問題に対処し,悪い静止点から逃れる上で有効であることを示す理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-10-08T23:39:38Z) - Benchmarking the Reliability of Post-training Quantization: a Particular
Focus on Worst-case Performance [53.45700148820669]
ポストトレーニング量子化(PTQ)は、独自のアーキテクチャやトレーニング手順を変更することなく、ディープニューラルネットワーク(DNN)を圧縮するための一般的な方法である。
その有効性と利便性にもかかわらず、分散シフトやデータノイズといった極端ケースの存在下でのPTQ手法の信頼性は明らかにされていない。
そこで本研究では,様々なPTQ手法を用いてこの問題について検討する。
論文 参考訳(メタデータ) (2023-03-23T02:55:50Z) - Guarantees for Epsilon-Greedy Reinforcement Learning with Function
Approximation [69.1524391595912]
エプシロングレーディ、ソフトマックス、ガウシアンノイズといった神秘的な探索政策は、いくつかの強化学習タスクにおいて効率的に探索することができない。
本稿では,このような政策を理論的に分析し,筋電図探索による強化学習のための最初の後悔とサンプル複雑度境界を提供する。
論文 参考訳(メタデータ) (2022-06-19T14:44:40Z) - Decimation technique for open quantum systems: a case study with
driven-dissipative bosonic chains [62.997667081978825]
量子系の外部自由度への不可避結合は、散逸(非単体)ダイナミクスをもたらす。
本稿では,グリーン関数の(散逸的な)格子計算に基づいて,これらのシステムに対処する手法を提案する。
本手法のパワーを,複雑性を増大させる駆動散逸型ボゾン鎖のいくつかの例で説明する。
論文 参考訳(メタデータ) (2022-02-15T19:00:09Z) - An Investigation of Replay-based Approaches for Continual Learning [79.0660895390689]
連続学習(CL)は機械学習(ML)の大きな課題であり、破滅的忘れ(CF)を伴わずに連続的に複数のタスクを学習する能力を記述する。
いくつかの解クラスが提案されており、その単純さと堅牢性から、いわゆるリプレイベースのアプローチは非常に有望であるように思われる。
連続学習におけるリプレイに基づくアプローチを実証的に検討し,応用の可能性を評価する。
論文 参考訳(メタデータ) (2021-08-15T15:05:02Z) - Quantum Sampling for Optimistic Finite Key Rates in High Dimensional
Quantum Cryptography [1.5469452301122175]
我々は、サンプリングベースのエントロピー不確実性関係を再検討し、より新しく、より強力な関係を導き、それらをソース非依存の量子乱数生成器や高次元量子鍵分布プロトコルに適用する。
これらのサンプリングに基づくエントロピー不確実性へのアプローチとその量子暗号への応用は、量子暗号システムのセキュリティの証明を導出する大きな可能性を秘めている。
論文 参考訳(メタデータ) (2020-12-08T01:32:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。