論文の概要: Bandits roaming Hilbert space
- arxiv url: http://arxiv.org/abs/2509.24569v1
- Date: Mon, 29 Sep 2025 10:26:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.920208
- Title: Bandits roaming Hilbert space
- Title(参考訳): ヒルベルト空間をローミングするバンド
- Authors: Josep Lumbreras,
- Abstract要約: マルチアームバンディットを用いた量子状態の性質のオンライン学習における探索と利用のトレードオフについて検討する。
我々は,情報の理論的下界と,それに対応する上界の最適戦略を導出し,円の平方根として後悔のスケールを示す。
- 参考スコア(独自算出の注目度): 0.7614628596146601
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This thesis studies the exploration and exploitation trade-off in online learning of properties of quantum states using multi-armed bandits. Given streaming access to an unknown quantum state, in each round we select an observable from a set of actions to maximize its expectation value. Using past information, we refine actions to minimize regret; the cumulative gap between current reward and the maximum possible. We derive information-theoretic lower bounds and optimal strategies with matching upper bounds, showing regret typically scales as the square root of rounds. As an application, we reframe quantum state tomography to both learn the state efficiently and minimize measurement disturbance. For pure states and continuous actions, we achieve polylogarithmic regret using a sample-optimal algorithm based on a weighted online least squares estimator. The algorithm relies on the optimistic principle and controls the eigenvalues of the design matrix. We also apply our framework to quantum recommender systems and thermodynamic work extraction from unknown states. In this last setting, our results demonstrate an exponential advantage in work dissipation over tomography-based protocols.
- Abstract(参考訳): この論文は、マルチアームバンディットを用いた量子状態の性質のオンライン学習における探索と搾取のトレードオフを研究する。
未知の量子状態へのストリーミングアクセスが与えられた場合、各ラウンドで、期待値の最大化のために、一連のアクションから観測可能なものを選択する。
過去の情報を用いて、後悔を最小限に抑えるためにアクションを洗練し、現在の報酬と可能な限りの最大との累積的なギャップを埋める。
情報理論的な下界と、それに対応する上界を持つ最適戦略を導出し、典型的には、円の平方根としての後悔のスケールを示す。
応用として、量子状態トモグラフィーを再構成して、状態を効率的に学習し、測定障害を最小限に抑える。
純粋状態と連続行動に対して、重み付きオンライン最小二乗推定器に基づくサンプル最適アルゴリズムを用いて、多言語的後悔を実現する。
このアルゴリズムは楽観的な原理に依存し、設計行列の固有値を制御する。
量子レコメンデータシステムや未知の状態からの熱力学的作業抽出にも,我々の枠組みを適用した。
この最終設定では、トモグラフィーベースのプロトコルよりも仕事の散逸が指数関数的に有利であることを示す。
関連論文リスト
- Calibration of Quantum Devices via Robust Statistical Methods [45.464983015777314]
量子パラメータ学習の最先端技術に対するベイズ推論の高度な統計的手法を数値解析する。
既存のアプローチ、すなわち多モード性および高次元性において、これらのアプローチの利点を示す。
我々の発見は、オープン量子システムの力学を学習する量子キャラクタリゼーションの課題に応用できる。
論文 参考訳(メタデータ) (2025-07-09T15:22:17Z) - Scalable Policy Maximization Under Network Interference [46.16641537379657]
動的ネットワーク上での干渉下での最適政治学習について検討する。
干渉の構造に関する一般的な仮定では、報酬は線形となる。
我々は,新しい$n$ノードネットワークが各ラウンドで観測された場合に,ポリシーの影響を最大化するスケーラブルなトンプソンサンプリングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2025-05-23T17:19:12Z) - Correlating noise floor with magic and entanglement in Pauli product states [37.69303106863453]
パウリの積公式によって生成されるノイズの多い状態から、量子コンピューティングに特有の資源を回収する能力を示す。
純状態の忠実度は、与えられた計算のノイズフロアを表す。
各種の小型回路に対して,古典的影データを収集することにより,これらの知見を実験的に検証した。
論文 参考訳(メタデータ) (2025-05-07T19:24:00Z) - Quantum decision trees with information entropy [0.0]
本稿では,決定木法に着想を得た量子状態の分類アルゴリズムを提案する。
未知の量子状態で撮影された各測定値に対して、アルゴリズムは最も期待される情報ゲインで観測可能なものを選択し、収束するまで続く。
回路ベースの量子ニューラルネットワークには依存していないが、このアルゴリズムはいまだに不毛の高原問題に似た課題に直面している。
論文 参考訳(メタデータ) (2025-02-17T03:51:40Z) - Learning pure quantum states (almost) without regret [7.988085110283119]
本研究は,試料に最小限の歪みを有する試料-最適量子状態トモグラフィーの研究である。
サンプルの逐次測定によって量子状態の正確な記述を効率よく学べると同時に、サンプルの計測後の状態が最小限の摂動しか持たないことを確かめることができるか?
論文 参考訳(メタデータ) (2024-06-26T14:13:50Z) - A Score-Based Model for Learning Neural Wavefunctions [41.82403146569561]
スコアベースニューラルネットワークを用いて量子多体基底状態の物性を得るための新しいフレームワークを提供する。
我々の新しいフレームワークは明示的な確率分布を必要とせず、ランゲヴィン力学によるサンプリングを行う。
論文 参考訳(メタデータ) (2023-05-25T23:44:27Z) - PopArt: Efficient Sparse Regression and Experimental Design for Optimal
Sparse Linear Bandits [29.097522376094624]
そこで我々はPopArtと呼ばれる単純で効率的なスパース線形推定法を提案する。
我々は, 粗い線形バンディットアルゴリズムを導出し, 美術品の状態に対する後悔の上界の改善を享受する。
論文 参考訳(メタデータ) (2022-10-25T19:13:20Z) - Multi-armed quantum bandits: Exploration versus exploitation when
learning properties of quantum states [13.213490507208528]
量子状態の性質のオンライン学習における探索と利用のトレードオフについて検討する。
我々は,最適学習者が生み出すべき累積的後悔について,様々な情報理論の下限を提供する。
また、累積的後悔が利用可能な行動の数と基礎空間の次元に依存することについても検討する。
論文 参考訳(メタデータ) (2021-08-30T08:15:04Z) - Experimental Design for Regret Minimization in Linear Bandits [19.8309784360219]
オンライン・リニア・バンドレットにおける後悔を最小限に抑える設計に基づく新しいアルゴリズムを提案する。
我々は、現在最先端の有限時間後悔保証を提供し、このアルゴリズムが帯域幅と半帯域幅の両方のフィードバックシステムに適用可能であることを示す。
論文 参考訳(メタデータ) (2020-11-01T17:59:19Z) - Latent Bandits Revisited [55.88616813182679]
潜伏盗賊問題は、学習エージェントが未知の離散潜伏状態に条件付けられた腕の報酬分布を知知する問題である。
本稿では, 上位信頼境界(UCB)とトンプソンサンプリング(Thompson sample)の両方に基づいて, この設定のための一般的なアルゴリズムを提案する。
我々はアルゴリズムの統一的な理論的解析を行い、遅延状態の数がアクションよりも小さい場合、古典的なバンディットポリシーよりも後悔度が低い。
論文 参考訳(メタデータ) (2020-06-15T19:24:02Z) - More Practical and Adaptive Algorithms for Online Quantum State Learning [11.836183463815653]
本稿では,量子状態のオンライン学習を促進するアルゴリズムを開発する。
まず,Tallis-2エントロピーを用いた正規化Follow-the-Leader (RFTL) 法により,完全な後方視でO(sqrtMT)$の総損失が得られることを示す。
次に,古典的な調整学習率スケジュールに基づくパラメータフリーアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-01T15:17:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。