論文の概要: Multi-armed quantum bandits: Exploration versus exploitation when
learning properties of quantum states
- arxiv url: http://arxiv.org/abs/2108.13050v3
- Date: Mon, 20 Jun 2022 03:44:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-16 19:20:33.281844
- Title: Multi-armed quantum bandits: Exploration versus exploitation when
learning properties of quantum states
- Title(参考訳): マルチアーム量子バンディット:量子状態の学習特性における探索と活用
- Authors: Josep Lumbreras and Erkka Haapasalo and Marco Tomamichel
- Abstract要約: 量子状態の性質のオンライン学習における探索と利用のトレードオフについて検討する。
我々は,最適学習者が生み出すべき累積的後悔について,様々な情報理論の下限を提供する。
また、累積的後悔が利用可能な行動の数と基礎空間の次元に依存することについても検討する。
- 参考スコア(独自算出の注目度): 13.213490507208528
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We initiate the study of tradeoffs between exploration and exploitation in
online learning of properties of quantum states. Given sequential oracle access
to an unknown quantum state, in each round, we are tasked to choose an
observable from a set of actions aiming to maximize its expectation value on
the state (the reward). Information gained about the unknown state from
previous rounds can be used to gradually improve the choice of action, thus
reducing the gap between the reward and the maximal reward attainable with the
given action set (the regret). We provide various information-theoretic lower
bounds on the cumulative regret that an optimal learner must incur, and show
that it scales at least as the square root of the number of rounds played. We
also investigate the dependence of the cumulative regret on the number of
available actions and the dimension of the underlying space. Moreover, we
exhibit strategies that are optimal for bandits with a finite number of arms
and general mixed states.
- Abstract(参考訳): 量子状態の性質のオンライン学習における探索と搾取のトレードオフの研究を開始する。
未知の量子状態へのシーケンシャルなオラクルアクセスが与えられた場合、各ラウンドでは、状態(報酬)に対する期待値の最大化を目的とした一連のアクションから観測可能なものを選択することが義務付けられます。
前回のラウンドから得られた未知の状態に関する情報は、徐々に行動の選択を改善するために使用され、与えられたアクションセット(後悔)によって得られる報酬と最大報酬の間のギャップを減少させることができる。
最適学習者が必要となる累積後悔について,様々な情報理論の下限を提供し,少なくともラウンド数の平方根として拡張可能であることを示す。
また,利用可能な行動数と基礎となる空間の次元に対する累積的後悔の依存性についても検討した。
さらに,有限個の腕と一般的な混合状態を持つ包帯に対して最適な戦略を示す。
関連論文リスト
- Learning pure quantum states (almost) without regret [7.988085110283119]
学習者は、未知の純粋量子状態にシーケンシャルなオラクルアクセスを持つ。
学習者の目標は、予想される累積的後悔をT$ラウンドで最小化することである。
累積的後悔は,新しいトモグラフィーアルゴリズムを用いて$Theta(operatornamepolylog T)$とスケールすることを示す。
論文 参考訳(メタデータ) (2024-06-26T14:13:50Z) - Multi-Armed Bandits with Abstention [62.749500564313834]
本稿では, 新たな戦略要素である禁忌を取り入れた, 正準多重武装バンディット問題の拡張を提案する。
この強化されたフレームワークでは、エージェントは各タイムステップでアームを選択することだけでなく、観察する前に即時報酬を受け付けないオプションも備えている。
論文 参考訳(メタデータ) (2024-02-23T06:27:12Z) - Quantum steering from phase measurements with limited resources [0.20616237122336117]
量子ステアリング(quantum steering)は、アリス(Alice)が遠い位置にある状態の量子相関によって制御する能力を捉える。
この結果は,量子チャネルの検証にこのような気象学的アプローチを適用するためのガイドラインを提供する。
論文 参考訳(メタデータ) (2024-01-30T20:37:00Z) - Postselection-free learning of measurement-induced quantum dynamics [0.0]
状態の計測後のアンサンブルの性質を推測するために,汎用的なスキームを導入する。
即時的な応用として,実験における量子状態設計の出現を検証するために本手法が有用であることを示す。
論文 参考訳(メタデータ) (2023-10-06T11:06:06Z) - Stronger Quantum Speed Limit For Mixed Quantum States [0.0]
混合量子状態とユニタリ進化の強い不確実性関係を用いて、混合量子状態に対する量子速度制限を導出する。
このバウンダリは、より優れたバウンダリを得るために、演算子の異なる選択に対して最適化可能であることを示す。
論文 参考訳(メタデータ) (2023-07-05T11:44:57Z) - Quantum contextual bandits and recommender systems for quantum data [13.213490507208528]
本稿では,線形文脈帯域を用いた量子データの推薦システムについて検討する。
文脈がハミルトニアンである低エネルギー量子状態レコメンデーション問題を定式化する。
作用をモデルの異なる相として解釈すると、推奨は与えられたハミルトニアンの正しい相を分類することによって行われる。
論文 参考訳(メタデータ) (2023-01-31T10:17:53Z) - The power of noisy quantum states and the advantage of resource dilution [62.997667081978825]
絡み合った蒸留により、ノイズの多い量子状態が一重項に変換される。
エンタングルメント希釈は局所雑音に対する共有量子状態のレジリエンスを高めることができることを示す。
論文 参考訳(メタデータ) (2022-10-25T17:39:29Z) - Anticipative measurements in hybrid quantum-classical computation [68.8204255655161]
量子計算を古典的な結果によって補う手法を提案する。
予測の利点を生かして、新しいタイプの量子測度がもたらされる。
予測量子測定では、古典計算と量子計算の結果の組み合わせは最後にのみ起こる。
論文 参考訳(メタデータ) (2022-09-12T15:47:44Z) - Latent Bandits Revisited [55.88616813182679]
潜伏盗賊問題は、学習エージェントが未知の離散潜伏状態に条件付けられた腕の報酬分布を知知する問題である。
本稿では, 上位信頼境界(UCB)とトンプソンサンプリング(Thompson sample)の両方に基づいて, この設定のための一般的なアルゴリズムを提案する。
我々はアルゴリズムの統一的な理論的解析を行い、遅延状態の数がアクションよりも小さい場合、古典的なバンディットポリシーよりも後悔度が低い。
論文 参考訳(メタデータ) (2020-06-15T19:24:02Z) - Boundaries of quantum supremacy via random circuit sampling [69.16452769334367]
Googleの最近の量子超越性実験は、量子コンピューティングがランダムな回路サンプリングという計算タスクを実行する遷移点を示している。
観測された量子ランタイムの利点の制約を、より多くの量子ビットとゲートで検討する。
論文 参考訳(メタデータ) (2020-05-05T20:11:53Z) - Predictive Bandits [68.8204255655161]
我々は,予測的盗賊と呼ばれる,新たな盗賊問題を紹介し,研究する。
各ラウンドで、意思決定者はまず、特定の武器の報酬に関する情報を集めるかどうかを決定する。
意思決定者は、ラウンドで実際にプレイされる腕を選択する。
論文 参考訳(メタデータ) (2020-04-02T17:12:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。