論文の概要: Reinforcement learning entangling operations on spin qubits
- arxiv url: http://arxiv.org/abs/2508.14761v1
- Date: Wed, 20 Aug 2025 15:05:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-21 16:52:41.492914
- Title: Reinforcement learning entangling operations on spin qubits
- Title(参考訳): スピン量子ビット上のエンタングリング操作の強化学習
- Authors: Mohammad Abedi, Markus Schmitt,
- Abstract要約: 本稿では,半導体ベースのシングルトリップレット量子ビットに対するエンタングリングプロトコルを二重量子ドットで探索するための強化学習手法を提案する。
従来の勾配に基づく手法のモデルバイアスを回避しつつ,RLエージェントが実行プロトコルを生成できることを実証する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: High-fidelity control of one- and two-qubit gates past the error correction threshold is an essential ingredient for scalable quantum computing. We present a reinforcement learning (RL) approach to find entangling protocols for semiconductor-based singlet-triplet qubits in a double quantum dot. Despite the presence of realistically modelled experimental constraints, such as various noise contributions and finite rise-time effects, we demonstrate that an RL agent can yield performative protocols, while avoiding the model-biases of traditional gradient-based methods. We optimise our RL approach for different regimes and tasks, including training from simulated process tomography reconstruction of unitary gates, and investigate the nuances of RL agent design.
- Abstract(参考訳): 誤差補正しきい値を超える1ビットおよび2ビットゲートの高忠実度制御は、スケーラブルな量子コンピューティングにとって重要な要素である。
本稿では、半導体ベースのシングルトリップレット量子ビットを二重量子ドットでエンタングリングするプロトコルを見つけるための強化学習(RL)手法を提案する。
各種ノイズコントリビューションや有限上昇時間効果など,現実的にモデル化された実験的制約が存在するにもかかわらず,従来の勾配法ではモデルバイアスを回避しつつ,RLエージェントが実行プロトコルを生成できることを実証した。
シミュレーションプロセストモグラフィによる一元ゲートの再構成の訓練や,RLエージェント設計のニュアンスなど,RLのアプローチをさまざまな状況やタスクに最適化する。
関連論文リスト
- Controllable Exploration in Hybrid-Policy RLVR for Multi-Modal Reasoning [88.42566960813438]
CalibRLは、制御可能な探索と専門家のガイダンスをサポートするハイブリッド政治RLVRフレームワークである。
CalibRLは政策エントロピーを誘導的に増加させ、目標分布を明らかにする。
ドメイン内設定とドメイン外設定の両方を含む8つのベンチマークの実験は、一貫した改善を示している。
論文 参考訳(メタデータ) (2026-02-22T07:23:36Z) - Sample-Efficient Neurosymbolic Deep Reinforcement Learning [49.60927398960061]
本稿では,背景記号知識を統合し,サンプル効率を向上させるニューロシンボリックディープRL手法を提案する。
オンライン推論は2つのメカニズムを通じてトレーニングプロセスのガイドを行う。
我々は、最先端の報奨機ベースラインよりも優れた性能を示す。
論文 参考訳(メタデータ) (2026-01-06T09:28:53Z) - Achieving fast and robust perfect entangling gates via reinforcement learning [0.08030359871216612]
我々は、PEゲートを生成する近似パルス形状を発見するために強化学習技術を利用する。
RLエージェントのコレクションは、堅牢なシミュレーション環境で訓練され、効果的な制御戦略の特定を可能にする。
RLアプローチはハードウェアに依存しないため、様々な量子コンピューティングプラットフォームで広く適用可能である可能性がある。
論文 参考訳(メタデータ) (2025-11-10T13:07:19Z) - Training with Fewer Bits: Unlocking Edge LLMs Training with Stochastic Rounding [37.30928503608494]
量子化トレーニングは計算とメモリ効率を改善するが、量子化ノイズを導入する。
バッチサイズの増加は、バックプロパゲーション時の精度の低下を補うことができることを示す。
また、重みとアクティベーションの定量化が、異なる方法で勾配のばらつきに影響を与えることも示している。
論文 参考訳(メタデータ) (2025-11-02T09:49:34Z) - ConfClip: Confidence-Weighted and Clipped Reward for Reinforcement Learning in LLMs [32.13266235550995]
強化学習(RL)は、大規模言語モデル(LLM)の標準化の標準パラダイムとなっている。
人間の学習から得られた観察から着想を得て、検証可能な結果とモデル自身の信頼度推定を統合するRL手法を導入する。
論文 参考訳(メタデータ) (2025-09-22T13:00:35Z) - Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs [51.21041884010009]
Ring-liteは、強化学習(RL)により最適化されたMixture-of-Experts(MoE)ベースの大規模言語モデルである
我々のアプローチは、挑戦的なベンチマーク上でのSOTA(State-of-the-art)の小規模推論モデルの性能と一致する。
論文 参考訳(メタデータ) (2025-06-17T17:12:34Z) - Echo Chamber: RL Post-training Amplifies Behaviors Learned in Pretraining [74.83412846804977]
強化学習(RL)に基づく微調整は、訓練後の言語モデルにおいて重要なステップとなっている。
数理推論のためのRLファインタニングを、スクラッチから完全にトレーニングモデルを用いて体系的にエンドツーエンドに研究する。
論文 参考訳(メタデータ) (2025-04-10T17:15:53Z) - Symmetric Reinforcement Learning Loss for Robust Learning on Diverse Tasks and Model Scales [13.818149654692863]
強化学習(RL)トレーニングは、移動目標や高勾配分散などの要因により本質的に不安定である。
本研究では,雑音データに対する教師付き学習から逆クロスエントロピー(RCE)を適用し,対称的なRL損失を定義することにより,RLトレーニングの安定性を向上させる。
論文 参考訳(メタデータ) (2024-05-27T19:28:33Z) - Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。
本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:00:09Z) - Combining Reinforcement Learning and Tensor Networks, with an Application to Dynamical Large Deviations [0.0]
テンソルネットワーク(TN)と強化学習(RL)を統合するためのフレームワークを提案する。
我々は,RL問題に対するモデルフリーアプローチであるアクター批判法を考察し,そのポリシーと値関数の近似としてTNを導入する。
論文 参考訳(メタデータ) (2022-09-28T13:33:31Z) - Learning to Reweight Imaginary Transitions for Model-Based Reinforcement
Learning [58.66067369294337]
モデルが不正確または偏りがある場合、虚構軌跡はアクション値とポリシー関数を訓練するために欠落する可能性がある。
虚構遷移を適応的に再重み付けし, 未生成軌跡の負の効果を低減させる。
提案手法は,複数のタスクにおいて,最先端のモデルベースおよびモデルフリーなRLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2021-04-09T03:13:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。