論文の概要: Reinforcement Learning for Charging Optimization of Inhomogeneous Dicke Quantum Batteries
- arxiv url: http://arxiv.org/abs/2511.12176v1
- Date: Sat, 15 Nov 2025 12:06:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 18:52:09.57739
- Title: Reinforcement Learning for Charging Optimization of Inhomogeneous Dicke Quantum Batteries
- Title(参考訳): 不均質ディック量子電池の充電最適化のための強化学習
- Authors: Xiaobin Song, Siyuan Bai, Da-Wei Wang, Hanxiao Tao, Xizhe Wang, Rebing Wu, Benben Jiang,
- Abstract要約: 本稿では,非均一なDicke電池に対する一括充電ポリシーを最適化するために強化学習を用いる。
完全可観測性は, 部分可観測性の下では, 単一TLSエネルギーやエネルギーのみにのみアクセスでき, 完全に観測されたベースラインの後方に1次平均遅延が生じる。
- 参考スコア(独自算出の注目度): 6.89478241013284
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Charging optimization is a key challenge to the implementation of quantum batteries, particularly under inhomogeneity and partial observability. This paper employs reinforcement learning to optimize piecewise-constant charging policies for an inhomogeneous Dicke battery. We systematically compare policies across four observability regimes, from full-state access to experimentally accessible observables (energies of individual two-level systems (TLSs), first-order averages, and second-order correlations). Simulation results demonstrate that full observability yields near-optimal ergotropy with low variability, while under partial observability, access to only single-TLS energies or energies plus first-order averages lags behind the fully observed baseline. However, augmenting partial observations with second-order correlations recovers most of the gap, reaching 94%-98% of the full-state baseline. The learned schedules are nonmyopic, trading temporary plateaus or declines for superior terminal outcomes. These findings highlight a practical route to effective fast-charging protocols under realistic information constraints.
- Abstract(参考訳): 充電最適化は、特に不均一性と部分可観測性の下で、量子電池の実装において重要な課題である。
本稿では,非均一なDicke電池に対する一括充電ポリシーを最適化するために強化学習を利用する。
実状態アクセスから実験的にアクセス可能な可観測性(TLS)、一階平均、二階相関)まで,4つの可観測性体制の政策を体系的に比較する。
シミュレーションの結果, 完全可観測性は, 部分可観測性では単一TLSエネルギと1次平均ラグにのみアクセス可能である一方で, 変動性の低いほぼ最適エルゴトロピーが得られることが示された。
しかし、2階相関による部分的な観測の増大はギャップの大半を回復させ、全州ベースラインの94%-98%に達する。
学習したスケジュールは、非ミソニックで、一時的な高原や、優れた端末結果の減少と引き換えに取引される。
これらの知見は,現実的な情報制約下での効率的な高速充電プロトコルへの実践的な道筋を示す。
関連論文リスト
- BAPO: Stabilizing Off-Policy Reinforcement Learning for LLMs via Balanced Policy Optimization with Adaptive Clipping [69.74252624161652]
適応クリッピング(BAPO)を用いたBAlanced Policy Optimizationを提案する。
BAPOはクリッピングバウンダリを動的に調整し、適応的に正と負のコントリビューションを再バランスさせ、エントロピーを保持し、RL最適化を安定化させる。
AIME 2024とAIME 2025ベンチマークでは、7B BAPOモデルがSkyWork-OR1-7Bのようなオープンソースモデルを上回っています。
論文 参考訳(メタデータ) (2025-10-21T12:55:04Z) - KerZOO: Kernel Function Informed Zeroth-Order Optimization for Accurate and Accelerated LLM Fine-Tuning [15.81250204481401]
本稿では,勾配推定バイアスの軽減を目的としたカーネル関数ベースのZOフレームワークを提案する。
KerZOOは既存のZOベースラインと同等または優れたパフォーマンスを実現している。
本稿では,カーネル関数がZO法における推定バイアスの低減に有効な方法であることを示す。
論文 参考訳(メタデータ) (2025-05-24T21:56:03Z) - Probability Estimation and Scheduling Optimization for Battery Swap Stations via LRU-Enhanced Genetic Algorithm and Dual-Factor Decision System [2.845879685273271]
本研究では,充電杭データに基づく確率推定モデルを提案し,9つのシナリオ固有の電池交換需要データセットを構築した。
これは、グローバル最適化機能を効果的に強化するガイド付き検索機構を組み込んでいる。
即時スワップ・アンド・チャージ戦略に対するベンチマークでは,最大で13.96%のコスト削減を実現している。
論文 参考訳(メタデータ) (2025-04-10T04:58:24Z) - ACCEPT: Diagnostic Forecasting of Battery Degradation Through Contrastive Learning [0.0]
この研究は、基本的なバッテリー劣化モデルを確立し、様々なバッテリータイプと運転条件の信頼性の高い予測を提供する。
我々の新しいフレームワークは、コントラスト学習を用いて、基礎となる物理劣化パラメータと観測可能な操作量との関係をマッピングする。
論文 参考訳(メタデータ) (2025-01-17T12:13:04Z) - Sample-Efficient Optimisation with Probabilistic Transformer Surrogates [66.98962321504085]
本稿では,ベイズ最適化における最先端確率変換器の適用可能性について検討する。
トレーニング手順と損失定義から生じる2つの欠点を観察し、ブラックボックス最適化のプロキシとして直接デプロイすることを妨げる。
1)非一様分散点を前処理するBO調整トレーニング,2)予測性能を向上させるために最適な定常点をフィルタする新しい近似後正則整定器トレードオフ精度と入力感度を導入する。
論文 参考訳(メタデータ) (2022-05-27T11:13:17Z) - Low-rank Optimal Transport: Approximation, Statistics and Debiasing [51.50788603386766]
フロゼットボン2021ローランで提唱された低ランク最適輸送(LOT)アプローチ
LOTは興味のある性質と比較した場合、エントロピー正則化の正当な候補と見なされる。
本稿では,これらの領域のそれぞれを対象とし,計算OTにおける低ランクアプローチの影響を補強する。
論文 参考訳(メタデータ) (2022-05-24T20:51:37Z) - Simple statistical models and sequential deep learning for Lithium-ion
batteries degradation under dynamic conditions: Fractional Polynomials vs
Neural Networks [1.8899300124593648]
リチウム イオン電池の長寿そして安全は電池の作動条件の有効な監視そして調節によって促進されます。
バッテリー管理システム上の状態の健康(SoH)監視のための迅速かつ正確なアルゴリズムを実装することが重要です。
本稿では,長期記憶ニューラルネットワークと多変量多項回帰の2つのデータ駆動手法を提案し,比較する。
論文 参考訳(メタデータ) (2021-02-16T12:26:23Z) - Finite Sample Analysis of Minimax Offline Reinforcement Learning:
Completeness, Fast Rates and First-Order Efficiency [83.02999769628593]
強化学習におけるオフ・ポリティィ・アセスメント(OPE)の理論的特徴について述べる。
ミニマックス法により、重みと品質関数の高速収束を実現することができることを示す。
非タブラル環境における1次効率を持つ最初の有限サンプル結果を示す。
論文 参考訳(メタデータ) (2021-02-05T03:20:39Z) - On the Convergence Rate of Projected Gradient Descent for a
Back-Projection based Objective [58.33065918353532]
我々は、最小二乗(LS)の代替として、バックプロジェクションに基づく忠実度項を考える。
LS項ではなくBP項を用いることで最適化アルゴリズムの繰り返しを少なくすることを示す。
論文 参考訳(メタデータ) (2020-05-03T00:58:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。