論文の概要: Harnessing Environmental Memory with Reinforcement Learning in Open Quantum Systems
- arxiv url: http://arxiv.org/abs/2601.01252v1
- Date: Sat, 03 Jan 2026 18:22:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.145764
- Title: Harnessing Environmental Memory with Reinforcement Learning in Open Quantum Systems
- Title(参考訳): オープン量子システムにおける強化学習による環境記憶の調和
- Authors: Safae Gaidi, Abdallah Slaoui, Mohammed EL Falaki, Amine Jaouadi,
- Abstract要約: オープン量子系における非マルコフ記憶効果は、コヒーレンスを保ち、制御性を高めるための貴重な資源を提供する。
本稿では,2段階駆動システムにおける情報バックフローを自律的に増幅する強化学習フレームワークを提案する。
その結果、長期のモデルなし学習が分散バックフロー戦略をいかに自然に発見するかが示される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Non-Markovian memory effects in open quantum systems provide valuable resources for preserving coherence and enhancing controllability. However, exploiting them requires strategies adapted to history-dependent dynamics. We introduce a reinforcement-learning framework that autonomously learns to amplify information backflow in a driven two-level system coupled to a structured reservoir. Using a reward based on the positive time derivative of the trace distance associated with the Breuer-Laine-Piilo measure, we train PPO and SAC agents and benchmark their performance against gradient-based optimal control theory (OCT). While OCT enhances a single dominant backflow peak, RL policies broaden this revival and activate additional contributions in later memory windows, producing sustained positive trace-distance growth over a longer duration. Consequently, the integrated non-Markovianity achieved by RL substantially exceeds that obtained with OCT. These results demonstrate how long-horizon, model-free learning naturally uncovers distributed-backflow strategies and highlight the potential of reinforcement learning for engineering memory effects in open quantum systems.
- Abstract(参考訳): オープン量子系における非マルコフ記憶効果は、コヒーレンスを保ち、制御性を高めるための貴重な資源を提供する。
しかし、それらを利用するには歴史に依存した力学に適応した戦略が必要である。
本稿では,構造化貯水池に結合した2段階駆動システムにおいて,情報バックフローを自律的に増幅する強化学習フレームワークを提案する。
本稿では,Breuer-Laine-Piilo測度に関連するトレース距離の正の時間微分に基づく報酬を用いて,PPOおよびSACエージェントを訓練し,勾配に基づく最適制御理論(OCT)に対してそれらの性能をベンチマークする。
OCTは1つの支配的なバックフローピークを増大させるが、RLポリシーはこのリバイバルを拡大し、後のメモリウィンドウで追加のコントリビューションを活性化する。
したがって、RL によって達成される統合的非マルコビアン性は OCT で得られるものよりもかなり大きい。
これらの結果は、長期のモデルなし学習が分散バックフロー戦略を自然に発見し、オープン量子システムにおけるエンジニアリングメモリ効果に対する強化学習の可能性を明らかにするものである。
関連論文リスト
- Transfer learning strategies for accelerating reinforcement-learning-based flow control [0.0]
本研究では,カオス流体の多相性制御のための深部強化学習(DRL)を高速化するための伝達学習戦略について検討する。
DRLベースのフロー制御の文脈で、プログレッシブニューラルネットワーク(PNN)が初めて使用される。
PNNは、事前の知識を保存し、一貫した性能向上を提供することにより、安定かつ効率的な転送を可能にする。
論文 参考訳(メタデータ) (2025-10-15T09:52:06Z) - CurES: From Gradient Analysis to Efficient Curriculum Learning for Reasoning LLMs [53.749193998004166]
カリキュラム学習は,大規模言語モデルの学習効率を高める上で重要な役割を担っている。
収束を加速し,計算オーバーヘッドを最小限に抑えるためにベイズ後続推定を用いた効率的な学習法であるCurESを提案する。
論文 参考訳(メタデータ) (2025-10-01T15:41:27Z) - Benefits and Pitfalls of Reinforcement Learning for Language Model Planning: A Theoretical Perspective [52.38531288378491]
強化学習(RL)法は大規模言語モデル(LLM)の計画能力を大幅に向上させた
本研究では,RLの利点と制約をグラフに基づく抽出により検討する。
我々の理論的分析から, 教師付き微調整(SFT)は共起性に基づく突発性解を導入しうるが, RLは探索によって正しい計画を立てる。
論文 参考訳(メタデータ) (2025-09-26T17:39:48Z) - Learn the Ropes, Then Trust the Wins: Self-imitation with Progressive Exploration for Agentic Reinforcement Learning [41.90621652673528]
エージェントLLMを学習するためのカリキュラムベースの自己アニメーション学習(SIL)レシピであるSPEARを提案する。
具体的には,本手法は,本質的な報奨を生かして,技術レベルの探究を促進するためのカリキュラムを取り入れている。
さらにトレーニングを安定させるために、リプレイバッファでの経験の利点を再検討し、潜在的ポリシードリフトに対処する。
論文 参考訳(メタデータ) (2025-09-26T17:20:38Z) - Emergent Hierarchical Reasoning in LLMs through Reinforcement Learning [56.496001894673235]
強化学習(RL)は,大規模言語モデル(LLM)の複雑な推論能力の向上に有効であることが証明された。
解析の結果,アハモーメント,長さスケーリング,エントロピーのダイナミクスといったファズリング現象は異なる現象ではなく,創発的推論階層の目印であることがわかった。
論文 参考訳(メタデータ) (2025-09-03T18:52:49Z) - On-Policy RL Meets Off-Policy Experts: Harmonizing Supervised Fine-Tuning and Reinforcement Learning via Dynamic Weighting [91.38734024438357]
Supervised Fine-Tuning (SFT) と Reinforcement Learning (RL) は、大規模言語モデル(LLM)の能力の強化と振る舞いの整合化のための訓練後パラダイムである。
SFTとRLを統合する既存のアプローチは、確立された応答パターンを乱し、専門家データに過度に適合するリスクに直面することが多い。
動的重み付けによるオン・アンド・オフ・ポリティクス強化学習の制御可能な調和のためのフレームワークであるCHORDを提案する。
論文 参考訳(メタデータ) (2025-08-15T11:20:03Z) - Decomposing the Entropy-Performance Exchange: The Missing Keys to Unlocking Effective Reinforcement Learning [106.68304931854038]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデル(LLM)の推論能力を高めるために広く用いられている。
我々は,RLVRのエントロピー・パフォーマンス交換機構を,異なるレベルの粒度で系統的に解析する。
分析の結果, 上昇段階において, 負のサンプルのエントロピー減少は効果的な推論パターンの学習を促進することが明らかとなった。
プラトー段階では、学習効率は、低エントロピーのサンプルに存在する高エントロピートークンと、シーケンスの終端に位置するトークンと強く相関する。
論文 参考訳(メタデータ) (2025-08-04T10:08:10Z) - Efficient and Flexible Neural Network Training through Layer-wise Feedback Propagation [49.44309457870649]
レイヤワイドフィードバックフィードバック(LFP)は、ニューラルネットワークのような予測器のための新しいトレーニング原則である。
LFPはそれぞれの貢献に基づいて個々のニューロンに報酬を分解する。
提案手法は,ネットワークの有用な部分と有害な部分の弱体化を両立させる手法である。
論文 参考訳(メタデータ) (2023-08-23T10:48:28Z) - Improving Performance in Continual Learning Tasks using Bio-Inspired
Architectures [4.2903672492917755]
我々は,シナプスの可塑性機構とニューロ変調を組み込んだ,生物学的にインスパイアされた軽量ニューラルネットワークアーキテクチャを開発した。
提案手法により,Split-MNIST,Split-CIFAR-10,Split-CIFAR-100データセット上でのオンライン連続学習性能が向上する。
さらに,鍵設計概念を他のバックプロパゲーションに基づく連続学習アルゴリズムに統合することにより,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2023-08-08T19:12:52Z) - Posterior Sampling for Deep Reinforcement Learning [0.0]
本稿では, 深層強化学習のための後方サンプリング (PSDRL) について紹介する。
Atariベンチマークの実験では、PSDRLは後方サンプリングをスケールアップする従来の最先端の試行を著しく上回っている。
論文 参考訳(メタデータ) (2023-04-30T13:23:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。