論文の概要: Quantum reinforcement learning in dynamic environments
- arxiv url: http://arxiv.org/abs/2507.01691v1
- Date: Wed, 02 Jul 2025 13:17:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:23:00.250695
- Title: Quantum reinforcement learning in dynamic environments
- Title(参考訳): 動的環境における量子強化学習
- Authors: Oliver Sefrin, Manuel Radons, Lars Simon, Sabine Wölk,
- Abstract要約: 量子アクセス性強化学習のためのハイブリッドエージェントは、特定の学習問題に対するサンプル複雑性の2次的高速化を実現する。
本研究では,ハイブリッドエージェントの動的RL環境への適用性について検討する。
以上の結果から, 修飾ハイブリッド剤は環境変化に迅速に適応できる可能性が示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Combining quantum computing techniques in the form of amplitude amplification with classical reinforcement learning has led to the so-called "hybrid agent for quantum-accessible reinforcement learning", which achieves a quadratic speedup in sample complexity for certain learning problems. So far, this hybrid agent has only been applied to stationary learning problems, that is, learning problems without any time dependency within components of the Markov decision process. In this work, we investigate the applicability of the hybrid agent to dynamic RL environments. To this end, we enhance the hybrid agent by introducing a dissipation mechanism and, with the resulting learning agent, perform an empirical comparison with a classical RL agent in an RL environment with a time-dependent reward function. Our findings suggest that the modified hybrid agent can adapt its behavior to changes in the environment quickly, leading to a higher average success probability compared to its classical counterpart.
- Abstract(参考訳): 振幅増幅と古典的強化学習という形で量子コンピューティング技術を組み合わせることで、「量子アクセス性強化学習のためのハイブリッドエージェント」と呼ばれ、特定の学習問題に対するサンプル複雑性の2次的高速化を実現している。
これまでのところ、このハイブリッドエージェントは、マルコフ決定プロセスのコンポーネントに時間依存のない学習問題に対してのみ適用されてきた。
本研究では,ハイブリッドエージェントの動的RL環境への適用性について検討する。
この目的のために, 散逸機構を導入してハイブリッドエージェントを強化し, 学習エージェントとともに, 時間依存の報酬関数を持つRL環境において, 古典的RLエージェントと経験的比較を行う。
本研究は, 改良型ハイブリッド剤が環境変化に迅速に適応できることを示唆し, 従来の薬剤と比較して平均成功確率が高いことを示した。
関連論文リスト
- Predictability Shapes Adaptation: An Evolutionary Perspective on Modes of Learning in Transformers [51.992454203752686]
トランスフォーマーモデルは、IWL(In-weights Learning)とICL(In-context Learning)の2つの異なるモードで学習する。
我々は進化生物学の類似した適応戦略である遺伝的エンコーディングと表現型可塑性からインスピレーションを得ている。
我々はこれらの予測可能性の次元を実験的に運用し、トランスフォーマーのICL/IWLバランスへの影響について検討する。
論文 参考訳(メタデータ) (2025-05-14T23:31:17Z) - Uncertainty in Supply Chain Digital Twins: A Quantum-Classical Hybrid Approach [1.8031328949697987]
本研究では,量子古典型ハイブリッド機械学習(ML)モデルを用いた不確実性定量化(UQ)について検討する。
これは、量子コンピューティング技術がUQのデータ機能を、特に従来の方法と組み合わせることで、どのように変換できるかを示している。
論文 参考訳(メタデータ) (2024-11-15T15:02:35Z) - Provably Efficient Adiabatic Learning for Quantum-Classical Dynamics [4.381980584443765]
学習アルゴリズムを用いて量子古典的断熱力学を解析するための一般的な理論的枠組みを開発する。
量子情報理論を基礎として,対数的システムサイズサンプリングの複雑さを生かした,証明可能な効率の良いAdiabatic Learning (PEAL) アルゴリズムを開発した。
我々は,ホルシュタインモデル上でPEALをベンチマークし,シングルパスダイナミクスとアンサンブルダイナミクスの観測値の予測における精度と,ハミルトンの家系における伝達学習の精度を示す。
論文 参考訳(メタデータ) (2024-08-01T04:31:36Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Efficient Model-based Multi-agent Reinforcement Learning via Optimistic
Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。
自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文 参考訳(メタデータ) (2022-03-14T17:24:03Z) - Hybrid Learning for Orchestrating Deep Learning Inference in Multi-user
Edge-cloud Networks [3.7630209350186807]
ディープラーニングのためのコラボレーション型のエッジクラウドコンピューティングは、さまざまなパフォーマンスと効率を提供する。
ディープラーニング推論オーケストレーション戦略では、最適なオーケストレーションポリシを見つけるために強化学習を採用している。
我々は、最先端のRLベースの推論オーケストレーションを実験的に比較することで、HL戦略の有効性を実証する。
論文 参考訳(メタデータ) (2022-02-21T21:50:50Z) - Experimental quantum speed-up in reinforcement learning agents [0.17849902073068336]
強化学習(RL)は人工知能(AI)の重要なパラダイムである
本稿では,エージェントの学習を環境との量子通信チャネルを利用して促進するRL実験について述べる。
我々は,この学習プロトコルを,コンパクトで完全に調整可能な集積ナノフォトニックプロセッサ上に実装する。
論文 参考訳(メタデータ) (2021-03-10T19:01:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。