論文の概要: Quantum reinforcement learning in dynamic environments
- arxiv url: http://arxiv.org/abs/2507.01691v1
- Date: Wed, 02 Jul 2025 13:17:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:23:00.250695
- Title: Quantum reinforcement learning in dynamic environments
- Title(参考訳): 動的環境における量子強化学習
- Authors: Oliver Sefrin, Manuel Radons, Lars Simon, Sabine Wölk,
- Abstract要約: 量子アクセス性強化学習のためのハイブリッドエージェントは、特定の学習問題に対するサンプル複雑性の2次的高速化を実現する。
本研究では,ハイブリッドエージェントの動的RL環境への適用性について検討する。
以上の結果から, 修飾ハイブリッド剤は環境変化に迅速に適応できる可能性が示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Combining quantum computing techniques in the form of amplitude amplification with classical reinforcement learning has led to the so-called "hybrid agent for quantum-accessible reinforcement learning", which achieves a quadratic speedup in sample complexity for certain learning problems. So far, this hybrid agent has only been applied to stationary learning problems, that is, learning problems without any time dependency within components of the Markov decision process. In this work, we investigate the applicability of the hybrid agent to dynamic RL environments. To this end, we enhance the hybrid agent by introducing a dissipation mechanism and, with the resulting learning agent, perform an empirical comparison with a classical RL agent in an RL environment with a time-dependent reward function. Our findings suggest that the modified hybrid agent can adapt its behavior to changes in the environment quickly, leading to a higher average success probability compared to its classical counterpart.
- Abstract(参考訳): 振幅増幅と古典的強化学習という形で量子コンピューティング技術を組み合わせることで、「量子アクセス性強化学習のためのハイブリッドエージェント」と呼ばれ、特定の学習問題に対するサンプル複雑性の2次的高速化を実現している。
これまでのところ、このハイブリッドエージェントは、マルコフ決定プロセスのコンポーネントに時間依存のない学習問題に対してのみ適用されてきた。
本研究では,ハイブリッドエージェントの動的RL環境への適用性について検討する。
この目的のために, 散逸機構を導入してハイブリッドエージェントを強化し, 学習エージェントとともに, 時間依存の報酬関数を持つRL環境において, 古典的RLエージェントと経験的比較を行う。
本研究は, 改良型ハイブリッド剤が環境変化に迅速に適応できることを示唆し, 従来の薬剤と比較して平均成功確率が高いことを示した。
関連論文リスト
- Quantum LEGO Learning: A Modular Design Principle for Hybrid Artificial Intelligence [63.39968536637762]
古典的および量子的コンポーネントを再利用可能で構成可能な学習ブロックとして扱う学習フレームワークであるQuantum LEGO Learningを紹介します。
このフレームワーク内では、トレーニング済みの古典的ニューラルネットワークがフリーズ機能ブロックとして機能し、VQCはトレーニング可能な適応モジュールとして機能する。
我々は,学習誤差を近似と推定成分に分解するブロックワイズ一般化理論を開発した。
論文 参考訳(メタデータ) (2026-01-29T14:29:21Z) - Improving Deepfake Detection with Reinforcement Learning-Based Adaptive Data Augmentation [60.04281435591454]
CRDA(Curriculum Reinforcement-Learning Data Augmentation)は、マルチドメインの偽造機能を段階的にマスターするための検出器を導く新しいフレームワークである。
私たちのアプローチの中心は、強化学習と因果推論を統合することです。
提案手法は検出器の一般化性を大幅に向上し,複数のクロスドメインデータセット間でSOTA法より優れている。
論文 参考訳(メタデータ) (2025-11-10T12:45:52Z) - From Pheromones to Policies: Reinforcement Learning for Engineered Biological Swarms [0.0]
本研究では, フェロモンを介するセロモン凝集と強化学習(RL)の理論的等価性を確立する。
我々は,フェロモンが数学的に相互学習の更新を反映していることを示し,捕食作業を行う線虫群をモデル化した。
この結果から, 環境信号が外部メモリとして機能する分散RLプロセスは, スティグマイシン系が本質的にコード化されていることが示唆された。
論文 参考訳(メタデータ) (2025-09-24T13:16:35Z) - Continuous-Time Value Iteration for Multi-Agent Reinforcement Learning [27.73410730631346]
我々は物理インフォームドニューラルネットワークを用いてHJBに基づく値関数を大規模に近似する。
これにより勾配の忠実度が向上し、より正確な値とより強力なポリシー学習が得られる。
提案手法は,既存の連続時間ベースラインと複雑なマルチエージェント・ダイナミクスのスケールを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2025-09-11T04:12:50Z) - Predictability Shapes Adaptation: An Evolutionary Perspective on Modes of Learning in Transformers [51.992454203752686]
トランスフォーマーモデルは、IWL(In-weights Learning)とICL(In-context Learning)の2つの異なるモードで学習する。
我々は進化生物学の類似した適応戦略である遺伝的エンコーディングと表現型可塑性からインスピレーションを得ている。
我々はこれらの予測可能性の次元を実験的に運用し、トランスフォーマーのICL/IWLバランスへの影響について検討する。
論文 参考訳(メタデータ) (2025-05-14T23:31:17Z) - Uncertainty in Supply Chain Digital Twins: A Quantum-Classical Hybrid Approach [1.8031328949697987]
本研究では,量子古典型ハイブリッド機械学習(ML)モデルを用いた不確実性定量化(UQ)について検討する。
これは、量子コンピューティング技術がUQのデータ機能を、特に従来の方法と組み合わせることで、どのように変換できるかを示している。
論文 参考訳(メタデータ) (2024-11-15T15:02:35Z) - Provably Efficient Adiabatic Learning for Quantum-Classical Dynamics [4.381980584443765]
学習アルゴリズムを用いて量子古典的断熱力学を解析するための一般的な理論的枠組みを開発する。
量子情報理論を基礎として,対数的システムサイズサンプリングの複雑さを生かした,証明可能な効率の良いAdiabatic Learning (PEAL) アルゴリズムを開発した。
我々は,ホルシュタインモデル上でPEALをベンチマークし,シングルパスダイナミクスとアンサンブルダイナミクスの観測値の予測における精度と,ハミルトンの家系における伝達学習の精度を示す。
論文 参考訳(メタデータ) (2024-08-01T04:31:36Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Incorporating Neuro-Inspired Adaptability for Continual Learning in
Artificial Intelligence [59.11038175596807]
継続的な学習は、現実世界に強い適応性を持つ人工知能を強化することを目的としている。
既存の進歩は主に、破滅的な忘れを克服するために記憶安定性を維持することに焦点を当てている。
本稿では,学習の可塑性を改善するため,パラメータ分布の古い記憶を適切に減衰させる汎用的手法を提案する。
論文 参考訳(メタデータ) (2023-08-29T02:43:58Z) - Beyond Exponentially Fast Mixing in Average-Reward Reinforcement
Learning via Multi-Level Monte Carlo Actor-Critic [61.968469104271676]
本稿では,アクター・アクターとアクター・アクター・アクター・アルゴリズムに埋め込まれた平均報酬に対して,マルチレベルモンテカルロ推定器を用いて混合時間に適応したRL手法を提案する。
不安定な報酬を伴うRL問題において,安定性に要求される技術的条件の緩和効果が,実用上優れた性能に変換されることを実験的に示す。
論文 参考訳(メタデータ) (2023-01-28T04:12:56Z) - Efficient Model-based Multi-agent Reinforcement Learning via Optimistic
Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。
自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文 参考訳(メタデータ) (2022-03-14T17:24:03Z) - Hybrid Learning for Orchestrating Deep Learning Inference in Multi-user
Edge-cloud Networks [3.7630209350186807]
ディープラーニングのためのコラボレーション型のエッジクラウドコンピューティングは、さまざまなパフォーマンスと効率を提供する。
ディープラーニング推論オーケストレーション戦略では、最適なオーケストレーションポリシを見つけるために強化学習を採用している。
我々は、最先端のRLベースの推論オーケストレーションを実験的に比較することで、HL戦略の有効性を実証する。
論文 参考訳(メタデータ) (2022-02-21T21:50:50Z) - Experimental quantum speed-up in reinforcement learning agents [0.17849902073068336]
強化学習(RL)は人工知能(AI)の重要なパラダイムである
本稿では,エージェントの学習を環境との量子通信チャネルを利用して促進するRL実験について述べる。
我々は,この学習プロトコルを,コンパクトで完全に調整可能な集積ナノフォトニックプロセッサ上に実装する。
論文 参考訳(メタデータ) (2021-03-10T19:01:12Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。