論文の概要: Extending a Quantum Reinforcement Learning Exploration Policy with Flags to Connect Four
- arxiv url: http://arxiv.org/abs/2505.04371v1
- Date: Wed, 07 May 2025 12:44:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-08 19:07:36.071819
- Title: Extending a Quantum Reinforcement Learning Exploration Policy with Flags to Connect Four
- Title(参考訳): フラッグで4つを繋ぐ量子強化学習探索政策の拡張
- Authors: Filipe Santos, João Paulo Fernandes, Luís Macedo,
- Abstract要約: 旗に基づく行動選択は、旗を用いて州空間の探索を改善する強化学習(RL)探索政策である。
本研究では,この手法をConnect Fourのコンテキストに適用し,その性能を異なる環境で研究する。
いずれのフラグ付き探査政策も、単純なエプシロングレーディ政策よりも明らかに優れていることを示す。
- 参考スコア(独自算出の注目度): 0.24106250158920464
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Action selection based on flags is a Reinforcement Learning (RL) exploration policy that improves the exploration of the state space through the use of flags, which can identify the most promising actions to take in each state. The quantum counterpart of this exploration policy further improves upon this by taking advantage of a quadratic speedup for sampling flagged actions. This approach has already been successfully employed for the game of Checkers. In this work, we describe the application of this method to the context of Connect Four, in order to study its performance in a different setting, which can lead to a better generalization of the technique. We also kept track of a metric that wasn't taken into account in previous work: the average number of iterations to obtain a flagged action. Since going second is a significant disadvantage in Connect Four, we also had the intent of exploring how this more complex scenario would impact the performance of our approach. The experiments involved training and testing classical and quantum RL agents that played either going first or going second against a Randomized Negamax opponent. The results showed that both flagged exploration policies were clearly superior to a simple epsilon-greedy policy. Furthermore, the quantum agents did in fact sample flagged actions in less iterations. Despite obtaining tagged actions more consistently, the win rates between the classical and quantum versions of the approach were identical, which could be due to the simplicity of the training scenario chosen.
- Abstract(参考訳): フラグに基づく行動選択は、各州で最も有望な行動を特定することができるフラグを使用して、州空間の探索を改善する強化学習(RL)探索ポリシーである。
この探索政策の量子的対応は、フラグ付きアクションのサンプリングに二次的なスピードアップを利用することにより、さらに改善される。
このアプローチはすでに、Checkersのゲームでうまく採用されています。
本研究では,この手法をConnect Fourのコンテキストに適用することにより,その性能を異なる環境で研究する。
以前の作業では考慮されていなかったメトリックも追跡した — フラグ付きのアクションを取得するための平均的なイテレーション数です。
第二に、Connect Fourでは大きな欠点があるので、このより複雑なシナリオがアプローチのパフォーマンスにどのように影響するかを探求する意図がありました。
実験では、古典的および量子的RLエージェントのトレーニングと試験が行われ、ランダム化されたネガマックス対決で第1位か第2位に進んだ。
その結果,2つのフラグ付き探査方針は,単純なエプシロン・グレーディ政策よりも明らかに優れていることがわかった。
さらに、量子エージェントは実際に、より少ないイテレーションでフラグの付いたアクションをサンプリングした。
タグ付けされた動作をより一貫して得るにもかかわらず、古典版と量子版の間の勝利率は同一であり、これは選択されたトレーニングシナリオの単純さによる可能性がある。
関連論文リスト
- Deterministic Exploration via Stationary Bellman Error Maximization [6.474106100512158]
探索は強化学習(RL)の重要かつ特異な側面である
本稿では,後者を安定させ,決定論的探索政策に到達するための3つの修正点を紹介する。
実験結果から,本手法は高密度かつスパースな報酬設定において,$varepsilon$-greedyよりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-10-31T11:46:48Z) - Reward Augmentation in Reinforcement Learning for Testing Distributed Systems [6.0560257343687995]
人気のある分散プロトコル実装のバグは、人気のあるインターネットサービスにおける多くのダウンタイムの源となっている。
本稿では,強化学習に基づく分散プロトコル実装のためのランダム化テスト手法について述べる。
お互いに構築する2つの異なるテクニックを示します。
論文 参考訳(メタデータ) (2024-09-02T15:07:05Z) - Bidirectional Decoding: Improving Action Chunking via Guided Test-Time Sampling [51.38330727868982]
動作チャンキングが学習者と実証者の間の分岐にどのように影響するかを示す。
動作チャンキングをクローズドループ適応でブリッジするテスト時間推論アルゴリズムである双方向デコーディング(BID)を提案する。
提案手法は、7つのシミュレーションベンチマークと2つの実世界のタスクにまたがって、最先端の2つの生成ポリシーの性能を向上させる。
論文 参考訳(メタデータ) (2024-08-30T15:39:34Z) - Guarantees for Epsilon-Greedy Reinforcement Learning with Function
Approximation [69.1524391595912]
エプシロングレーディ、ソフトマックス、ガウシアンノイズといった神秘的な探索政策は、いくつかの強化学習タスクにおいて効率的に探索することができない。
本稿では,このような政策を理論的に分析し,筋電図探索による強化学習のための最初の後悔とサンプル複雑度境界を提供する。
論文 参考訳(メタデータ) (2022-06-19T14:44:40Z) - Replay For Safety [51.11953997546418]
経験的なリプレイでは、過去の遷移はメモリバッファに格納され、学習中に再使用される。
適切なバイアスサンプリング方式を用いることで,エファンセーフなポリシーを実現できることを示す。
論文 参考訳(メタデータ) (2021-12-08T11:10:57Z) - Never Give Up: Learning Directed Exploration Strategies [63.19616370038824]
そこで我々は,多岐にわたる探索政策を学習し,ハード・サーベイ・ゲームを解決するための強化学習エージェントを提案する。
エージェントの最近の経験に基づいて,k-アネレスト隣人を用いたエピソード記憶に基づく本質的な報酬を構築し,探索政策を訓練する。
自己教師付き逆動力学モデルを用いて、近くのルックアップの埋め込みを訓練し、エージェントが制御できる新しい信号をバイアスする。
論文 参考訳(メタデータ) (2020-02-14T13:57:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。