論文の概要: Strategizing against Q-learners: A Control-theoretical Approach
- arxiv url: http://arxiv.org/abs/2403.08906v1
- Date: Wed, 13 Mar 2024 18:54:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-15 22:37:06.324987
- Title: Strategizing against Q-learners: A Control-theoretical Approach
- Title(参考訳): Q学習者に対する戦略化:制御理論的アプローチ
- Authors: Yuksel Arslantas, Ege Yuceel, Muhammed O. Sayin,
- Abstract要約: 戦略的に洗練されたエージェントが、相手のQラーニングアルゴリズムを知っていれば、どれだけの戦略的なQラーナーを活用できるかを定量化する。
本稿では,連続状態空間に挑戦し,その性能を解析するための量子化に基づく近似手法を提案する。
- 参考スコア(独自算出の注目度): 1.3927943269211591
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we explore the susceptibility of the Q-learning algorithm (a classical and widely used reinforcement learning method) to strategic manipulation of sophisticated opponents in games. We quantify how much a strategically sophisticated agent can exploit a naive Q-learner if she knows the opponent's Q-learning algorithm. To this end, we formulate the strategic actor's problem as a Markov decision process (with a continuum state space encompassing all possible Q-values) as if the Q-learning algorithm is the underlying dynamical system. We also present a quantization-based approximation scheme to tackle the continuum state space and analyze its performance both analytically and numerically.
- Abstract(参考訳): 本稿では,ゲームにおける高度な対戦相手の戦略的操作に対するQ-ラーニングアルゴリズム(古典的かつ広く用いられている強化学習法)の妥当性について検討する。
戦略的に洗練されたエージェントが、相手のQラーニングアルゴリズムを知っていれば、どれだけの戦略的なQラーナーを活用できるかを定量化する。
この目的のために、戦略アクターの問題をマルコフ決定過程(Q-ラーニングアルゴリズムが基礎となる力学系であるかのように、全てのQ-値を含む連続状態空間を含む)として定式化する。
また、連続状態空間への量子化に基づく近似手法を提案し、解析的および数値的にその性能を解析する。
関連論文リスト
- Finite-Time Error Analysis of Soft Q-Learning: Switching System Approach [5.152147416671501]
ソフトQラーニングは、エントロピー正規化マルコフ決定問題を解くために設計されたQラーニングのバリエーションである。
本稿では,ソフトQ-ラーニングアルゴリズムの有限時間制御理論解析を新規かつ統一的に提供することを目的とする。
論文 参考訳(メタデータ) (2024-03-11T01:36:37Z) - Unifying (Quantum) Statistical and Parametrized (Quantum) Algorithms [65.268245109828]
我々はカーンズのSQオラクルとヴァリアントの弱い評価オラクルからインスピレーションを得ます。
評価クエリから学習するための非条件の下限を出力する,広範かつ直感的なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-26T18:23:21Z) - ShadowNet for Data-Centric Quantum System Learning [188.683909185536]
本稿では,ニューラルネットワークプロトコルと古典的シャドウの強みを組み合わせたデータ中心学習パラダイムを提案する。
ニューラルネットワークの一般化力に基づいて、このパラダイムはオフラインでトレーニングされ、これまで目に見えないシステムを予測できる。
量子状態トモグラフィーおよび直接忠実度推定タスクにおいて、我々のパラダイムのインスタンス化を示し、60量子ビットまでの数値解析を行う。
論文 参考訳(メタデータ) (2023-08-22T09:11:53Z) - QNEAT: Natural Evolution of Variational Quantum Circuit Architecture [95.29334926638462]
我々は、ニューラルネットワークの量子対する最も有望な候補として登場した変分量子回路(VQC)に注目した。
有望な結果を示す一方で、バレン高原、重みの周期性、アーキテクチャの選択など、さまざまな問題のために、VQCのトレーニングは困難である。
本稿では,VQCの重みとアーキテクチャの両方を最適化するために,自然進化にインスパイアされた勾配のないアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-14T08:03:20Z) - Quantum Imitation Learning [74.15588381240795]
本稿では、量子優位性を利用してILを高速化する量子模倣学習(QIL)を提案する。
量子行動クローニング(Q-BC)と量子生成逆模倣学習(Q-GAIL)という2つのQILアルゴリズムを開発した。
実験結果から,Q-BCとQ-GAILの両者が,従来のものと同等の性能を達成できることが判明した。
論文 参考訳(メタデータ) (2023-04-04T12:47:35Z) - A hybrid classical-quantum approach to speed-up Q-learning [0.0]
本稿では,古典的量子ハイブリッド手法を導入し,学習エージェントの決定過程における2次的性能向上を実現する。
特に、量子ルーチンが記述され、量子レジスタ上にエンコードされ、強化学習セットでアクション選択を駆動する確率分布が記述される。
論文 参考訳(メタデータ) (2022-05-16T14:49:16Z) - Finite Horizon Q-learning: Stability, Convergence and Simulations [0.0]
有限地平面マルコフ決定過程(MDP)のためのQ-ラーニングアルゴリズムのバージョンを開発する。
有限地平線Q-ラーニングの安定性と収束に関する解析は、常微分方程式(O.D.E)法に基づいている。
論文 参考訳(メタデータ) (2021-10-27T16:18:44Z) - IQ-Learn: Inverse soft-Q Learning for Imitation [95.06031307730245]
少数の専門家データからの模倣学習は、複雑な力学を持つ高次元環境では困難である。
行動クローニングは、実装の単純さと安定した収束性のために広く使われている単純な方法である。
本稿では,1つのQ-関数を学習することで,対向学習を回避する動的適応型ILを提案する。
論文 参考訳(メタデータ) (2021-06-23T03:43:10Z) - Deep Q-Learning: Theoretical Insights from an Asymptotic Analysis [3.9871041399267613]
ディープQラーニングは、よく知られたQ関数を近似するためにディープニューラルネットワークをトレーニングする、重要な強化学習アルゴリズムである。
実験室では非常に成功したが、理論と実践の深刻なギャップと正式な保証の欠如が現実世界での使用を妨げている。
本稿では、現実的な検証可能な仮定の下で、Deep Q-Learningの一般的なバージョンに関する理論的解析を行う。
論文 参考訳(メタデータ) (2020-08-25T07:59:20Z) - Momentum Q-learning with Finite-Sample Convergence Guarantee [49.38471009162477]
本稿では,有限サンプル保証を用いたモーメントに基づくQ-ラーニングアルゴリズムのクラスを解析する。
線形関数近似とマルコフサンプリングによるMomentumQの収束保証を確立する。
提案したMomentumQが他のモーメントベースのQ-ラーニングアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2020-07-30T12:27:03Z) - Periodic Q-Learning [24.099046883918046]
いわゆる周期的Q-ラーニングアルゴリズム(略してPQ-ラーニング)について検討する。
PQ学習は、オンライン推定とターゲット推定の2つの別々のQ値推定を維持している。
標準的なQ-ラーニングとは対照的に、PQ-ラーニングは単純な有限時間解析を楽しみ、エプシロン最適ポリシーを見つけるためのより良いサンプルを得る。
論文 参考訳(メタデータ) (2020-02-23T00:33:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。