Fugu-MT 論文翻訳(概要): Strategizing against Q-learners: A Control-theoretical Approach

論文の概要: Strategizing against Q-learners: A Control-theoretical Approach

arxiv url: http://arxiv.org/abs/2403.08906v1
Date: Wed, 13 Mar 2024 18:54:27 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-15 22:37:06.324987
Title: Strategizing against Q-learners: A Control-theoretical Approach
Title（参考訳）: Q学習者に対する戦略化:制御理論的アプローチ
Authors: Yuksel Arslantas, Ege Yuceel, Muhammed O. Sayin,
Abstract要約: 戦略的に洗練されたエージェントが、相手のQラーニングアルゴリズムを知っていれば、どれだけの戦略的なQラーナーを活用できるかを定量化する。本稿では,連続状態空間に挑戦し,その性能を解析するための量子化に基づく近似手法を提案する。
参考スコア（独自算出の注目度）: 1.3927943269211591
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we explore the susceptibility of the Q-learning algorithm (a classical and widely used reinforcement learning method) to strategic manipulation of sophisticated opponents in games. We quantify how much a strategically sophisticated agent can exploit a naive Q-learner if she knows the opponent's Q-learning algorithm. To this end, we formulate the strategic actor's problem as a Markov decision process (with a continuum state space encompassing all possible Q-values) as if the Q-learning algorithm is the underlying dynamical system. We also present a quantization-based approximation scheme to tackle the continuum state space and analyze its performance both analytically and numerically.
Abstract（参考訳）: 本稿では,ゲームにおける高度な対戦相手の戦略的操作に対するQ-ラーニングアルゴリズム(古典的かつ広く用いられている強化学習法)の妥当性について検討する。戦略的に洗練されたエージェントが、相手のQラーニングアルゴリズムを知っていれば、どれだけの戦略的なQラーナーを活用できるかを定量化する。この目的のために、戦略アクターの問題をマルコフ決定過程(Q-ラーニングアルゴリズムが基礎となる力学系であるかのように、全てのQ-値を含む連続状態空間を含む)として定式化する。また、連続状態空間への量子化に基づく近似手法を提案し、解析的および数値的にその性能を解析する。

関連論文リスト

Online inductive learning from answer sets for efficient reinforcement learning exploration [52.03682298194168]
エージェントポリシーの近似を説明可能な近似を表す論理規則の集合を学習するために,帰納的な解集合プログラムの学習を利用する。次に、学習ルールに基づいて回答セット推論を行い、次のバッチで学習エージェントの探索をガイドします。本手法は,初回トレーニングにおいても,エージェントが達成した割引リターンを著しく向上させる。
論文参考訳（メタデータ） (2025-01-13T16:13:22Z)
Finite-Time Error Analysis of Soft Q-Learning: Switching System Approach [4.36117236405564]
ソフトQラーニングは、エントロピー正規化マルコフ決定問題を解くために設計されたQラーニングのバリエーションである。本稿では,ソフトQ-ラーニングアルゴリズムの有限時間制御理論解析を新規かつ統一的に提供することを目的とする。
論文参考訳（メタデータ） (2024-03-11T01:36:37Z)
Multi-Timescale Ensemble Q-learning for Markov Decision Process Policy Optimization [21.30645601474163]
元々のQ-ラーニングは、非常に大きなネットワークにわたるパフォーマンスと複雑性の課題に悩まされている。従来のQ-ラーニングに適応したモデルフリーアンサンブル強化学習アルゴリズムを提案する。計算結果から,提案アルゴリズムは平均ポリシエラーを最大55%,実行時複雑性を最大50%削減できることがわかった。
論文参考訳（メタデータ） (2024-02-08T08:08:23Z)
An Empirical Investigation of Value-Based Multi-objective Reinforcement Learning for Stochastic Environments [1.26404863283601]
本稿では、値ベースMORL Q-learningアルゴリズムがSER-Optimal Policyを学習する頻度に影響を与える要因について検討する。これらのアルゴリズムの安定性と収束性に対するノイズQ値推定問題の重大な影響を強調した。
論文参考訳（メタデータ） (2024-01-06T08:43:08Z)
Quantum Imitation Learning [74.15588381240795]
本稿では、量子優位性を利用してILを高速化する量子模倣学習(QIL)を提案する。量子行動クローニング(Q-BC)と量子生成逆模倣学習(Q-GAIL)という2つのQILアルゴリズムを開発した。実験結果から,Q-BCとQ-GAILの両者が,従来のものと同等の性能を達成できることが判明した。
論文参考訳（メタデータ） (2023-04-04T12:47:35Z)
Safe Multi-agent Learning via Trapping Regions [89.24858306636816]
我々は、動的システムの定性理論から知られているトラップ領域の概念を適用し、分散学習のための共同戦略空間に安全セットを作成する。本稿では,既知の学習力学を持つシステムにおいて,候補がトラップ領域を形成することを検証するための二分分割アルゴリズムと,学習力学が未知のシナリオに対するサンプリングアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-02-27T14:47:52Z)
Problem-Dependent Power of Quantum Neural Networks on Multi-Class Classification [83.20479832949069]
量子ニューラルネットワーク(QNN)は物理世界を理解する上で重要なツールとなっているが、その利点と限界は完全には理解されていない。本稿では,多クラス分類タスクにおけるQCの問題依存力について検討する。我々の研究はQNNの課題依存力に光を当て、その潜在的なメリットを評価するための実践的なツールを提供する。
論文参考訳（メタデータ） (2022-12-29T10:46:40Z)
IQ-Learn: Inverse soft-Q Learning for Imitation [95.06031307730245]
少数の専門家データからの模倣学習は、複雑な力学を持つ高次元環境では困難である。行動クローニングは、実装の単純さと安定した収束性のために広く使われている単純な方法である。本稿では,1つのQ-関数を学習することで,対向学習を回避する動的適応型ILを提案する。
論文参考訳（メタデータ） (2021-06-23T03:43:10Z)
On Information Asymmetry in Competitive Multi-Agent Reinforcement Learning: Convergence and Optimality [78.76529463321374]
協調的でない2つのQ-ラーニングエージェントの相互作用システムについて検討する。この情報非対称性は、集団学習の安定した結果をもたらす可能性があることを示す。
論文参考訳（メタデータ） (2020-10-21T11:19:53Z)
SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。 SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文参考訳（メタデータ） (2020-07-09T17:08:44Z)
Towards Understanding Cooperative Multi-Agent Q-Learning with Value Factorization [28.89692989420673]
因子化多エージェントQ-ラーニングを解析するための多エージェント適合Q-イテレーションフレームワークを形式化する。さらなる分析により、オンライン学習やよりリッチなジョイントバリュー関数クラスは、その局所的あるいは大域的収束特性を改善することができる。
論文参考訳（メタデータ） (2020-05-31T19:14:03Z)
Periodic Q-Learning [24.099046883918046]
いわゆる周期的Q-ラーニングアルゴリズム(略してPQ-ラーニング)について検討する。 PQ学習は、オンライン推定とターゲット推定の2つの別々のQ値推定を維持している。標準的なQ-ラーニングとは対照的に、PQ-ラーニングは単純な有限時間解析を楽しみ、エプシロン最適ポリシーを見つけるためのより良いサンプルを得る。
論文参考訳（メタデータ） (2020-02-23T00:33:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。