論文の概要: Improving Bidding and Playing Strategies in the Trick-Taking game Wizard
using Deep Q-Networks
- arxiv url: http://arxiv.org/abs/2205.13834v1
- Date: Fri, 27 May 2022 08:59:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-31 02:23:13.065212
- Title: Improving Bidding and Playing Strategies in the Trick-Taking game Wizard
using Deep Q-Networks
- Title(参考訳): ディープQ-ネットワークを用いたトリックタイキングゲームウィザードにおけるバイディングとプレイ戦略の改善
- Authors: Jonas Schumacher, Marco Pleines
- Abstract要約: 別々の入札・プレイフェーズを持つトリックテイクゲームWizardは、2つのインターリーブされた部分的に観測可能なマルコフ決定プロセス(POMDP)によってモデル化される。
ディープQネットワークワークス(DQN)は、非定常環境の課題に対処できる自己改善エージェントの強化に使用される。
訓練されたDQNエージェントは、ランダムなベースラインと規則に基づく非対称性の両方を残して、自己プレイの66%から87%の精度を達成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, the trick-taking game Wizard with a separate bidding and
playing phase is modeled by two interleaved partially observable Markov
decision processes (POMDP). Deep Q-Networks (DQN) are used to empower
self-improving agents, which are capable of tackling the challenges of a highly
non-stationary environment. To compare algorithms between each other, the
accuracy between bid and trick count is monitored, which strongly correlates
with the actual rewards and provides a well-defined upper and lower performance
bound. The trained DQN agents achieve accuracies between 66% and 87% in
self-play, leaving behind both a random baseline and a rule-based heuristic.
The conducted analysis also reveals a strong information asymmetry concerning
player positions during bidding. To overcome the missing Markov property of
imperfect-information games, a long short-term memory (LSTM) network is
implemented to integrate historic information into the decision-making process.
Additionally, a forward-directed tree search is conducted by sampling a state
of the environment and thereby turning the game into a perfect information
setting. To our surprise, both approaches do not surpass the performance of the
basic DQN agent.
- Abstract(参考訳): 本研究では、別途入札とプレイのフェーズを持つトリックテイクゲームウィザードを、2つのインターリーブ部分可観測マルコフ決定プロセス(pomdp)によってモデル化する。
ディープQネットワークワークス(DQN)は、非定常環境の課題に対処できる自己改善エージェントの強化に使用される。
アルゴリズムを互いに比較するために、入札とトリックカウントの精度を監視し、実際の報酬と強く相関し、明確に定義された上と下のパフォーマンスバウンドを提供する。
訓練されたDQNエージェントは、ランダムベースラインとルールベースのヒューリスティックの両方を残して、自己プレイの66%から87%の精度を達成する。
また, 入札時のプレーヤ位置に関する強い情報非対称性も明らかにした。
不完全情報ゲームのマルコフ特性を克服するため、長い短期記憶(LSTM)ネットワークを実装し、歴史的情報を意思決定プロセスに統合する。
また、環境の状態をサンプリングし、ゲームが完全な情報設定になるようにして前方方向のツリー探索を行う。
驚いたことに、どちらのアプローチも基本的なDQNエージェントの性能を超えない。
関連論文リスト
- Efficient Distribution Matching of Representations via Noise-Injected Deep InfoMax [73.03684002513218]
我々はDeep InfoMax(DIM)を拡張し、学習した表現を選択された事前分布に自動マッチングできるようにする。
このような修正により、一様かつ通常に分散した表現を学習できることを示す。
その結果,下流作業における性能とDMの品質の中間的なトレードオフが示唆された。
論文 参考訳(メタデータ) (2024-10-09T15:40:04Z) - Competing for pixels: a self-play algorithm for weakly-supervised segmentation [7.416217935677032]
本稿では,領域のイメージセグメンテーションをゲーミフィケーションする新しいWSS手法を提案する。
エージェントは、これらのパッチが枯渇するまでROIを含むパッチを選択します。
この競争的な設定により、過剰または過小区分の最小化が保証される。
論文 参考訳(メタデータ) (2024-05-26T17:00:17Z) - HSVI-based Online Minimax Strategies for Partially Observable Stochastic Games with Neural Perception Mechanisms [31.51588071503617]
ニューラル認知機構と非対称情報構造を持つ連続状態の部分観測可能なゲームの変種を考察する。
1つのエージェントは部分的な情報を持ち、もう1つのエージェントは状態に関する完全な知識を持っていると仮定される。
本稿では,各エージェントに対して$varepsilon$-minimax戦略プロファイルを計算するための効率的なオンライン手法を提案する。
論文 参考訳(メタデータ) (2024-04-16T15:58:20Z) - An Index Policy Based on Sarsa and Q-learning for Heterogeneous Smart
Target Tracking [13.814608044569967]
我々は、長期追跡報酬を最大化するための新しいポリシー、すなわちISQを提案する。
数値解析の結果,提案したISQポリシーは従来のQラーニング法よりも優れていた。
論文 参考訳(メタデータ) (2024-02-19T10:13:25Z) - Auto-Encoding Bayesian Inverse Games [36.06617326128679]
ゲームの性質が不明な逆ゲーム問題を考える。
既存の最大推定手法は、未知のパラメータの点推定のみを提供する。
ベイズ的視点を採り、ゲームパラメータの後方分布を構成する。
この構造化されたVAEは、観測された相互作用のラベルのないデータセットから訓練することができる。
論文 参考訳(メタデータ) (2024-02-14T02:17:37Z) - DQ-LoRe: Dual Queries with Low Rank Approximation Re-ranking for
In-Context Learning [66.85379279041128]
そこで本研究では,Dual Queries と Low-rank approximation Re- rank を利用して,文脈内学習のための例を自動選択するフレームワークを提案する。
DQ-LoRe は GPT-4 の自動選択において最先端の手法よりも優れ、92.5% から94.2% まで性能が向上した。
論文 参考訳(メタデータ) (2023-10-04T16:44:37Z) - An Empirical Study on the Generalization Power of Neural Representations
Learned via Visual Guessing Games [79.23847247132345]
本研究は,視覚質問応答(VQA)のような新しいNLP下流タスクにおいて,後から実行を依頼されたとき,人工エージェントが推測ゲームでどの程度の利益を得ることができるかを検討する。
提案手法は,1) エージェントがうまく推理ゲームを模倣することを学習する教師あり学習シナリオ,2) エージェントが単独でプレイする新しい方法,すなわち,反復経験学習(SPIEL)によるセルフプレイ(Self-play)を提案する。
論文 参考訳(メタデータ) (2021-01-31T10:30:48Z) - Information Freshness-Aware Task Offloading in Air-Ground Integrated
Edge Computing Systems [49.80033982995667]
本稿では,空域統合マルチアクセスエッジコンピューティングシステムにおける情報更新性を考慮したタスクオフロードの問題について検討する。
サードパーティのリアルタイムアプリケーションサービスプロバイダは、InPからの限られた通信と計算リソースで、加入したモバイルユーザ(MU)にコンピューティングサービスを提供する。
本稿では,各MUに2つの個別の深度Q-networksを適用し,Q-factorと後Q-factorを近似する新しい深度強化学習手法を提案する。
論文 参考訳(メタデータ) (2020-07-15T21:32:43Z) - Harvesting and Refining Question-Answer Pairs for Unsupervised QA [95.9105154311491]
教師なし質問回答(QA)を改善するための2つのアプローチを提案する。
まず、ウィキペディアから語彙的・構文的に異なる質問を抽出し、質問応答対のコーパスを自動的に構築する(RefQAと名づけられる)。
第2に、より適切な回答を抽出するためにQAモデルを活用し、RefQA上でデータを反復的に洗練する。
論文 参考訳(メタデータ) (2020-05-06T15:56:06Z) - FairMOT: On the Fairness of Detection and Re-Identification in Multiple
Object Tracking [92.48078680697311]
マルチオブジェクトトラッキング(MOT)はコンピュータビジョンにおいて重要な問題である。
本稿では,FairMOTと呼ばれる,アンカーフリーなオブジェクト検出アーキテクチャCenterNetをベースとした,シンプルかつ効果的なアプローチを提案する。
このアプローチは、検出と追跡の両方において高い精度を達成する。
論文 参考訳(メタデータ) (2020-04-04T08:18:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。