Fugu-MT 論文翻訳(概要): Improving Bidding and Playing Strategies in the Trick-Taking game Wizard using Deep Q-Networks

論文の概要: Improving Bidding and Playing Strategies in the Trick-Taking game Wizard using Deep Q-Networks

arxiv url: http://arxiv.org/abs/2205.13834v1
Date: Fri, 27 May 2022 08:59:42 GMT
ステータス: 翻訳完了
システム内更新日: 2022-05-31 02:23:13.065212
Title: Improving Bidding and Playing Strategies in the Trick-Taking game Wizard using Deep Q-Networks
Title（参考訳）: ディープQ-ネットワークを用いたトリックタイキングゲームウィザードにおけるバイディングとプレイ戦略の改善
Authors: Jonas Schumacher, Marco Pleines
Abstract要約: 別々の入札・プレイフェーズを持つトリックテイクゲームWizardは、2つのインターリーブされた部分的に観測可能なマルコフ決定プロセス(POMDP)によってモデル化される。ディープQネットワークワークス(DQN)は、非定常環境の課題に対処できる自己改善エージェントの強化に使用される。訓練されたDQNエージェントは、ランダムなベースラインと規則に基づく非対称性の両方を残して、自己プレイの66%から87%の精度を達成する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this work, the trick-taking game Wizard with a separate bidding and playing phase is modeled by two interleaved partially observable Markov decision processes (POMDP). Deep Q-Networks (DQN) are used to empower self-improving agents, which are capable of tackling the challenges of a highly non-stationary environment. To compare algorithms between each other, the accuracy between bid and trick count is monitored, which strongly correlates with the actual rewards and provides a well-defined upper and lower performance bound. The trained DQN agents achieve accuracies between 66% and 87% in self-play, leaving behind both a random baseline and a rule-based heuristic. The conducted analysis also reveals a strong information asymmetry concerning player positions during bidding. To overcome the missing Markov property of imperfect-information games, a long short-term memory (LSTM) network is implemented to integrate historic information into the decision-making process. Additionally, a forward-directed tree search is conducted by sampling a state of the environment and thereby turning the game into a perfect information setting. To our surprise, both approaches do not surpass the performance of the basic DQN agent.
Abstract（参考訳）: 本研究では、別途入札とプレイのフェーズを持つトリックテイクゲームウィザードを、2つのインターリーブ部分可観測マルコフ決定プロセス(pomdp)によってモデル化する。ディープQネットワークワークス(DQN)は、非定常環境の課題に対処できる自己改善エージェントの強化に使用される。アルゴリズムを互いに比較するために、入札とトリックカウントの精度を監視し、実際の報酬と強く相関し、明確に定義された上と下のパフォーマンスバウンドを提供する。訓練されたDQNエージェントは、ランダムベースラインとルールベースのヒューリスティックの両方を残して、自己プレイの66%から87%の精度を達成する。また, 入札時のプレーヤ位置に関する強い情報非対称性も明らかにした。不完全情報ゲームのマルコフ特性を克服するため、長い短期記憶(LSTM)ネットワークを実装し、歴史的情報を意思決定プロセスに統合する。また、環境の状態をサンプリングし、ゲームが完全な情報設定になるようにして前方方向のツリー探索を行う。驚いたことに、どちらのアプローチも基本的なDQNエージェントの性能を超えない。

関連論文リスト

Online Competitive Information Gathering for Partially Observable Trajectory Games [24.25139588281181]
ゲーム理論エージェントは、相手に関する情報を最適に収集する計画を立てなければならない。我々は、軌道空間における競合情報収集行動を認めるPOSGの有限履歴/水平改良を定式化する。これらのゲームにおいて,状態空間の粒子ベース推定を活用し,グラデーションプレイを行う合理的な軌道計画を計算するためのオンライン手法を提案する。
論文参考訳（メタデータ） (2025-06-02T17:45:58Z)
Automatic Reward Shaping from Confounded Offline Data [69.11672390876763]
本稿では,DQN(Deep Q-Network)に基づいて,観測データのバイアスの解消に頑健な新しい強化学習アルゴリズムを提案する。提案手法は,12個のAtariゲームに対して適用され,観察された動作および目標ポリシーへの入力がミスマッチおよび観測されていない共同創設者が存在するすべてのゲームにおいて,標準DQNを一貫して支配していることがわかった。
論文参考訳（メタデータ） (2025-05-16T17:40:01Z)
SPC: Evolving Self-Play Critic via Adversarial Games for LLM Reasoning [99.645427839457]
セルフプレイ批判(Self-Play Critic、SPC)は、対戦型セルフプレイゲームを通じて推論ステップを評価する能力を進化させる新しいアプローチである。 SPCは、ベースモデルの2つのコピーを微調整して、2つの役割、すなわち「スニーキージェネレータ」と「批判的」を演じる。
論文参考訳（メタデータ） (2025-04-27T08:45:06Z)
Explainable and Interpretable Forecasts on Non-Smooth Multivariate Time Series for Responsible Gameplay [20.363472927691255]
Actionable Forecasting Network (AFN) は、3つの排他的目的に関連する相互依存的な課題に対処する。 AFNは、SOM-VAEベースのSOTAネットワークと比較して、プレイヤーデータ上の予測のMSEを25%改善する。
論文参考訳（メタデータ） (2025-04-03T11:49:24Z)
Dual Ensembled Multiagent Q-Learning with Hypernet Regularizer [62.01554688056335]
マルチエージェント設定における過大評価は、比較的ほとんど注目されていない。本稿では,超ネットワーク重みとバイアスに関する新しいハイパーネット正規化器を提案し,オンライングローバルQ-ネットワークの最適化を制約し,過大な推定の蓄積を防止する。
論文参考訳（メタデータ） (2025-02-04T05:14:58Z)
Bidding Games on Markov Decision Processes with Quantitative Reachability Objectives [3.4486432774139355]
本研究では,環境不確かさとエージェント間のオークションベースの相互作用を組み合わせた新しいグラフゲーム群について検討する。我々は、一般のMDPに対して、しきい値と最適なポリシーを近似するバリューイットアルゴリズムを考案する。しきい値の発見は、単純な確率的なゲームを解くのと同じくらい難しいことを示します。
論文参考訳（メタデータ） (2024-12-27T12:10:00Z)
Efficient Distribution Matching of Representations via Noise-Injected Deep InfoMax [73.03684002513218]
我々はDeep InfoMax(DIM)を拡張し、学習した表現を選択された事前分布に自動マッチングできるようにする。このような修正により、一様かつ通常に分散した表現を学習できることを示す。その結果,下流作業における性能とDMの品質の中間的なトレードオフが示唆された。
論文参考訳（メタデータ） (2024-10-09T15:40:04Z)
Competing for pixels: a self-play algorithm for weakly-supervised segmentation [7.416217935677032]
本稿では,領域のイメージセグメンテーションをゲーミフィケーションする新しいWSS手法を提案する。エージェントは、これらのパッチが枯渇するまでROIを含むパッチを選択します。この競争的な設定により、過剰または過小区分の最小化が保証される。
論文参考訳（メタデータ） (2024-05-26T17:00:17Z)
HSVI-based Online Minimax Strategies for Partially Observable Stochastic Games with Neural Perception Mechanisms [31.51588071503617]
ニューラル認知機構と非対称情報構造を持つ連続状態の部分観測可能なゲームの変種を考察する。 1つのエージェントは部分的な情報を持ち、もう1つのエージェントは状態に関する完全な知識を持っていると仮定される。本稿では,各エージェントに対して$varepsilon$-minimax戦略プロファイルを計算するための効率的なオンライン手法を提案する。
論文参考訳（メタデータ） (2024-04-16T15:58:20Z)
An Index Policy Based on Sarsa and Q-learning for Heterogeneous Smart Target Tracking [13.814608044569967]
我々は、長期追跡報酬を最大化するための新しいポリシー、すなわちISQを提案する。数値解析の結果,提案したISQポリシーは従来のQラーニング法よりも優れていた。
論文参考訳（メタデータ） (2024-02-19T10:13:25Z)
Auto-Encoding Bayesian Inverse Games [36.06617326128679]
ゲームの性質が不明な逆ゲーム問題を考える。既存の最大推定手法は、未知のパラメータの点推定のみを提供する。ベイズ的視点を採り、ゲームパラメータの後方分布を構成する。この構造化されたVAEは、観測された相互作用のラベルのないデータセットから訓練することができる。
論文参考訳（メタデータ） (2024-02-14T02:17:37Z)
DQ-LoRe: Dual Queries with Low Rank Approximation Re-ranking for In-Context Learning [66.85379279041128]
そこで本研究では,Dual Queries と Low-rank approximation Re- rank を利用して,文脈内学習のための例を自動選択するフレームワークを提案する。 DQ-LoRe は GPT-4 の自動選択において最先端の手法よりも優れ、92.5% から94.2% まで性能が向上した。
論文参考訳（メタデータ） (2023-10-04T16:44:37Z)
An Empirical Study on the Generalization Power of Neural Representations Learned via Visual Guessing Games [79.23847247132345]
本研究は,視覚質問応答(VQA)のような新しいNLP下流タスクにおいて,後から実行を依頼されたとき,人工エージェントが推測ゲームでどの程度の利益を得ることができるかを検討する。提案手法は,1) エージェントがうまく推理ゲームを模倣することを学習する教師あり学習シナリオ,2) エージェントが単独でプレイする新しい方法,すなわち,反復経験学習(SPIEL)によるセルフプレイ(Self-play)を提案する。
論文参考訳（メタデータ） (2021-01-31T10:30:48Z)
Information Freshness-Aware Task Offloading in Air-Ground Integrated Edge Computing Systems [49.80033982995667]
本稿では,空域統合マルチアクセスエッジコンピューティングシステムにおける情報更新性を考慮したタスクオフロードの問題について検討する。サードパーティのリアルタイムアプリケーションサービスプロバイダは、InPからの限られた通信と計算リソースで、加入したモバイルユーザ(MU)にコンピューティングサービスを提供する。本稿では,各MUに2つの個別の深度Q-networksを適用し,Q-factorと後Q-factorを近似する新しい深度強化学習手法を提案する。
論文参考訳（メタデータ） (2020-07-15T21:32:43Z)
Harvesting and Refining Question-Answer Pairs for Unsupervised QA [95.9105154311491]
教師なし質問回答(QA)を改善するための2つのアプローチを提案する。まず、ウィキペディアから語彙的・構文的に異なる質問を抽出し、質問応答対のコーパスを自動的に構築する(RefQAと名づけられる)。第2に、より適切な回答を抽出するためにQAモデルを活用し、RefQA上でデータを反復的に洗練する。
論文参考訳（メタデータ） (2020-05-06T15:56:06Z)
FairMOT: On the Fairness of Detection and Re-Identification in Multiple Object Tracking [92.48078680697311]
マルチオブジェクトトラッキング(MOT)はコンピュータビジョンにおいて重要な問題である。本稿では,FairMOTと呼ばれる,アンカーフリーなオブジェクト検出アーキテクチャCenterNetをベースとした,シンプルかつ効果的なアプローチを提案する。このアプローチは、検出と追跡の両方において高い精度を達成する。
論文参考訳（メタデータ） (2020-04-04T08:18:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。