論文の概要: Choose Your Battles: Distributed Learning Over Multiple Tug of War Games
- arxiv url: http://arxiv.org/abs/2509.20147v1
- Date: Wed, 24 Sep 2025 14:11:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 20:53:19.840897
- Title: Choose Your Battles: Distributed Learning Over Multiple Tug of War Games
- Title(参考訳): 戦いを選ぶ: 複数のタッグによる分散学習
- Authors: Siddharth Chandak, Ilai Bistritz, Nicholas Bambos,
- Abstract要約: N人のプレイヤーとK人のゲームが同時に行われる。
各プレイヤーは一度に1試合に出場する。
各ステップで、プレイヤーは、そのゲームに参加することを希望するゲームと、そのゲームに参加するアクションを決定する。
彼らの報酬は、同じゲームにいるすべてのプレイヤーの行動に依存する。
- 参考スコア(独自算出の注目度): 9.209325628613719
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Consider N players and K games taking place simultaneously. Each of these games is modeled as a Tug-of-War (ToW) game where increasing the action of one player decreases the reward for all other players. Each player participates in only one game at any given time. At each time step, a player decides the game in which they wish to participate in and the action they take in that game. Their reward depends on the actions of all players that are in the same game. This system of K games is termed `Meta Tug-of-War' (Meta-ToW) game. These games can model scenarios such as power control, distributed task allocation, and activation in sensor networks. We propose the Meta Tug-of-Peace algorithm, a distributed algorithm where the action updates are done using a simple stochastic approximation algorithm, and the decision to switch games is made using an infrequent 1-bit communication between the players. We prove that in Meta-ToW games, our algorithm converges to an equilibrium that satisfies a target Quality of Service reward vector for the players. We then demonstrate the efficacy of our algorithm through simulations for the scenarios mentioned above.
- Abstract(参考訳): N人のプレイヤーとK人のゲームが同時に行われる。
これらのゲームはそれぞれ、Tug-of-War(ToW)ゲームとしてモデル化され、1人のプレイヤーのアクションを増やすことで、他のプレイヤーの報酬が減少する。
各プレイヤーは一度に1試合に出場する。
各ステップで、プレイヤーは、そのゲームに参加することを希望するゲームと、そのゲームに参加するアクションを決定する。
彼らの報酬は、同じゲームにいるすべてのプレイヤーの行動に依存する。
このKゲームは「Meta Tug-of-War」(Meta-ToW)ゲームと呼ばれる。
これらのゲームは、電源制御、分散タスク割り当て、センサーネットワークのアクティベーションといったシナリオをモデル化することができる。
本稿では,単純な確率近似アルゴリズムを用いてアクション更新を行う分散アルゴリズムMeta Tug-of-Peaceアルゴリズムを提案する。
本稿では,Meta-ToWゲームにおいて,目的とするQuality of Serviceの報酬ベクトルを満たす平衡に収束することを示す。
次に、上記のシナリオのシミュレーションを通して、アルゴリズムの有効性を実証する。
関連論文リスト
- Securing Equal Share: A Principled Approach for Learning Multiplayer Symmetric Games [21.168085154982712]
マルチプレイヤーゲームにおける平衡は、一意でも爆発的でもない。
本稿では,平等な共有という自然な目的に焦点をあてることで,これらの課題に対処するための最初の一歩を踏み出す。
我々は、様々な設定でほぼ同じシェアを確実に得る、非回帰学習にインスパイアされた、一連の効率的なアルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-06-06T15:59:17Z) - Neural Population Learning beyond Symmetric Zero-sum Games [52.20454809055356]
我々はNuPL-JPSROという,スキルの伝達学習の恩恵を受けるニューラル集団学習アルゴリズムを導入し,ゲームの粗相関(CCE)に収束する。
本研究は, 均衡収束型集団学習を大規模かつ汎用的に実施可能であることを示す。
論文 参考訳(メタデータ) (2024-01-10T12:56:24Z) - Optimal Cooperative Multiplayer Learning Bandits with Noisy Rewards and
No Communication [0.0]
我々は,プレイヤーが事前に戦略に合意することのみを許される,協調的なマルチプレイヤーバンディット学習問題を考える。
この問題では、各プレイヤーが同時にアクションを選択する。
我々は,このアルゴリズムが対数的$O(fraclog TDelta_bma)$(gap依存)後悔および$O(sqrtTlog T)$(gap非依存)後悔を達成することを示す。
論文 参考訳(メタデータ) (2023-11-10T17:55:44Z) - Generating Diverse and Competitive Play-Styles for Strategy Games [58.896302717975445]
ターン型戦略ゲーム(Tribes)のためのプログレッシブアンプランによるPortfolio Monte Carlo Tree Searchを提案する。
品質分散アルゴリズム(MAP-Elites)を使用して異なるプレイスタイルを実現し、競争レベルを維持しながらパラメータ化する方法を示します。
その結果,このアルゴリズムは,トレーニングに用いるレベルを超えて,幅広いゲームレベルにおいても,これらの目標を達成できることが示された。
論文 参考訳(メタデータ) (2021-04-17T20:33:24Z) - Collaborative Agent Gameplay in the Pandemic Board Game [3.223284371460913]
Pandemicは、すべてのプレイヤーがゲームの進行中に発生する出来事によって引き起こされる課題を克服するために調整する模範的な共同ボードゲームです。
本稿では,すべてのプレイヤーの行動を制御し,この高度に進化した環境において勝つ確率と負けるリスクをバランスさせる人工エージェントを提案する。
提案アルゴリズムは,様々な難易度を持つ異なるゲームにおいて,より一貫した勝利戦略を見出すことができることを示す。
論文 参考訳(メタデータ) (2021-03-21T13:18:20Z) - TotalBotWar: A New Pseudo Real-time Multi-action Game Challenge and
Competition for AI [62.997667081978825]
TotalBotWarは、ゲームAIのための新しい擬似リアルタイムマルチアクションチャレンジだ。
ゲームはTotalWarのゲームシリーズに基づいており、プレイヤーは敵のゲームに勝つために軍隊を管理する。
論文 参考訳(メタデータ) (2020-09-18T09:13:56Z) - Learning to Play Sequential Games versus Unknown Opponents [93.8672371143881]
学習者が最初にプレーするゲームと、選択した行動に反応する相手との連続的なゲームについて考察する。
対戦相手の対戦相手列と対戦する際,学習者に対して新しいアルゴリズムを提案する。
我々の結果には、相手の反応の正則性に依存するアルゴリズムの後悔の保証が含まれている。
論文 参考訳(メタデータ) (2020-07-10T09:33:05Z) - Algorithm for Computing Approximate Nash Equilibrium in Continuous Games
with Application to Continuous Blotto [1.7132914341329848]
連続ゲームにおけるナッシュ均衡戦略を近似する新しいアルゴリズムを提案する。
また,2プレイヤーゼロサムゲームに加えて,マルチプレイヤーゲームや不完全な情報を持つゲームにも適用できる。
論文 参考訳(メタデータ) (2020-06-12T19:53:18Z) - Chaos, Extremism and Optimism: Volume Analysis of Learning in Games [55.24050445142637]
本稿では,ゼロサムにおける乗算重み更新 (MWU) と最適乗算重み更新 (OMWU) のボリューム解析と協調ゲームについて述べる。
我々は、OMWUが、その既知の収束挙動の代替的な理解を提供するために、ボリュームを契約していることを示します。
我々はまた、コーディネートゲームを調べる際に役割が逆になるという意味で、自由ランチ型の定理も証明する: OMWU は指数関数的に高速に体積を拡大するが、MWU は契約する。
論文 参考訳(メタデータ) (2020-05-28T13:47:09Z) - Efficient exploration of zero-sum stochastic games [83.28949556413717]
ゲームプレイを通じて,ゲームの記述を明示せず,託宣のみにアクセス可能な,重要で一般的なゲーム解決環境について検討する。
限られたデュレーション学習フェーズにおいて、アルゴリズムは両方のプレイヤーのアクションを制御し、ゲームを学習し、それをうまくプレイする方法を学習する。
私たちのモチベーションは、クエリされた戦略プロファイルの支払いを評価するのにコストがかかる状況において、利用可能性の低い戦略を迅速に学習することにあります。
論文 参考訳(メタデータ) (2020-02-24T20:30:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。