論文の概要: Reinforcement Learning for Game-Theoretic Resource Allocation on Graphs
- arxiv url: http://arxiv.org/abs/2505.06319v1
- Date: Thu, 08 May 2025 21:12:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:48.781446
- Title: Reinforcement Learning for Game-Theoretic Resource Allocation on Graphs
- Title(参考訳): グラフ上のゲーム理論資源配分のための強化学習
- Authors: Zijian An, Lifeng Zhou,
- Abstract要約: GRAG (Game-theoretic Resource allocation on graphs) は、マルチステップのColoner Blotto Game (MCBG) としてモデル化された問題である。
MCBGをマルコフ決定過程(MDP)として定式化し、強化学習(RL)法、特にDeep Q-Network(DQN)とPPOを適用した。
各種グラフ構造および初期資源分布におけるRL性能の評価を行い, ランダム, 欲求, 学習されたRLポリシーとの比較を行った。
- 参考スコア(独自算出の注目度): 9.369330148791201
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Game-theoretic resource allocation on graphs (GRAG) involves two players competing over multiple steps to control nodes of interest on a graph, a problem modeled as a multi-step Colonel Blotto Game (MCBG). Finding optimal strategies is challenging due to the dynamic action space and structural constraints imposed by the graph. To address this, we formulate the MCBG as a Markov Decision Process (MDP) and apply Reinforcement Learning (RL) methods, specifically Deep Q-Network (DQN) and Proximal Policy Optimization (PPO). To enforce graph constraints, we introduce an action-displacement adjacency matrix that dynamically generates valid action sets at each step. We evaluate RL performance across a variety of graph structures and initial resource distributions, comparing against random, greedy, and learned RL policies. Experimental results show that both DQN and PPO consistently outperform baseline strategies and converge to a balanced $50\%$ win rate when competing against the learned RL policy. Particularly, on asymmetric graphs, RL agents successfully exploit structural advantages and adapt their allocation strategies, even under disadvantageous initial resource distributions.
- Abstract(参考訳): グラフ上でのゲーム理論的リソース割り当て(GRAG)は、グラフ上の関心ノードを制御するために複数のステップで競合する2人のプレイヤーを巻き込み、これはマルチステップのBlotto Game(MCBG)としてモデル化される。
動的なアクション空間とグラフによって課される構造的制約のため、最適な戦略を見つけることは困難である。
そこで我々は,MCBGをMDP(Markov Decision Process)として定式化し,強化学習(Reinforcement Learning, RL)法,特にDeep Q-Network(DQN)法とPPO法を適用した。
グラフ制約を強制するために、各ステップで有効なアクションセットを動的に生成するアクション変位隣接行列を導入する。
各種グラフ構造および初期資源分布におけるRL性能の評価を行い, ランダム, 欲求, 学習されたRLポリシーとの比較を行った。
実験結果から,DQNとPPOはいずれもベースライン戦略を一貫して上回り,学習したRL政策に対抗してバランスのとれた50\%の勝利率に収束することがわかった。
特に非対称グラフ上では、RLエージェントは構造上の利点をうまく活用し、不利な初期資源分布の下でもそれらの割り当て戦略に適応する。
関連論文リスト
- Compile Scene Graphs with Reinforcement Learning [69.36723767339001]
次世代予測は大規模言語モデル(LLM)の訓練の基本原理である
本稿では,マルチモーダルLLM(M-LLM)であるR1-SGGを紹介する。
私たちは、Hard Recall、Hard Recall+Relax、Soft Recallの3つのリコールベースのバリエーションを含む、グラフ中心の報酬セットを設計します。
論文 参考訳(メタデータ) (2025-04-18T10:46:22Z) - Optimal coordination of resources: A solution from reinforcement learning [6.0413802011767705]
マイノリティゲーム(MG)はおそらくこの問題に対処する最もシンプルなおもちゃモデルだろう。
我々はMGに強化学習パラダイムを導入し、蓄積された経験に基づいて個人が意思決定を調整する。
このRLフレームワークは、個人がランダム探索による経験の活用のバランスをとると、最適な資源調整を実現する。
論文 参考訳(メタデータ) (2023-12-20T00:47:45Z) - Decoupled Prioritized Resampling for Offline RL [114.73666323173204]
オフライン強化学習のためのオフライン優先体験再生(OPER)を提案する。
OPERは、高度に反転する遷移を優先するように設計された優先順位関数のクラスを備えており、トレーニング中により頻繁に訪問することができる。
優先順位関数のクラスは行動ポリシーの改善を誘導し、この改善されたポリシーに制約された場合、ポリシー制約付きオフラインRLアルゴリズムによりより良い解が得られる可能性が示唆された。
論文 参考訳(メタデータ) (2023-06-08T17:56:46Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Scalable Deep Reinforcement Learning Algorithms for Mean Field Games [60.550128966505625]
平均フィールドゲーム (MFGs) は、非常に多くの戦略エージェントを持つゲームを効率的に近似するために導入された。
近年,モデルフリー強化学習(RL)手法を用いて,MFGの学習均衡の課題が活発化している。
MFGを解くための既存のアルゴリズムは戦略や$q$-valuesのような近似量の混合を必要とする。
本稿では,この欠点に対処する2つの手法を提案する。まず,歴史データの蒸留からニューラルネットワークへの混合戦略を学習し,Factitious Playアルゴリズムに適用する。
2つ目はオンライン混合方式である。
論文 参考訳(メタデータ) (2022-03-22T18:10:32Z) - Designing Heterogeneous GNNs with Desired Permutation Properties for Wireless Resource Allocation [11.66835230109271]
グラフニューラルネットワーク(GNN)は、さまざまな無線ポリシを学ぶために設計されている。
本稿では,所望の置換特性を満たすための設計手法を提案する。
論文 参考訳(メタデータ) (2022-03-08T08:02:54Z) - Distributed Multi-Agent Reinforcement Learning Based on Graph-Induced Local Value Functions [7.6860514640178]
協調型マルチエージェント強化学習(MARL)のための計算効率の良い分散フレームワークを提案する。
MARLにおける3種類のエージェント間カップリングを記述した3つのカップリンググラフを導入する。
結合グラフから導出した局所値関数に基づく2つの分散RL手法を提案する。
論文 参考訳(メタデータ) (2022-02-26T03:01:51Z) - Learning Two-Step Hybrid Policy for Graph-Based Interpretable
Reinforcement Learning [7.656272344163665]
本稿では,グラフベース入力を用いたRL問題に対して,解釈可能かつ堅牢な階層型ポリシを生成するための2段階のハイブリッド強化学習(RL)ポリシーを提案する。
この2段階のハイブリッドポリシは、人間フレンドリーな解釈を示し、一般化と堅牢性の観点から、より良いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-01-21T03:06:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。