論文の概要: Optimal coordination in Minority Game: A solution from reinforcement
learning
- arxiv url: http://arxiv.org/abs/2312.14970v1
- Date: Wed, 20 Dec 2023 00:47:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-15 13:04:22.401702
- Title: Optimal coordination in Minority Game: A solution from reinforcement
learning
- Title(参考訳): マイノリティゲームにおける最適協調:強化学習からの解法
- Authors: Guozhong Zheng, Weiran Cai, Guanxiao Qi, Jiqiang Zhang, and Li Chen
- Abstract要約: マイノリティゲームはおそらく、資源利用を最大化するための人間のコーディネート方法に関する洞察を提供する最も単純なモデルである。
ここでは、過去の経験と将来的な報酬の両方を評価することによって、個人の戦略が進化している強化学習のパラダイムに目を向ける。
我々は、個人が過去の経験と将来的な報酬の両方を享受するときに、人口が最適なアロケーションに達することを明らかにした。
- 参考スコア(独自算出の注目度): 6.0413802011767705
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Efficient allocation is important in nature and human society where
individuals often compete for finite resources. The Minority Game is perhaps
the simplest model that provides deep insights into how human coordinate to
maximize the resource utilization. However, this model assumes the static
strategies that are provided a priori, failing to capture their adaptive
nature. Here, we turn to the paradigm of reinforcement learning, where
individuals' strategies are evolving by evaluating both the past experience and
rewards in the future. Specifically, we adopt the Q-learning algorithm, each
player is endowed with a Q-table that guides their decision-making. We reveal
that the population is able to reach the optimal allocation when individuals
appreciate both the past experience and rewards in the future, and they are
able to balance the exploitation of their Q-tables and the exploration by
randomly acting. The optimal allocation is ruined when individuals tend to use
either exploitation-only or exploration-only, where only partial coordination
and even anti-coordination are observed. Mechanism analysis reveals that a
moderate level of exploration can escape local minimums of metastable periodic
states, and reaches the optimal coordination as the global minimum.
Interestingly, the optimal coordination is underlined by a symmetry-breaking of
action preferences, where nearly half of the population choose one side while
the other half prefer the other side. The emergence of optimal coordination is
robust to the population size and other game parameters. Our work therefore
provides a natural solution to the Minority Game and sheds insights into the
resource allocation problem in general. Besides, our work demonstrates the
potential of the proposed reinforcement learning paradigm in deciphering many
puzzles in the socio-economic context.
- Abstract(参考訳): 効率的な割り当ては、個人が有限資源を競う自然と人間社会において重要である。
マイノリティゲームはおそらく、資源利用を最大化するための人間のコーディネート方法に関する深い洞察を提供する最も単純なモデルである。
しかし、このモデルは、それらの適応的な性質を捉えるのに失敗し、先入観を提供する静的戦略を仮定する。
ここでは,過去の経験と報酬の両方を評価することによって,個人の戦略が進化する強化学習のパラダイムに目を向ける。
具体的には、各プレイヤーが意思決定を導くqテーブルを付与するq-learningアルゴリズムを採用する。
今後,個人が過去の経験と報酬の両方を評価でき,q表の利用とランダムな行動による探索のバランスをとることで,人口が最適な配分に到達できることを明らかにする。
最適な割り当ては、個人が搾取のみまたは探索のみを使用する傾向があり、部分的な調整と反コーディネーションが観察される場合、崩壊する。
機構解析により、中程度の探索は準安定周期状態の局所的最小値から逃れることができ、大域的最小値として最適調整に達することが分かる。
興味深いことに、最適な調整は行動選好の対称性を破り、人口の半数近くが一方を選択し、残りの半分は他方を好む。
最適コーディネーションの出現は、人口規模や他のゲームパラメータに対して堅牢である。
それゆえ,我々の研究はマイノリティゲームに対する自然な解決策を提供し,資源配分問題全般に対する洞察を与えている。
さらに,社会経済的文脈における多くのパズルの解読における強化学習パラダイムの可能性を示す。
関連論文リスト
- Learning to Assist Humans without Inferring Rewards [65.28156318196397]
我々は、エンパワーメントのレンズを通して支援を研究する先行研究に基づいて構築する。
補助剤は、人間の行動の影響を最大化することを目的としている。
これらの表現は、先行研究と類似したエンパワーメントの概念を推定する。
論文 参考訳(メタデータ) (2024-11-04T21:31:04Z) - Learning in Multi-Objective Public Goods Games with Non-Linear Utilities [8.243788683895376]
我々は,エージェントが異なるリスク嗜好を持つ,新しい多目的型Public Goods Gameの学習について研究する。
このような嗜好モデルと環境不確実性の間の相互作用をゲーム内のインセンティブアライメントレベルにおいて検討する。
論文 参考訳(メタデータ) (2024-08-01T16:24:37Z) - MaxMin-RLHF: Towards Equitable Alignment of Large Language Models with
Diverse Human Preferences [101.57443597426374]
Reinforcement Learning from Human Feedback (RLHF) は、言語モデルと人間の嗜好を一致させる。
予測最大化アルゴリズムを用いて嗜好分布の混合を学習し、人間の嗜好をよりよく表現する。
従来のRLHFアルゴリズムよりも16%以上の勝利率向上を実現している。
論文 参考訳(メタデータ) (2024-02-14T03:56:27Z) - A Minimaximalist Approach to Reinforcement Learning from Human Feedback [49.45285664482369]
人間のフィードバックから強化学習を行うアルゴリズムとして,SPO(Self-Play Preference Optimization)を提案する。
我々のアプローチは、報酬モデルや不安定な敵の訓練を必要としないという点で最小主義である。
我々は,一連の継続的制御タスクにおいて,報酬モデルに基づくアプローチよりもはるかに効率的に学習できることを実証した。
論文 参考訳(メタデータ) (2024-01-08T17:55:02Z) - Unsupervised Resource Allocation with Graph Neural Networks [0.0]
本研究では,教師なしの方法で資源の配分方法を学ぶことによって,グローバルなユーティリティ関数を最大化する手法を提案する。
我々は,GNNを用いて最適に近いアロケーションポリシーの報酬構造を学習することを提案する。
論文 参考訳(メタデータ) (2021-06-17T18:44:04Z) - Learning Strategies in Decentralized Matching Markets under Uncertain
Preferences [91.3755431537592]
エージェントの選好が不明な場合,共有資源の不足の設定における意思決定の問題について検討する。
我々のアプローチは、再生されたカーネルヒルベルト空間における好みの表現に基づいている。
エージェントの期待した利益を最大化する最適な戦略を導出する。
論文 参考訳(メタデータ) (2020-10-29T03:08:22Z) - On Information Asymmetry in Competitive Multi-Agent Reinforcement
Learning: Convergence and Optimality [78.76529463321374]
協調的でない2つのQ-ラーニングエージェントの相互作用システムについて検討する。
この情報非対称性は、集団学習の安定した結果をもたらす可能性があることを示す。
論文 参考訳(メタデータ) (2020-10-21T11:19:53Z) - Decentralized Reinforcement Learning: Global Decision-Making via Local
Economic Transactions [80.49176924360499]
我々は、シーケンシャルな意思決定問題を解決するために、単純で専門的で自己関心のあるエージェントの社会を指示する枠組みを確立する。
我々は分散強化学習アルゴリズムのクラスを導出する。
我々は、より効率的な移動学習のための社会固有のモジュラー構造の潜在的な利点を実証する。
論文 参考訳(メタデータ) (2020-07-05T16:41:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。