論文の概要: Optimal coordination in Minority Game: A solution from reinforcement
learning
- arxiv url: http://arxiv.org/abs/2312.14970v1
- Date: Wed, 20 Dec 2023 00:47:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-15 13:04:22.401702
- Title: Optimal coordination in Minority Game: A solution from reinforcement
learning
- Title(参考訳): マイノリティゲームにおける最適協調:強化学習からの解法
- Authors: Guozhong Zheng, Weiran Cai, Guanxiao Qi, Jiqiang Zhang, and Li Chen
- Abstract要約: マイノリティゲームはおそらく、資源利用を最大化するための人間のコーディネート方法に関する洞察を提供する最も単純なモデルである。
ここでは、過去の経験と将来的な報酬の両方を評価することによって、個人の戦略が進化している強化学習のパラダイムに目を向ける。
我々は、個人が過去の経験と将来的な報酬の両方を享受するときに、人口が最適なアロケーションに達することを明らかにした。
- 参考スコア(独自算出の注目度): 6.0413802011767705
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Efficient allocation is important in nature and human society where
individuals often compete for finite resources. The Minority Game is perhaps
the simplest model that provides deep insights into how human coordinate to
maximize the resource utilization. However, this model assumes the static
strategies that are provided a priori, failing to capture their adaptive
nature. Here, we turn to the paradigm of reinforcement learning, where
individuals' strategies are evolving by evaluating both the past experience and
rewards in the future. Specifically, we adopt the Q-learning algorithm, each
player is endowed with a Q-table that guides their decision-making. We reveal
that the population is able to reach the optimal allocation when individuals
appreciate both the past experience and rewards in the future, and they are
able to balance the exploitation of their Q-tables and the exploration by
randomly acting. The optimal allocation is ruined when individuals tend to use
either exploitation-only or exploration-only, where only partial coordination
and even anti-coordination are observed. Mechanism analysis reveals that a
moderate level of exploration can escape local minimums of metastable periodic
states, and reaches the optimal coordination as the global minimum.
Interestingly, the optimal coordination is underlined by a symmetry-breaking of
action preferences, where nearly half of the population choose one side while
the other half prefer the other side. The emergence of optimal coordination is
robust to the population size and other game parameters. Our work therefore
provides a natural solution to the Minority Game and sheds insights into the
resource allocation problem in general. Besides, our work demonstrates the
potential of the proposed reinforcement learning paradigm in deciphering many
puzzles in the socio-economic context.
- Abstract(参考訳): 効率的な割り当ては、個人が有限資源を競う自然と人間社会において重要である。
マイノリティゲームはおそらく、資源利用を最大化するための人間のコーディネート方法に関する深い洞察を提供する最も単純なモデルである。
しかし、このモデルは、それらの適応的な性質を捉えるのに失敗し、先入観を提供する静的戦略を仮定する。
ここでは,過去の経験と報酬の両方を評価することによって,個人の戦略が進化する強化学習のパラダイムに目を向ける。
具体的には、各プレイヤーが意思決定を導くqテーブルを付与するq-learningアルゴリズムを採用する。
今後,個人が過去の経験と報酬の両方を評価でき,q表の利用とランダムな行動による探索のバランスをとることで,人口が最適な配分に到達できることを明らかにする。
最適な割り当ては、個人が搾取のみまたは探索のみを使用する傾向があり、部分的な調整と反コーディネーションが観察される場合、崩壊する。
機構解析により、中程度の探索は準安定周期状態の局所的最小値から逃れることができ、大域的最小値として最適調整に達することが分かる。
興味深いことに、最適な調整は行動選好の対称性を破り、人口の半数近くが一方を選択し、残りの半分は他方を好む。
最適コーディネーションの出現は、人口規模や他のゲームパラメータに対して堅牢である。
それゆえ,我々の研究はマイノリティゲームに対する自然な解決策を提供し,資源配分問題全般に対する洞察を与えている。
さらに,社会経済的文脈における多くのパズルの解読における強化学習パラダイムの可能性を示す。
関連論文リスト
- Learning Reward and Policy Jointly from Demonstration and Preference Improves Alignment [58.049113055986375]
我々は、報酬モデルとポリシーをトレーニングするために、AIHF(Alignment with Integrated Human Feedback)と呼ばれる単一ステージアプローチを開発する。
提案した手法は、一般的なアライメントアルゴリズムに容易に還元し、活用できる、効率的なアルゴリズムの集合を認めている。
本研究では,LLMにおけるアライメント問題と,MuJoCoにおけるロボット制御問題を含む広範な実験により,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-06-11T01:20:53Z) - Multi-turn Reinforcement Learning from Preference Human Feedback [41.327438095745315]
RLHF(Reinforcement Learning from Human Feedback)は、大規模言語モデルと人間の嗜好を整合させる標準的なアプローチとなっている。
既存のメソッドは、選好を単一の決定(ターン)レベルでエミュレートすることで機能する。
本研究では,2つの全会話間の嗜好フィードバックから強化学習のための新しい手法を開発する。
論文 参考訳(メタデータ) (2024-05-23T14:53:54Z) - Non-linear Welfare-Aware Strategic Learning [10.448052192725168]
本稿では,戦略的個人行動の存在下でのアルゴリズム的意思決定について考察する。
まず,先行研究におけるエージェントベスト応答モデルを非線形設定に一般化する。
制限条件下でのみ3つの福祉が同時に最適な状態が得られることを示す。
論文 参考訳(メタデータ) (2024-05-03T01:50:03Z) - RLEMMO: Evolutionary Multimodal Optimization Assisted By Deep Reinforcement Learning [8.389454219309837]
マルチモーダル最適化問題 (MMOP) は, 限られた関数評価において困難となる最適解の探索を必要とする。
本稿では,メタブラックボックス最適化フレームワークであるRLEMMOを提案する。
品質と多様性の両方を促進する新しい報酬メカニズムにより、RLEMMOはポリシー勾配アルゴリズムを用いて効果的に訓練できる。
論文 参考訳(メタデータ) (2024-04-12T05:02:49Z) - MaxMin-RLHF: Alignment with Diverse Human Preferences [101.57443597426374]
Reinforcement Learning from Human Feedback (RLHF) は、言語モデルと人間の嗜好を一致させる。
予測最大化アルゴリズムを用いて嗜好分布の混合を学習し、人間の嗜好をよりよく表現する。
従来のRLHFアルゴリズムよりも16%以上の勝利率向上を実現している。
論文 参考訳(メタデータ) (2024-02-14T03:56:27Z) - WARM: On the Benefits of Weight Averaged Reward Models [63.08179139233774]
Weight Averaged Reward Models (WARM) を提案する。
最良N法とRL法を用いた要約タスクの実験は、WARMがLLM予測の全体的な品質とアライメントを改善することを示す。
論文 参考訳(メタデータ) (2024-01-22T18:27:08Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Unsupervised Resource Allocation with Graph Neural Networks [0.0]
本研究では,教師なしの方法で資源の配分方法を学ぶことによって,グローバルなユーティリティ関数を最大化する手法を提案する。
我々は,GNNを用いて最適に近いアロケーションポリシーの報酬構造を学習することを提案する。
論文 参考訳(メタデータ) (2021-06-17T18:44:04Z) - Resource Allocation via Model-Free Deep Learning in Free Space Optical
Communications [119.81868223344173]
本稿では,自由空間光学(FSO)通信におけるチャネルフェージング効果の緩和のための資源配分の一般的な問題について検討する。
本フレームワークでは,FSO資源割り当て問題を解決する2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-27T17:38:51Z) - Decentralized Reinforcement Learning: Global Decision-Making via Local
Economic Transactions [80.49176924360499]
我々は、シーケンシャルな意思決定問題を解決するために、単純で専門的で自己関心のあるエージェントの社会を指示する枠組みを確立する。
我々は分散強化学習アルゴリズムのクラスを導出する。
我々は、より効率的な移動学習のための社会固有のモジュラー構造の潜在的な利点を実証する。
論文 参考訳(メタデータ) (2020-07-05T16:41:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。