論文の概要: Optimal coordination of resources: A solution from reinforcement learning
- arxiv url: http://arxiv.org/abs/2312.14970v2
- Date: Thu, 20 Feb 2025 11:42:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-21 17:43:17.728961
- Title: Optimal coordination of resources: A solution from reinforcement learning
- Title(参考訳): 資源の最適調整:強化学習からの解法
- Authors: Guozhong Zheng, Weiran Cai, Guanxiao Qi, Jiqiang Zhang, Li Chen,
- Abstract要約: マイノリティゲーム(MG)はおそらくこの問題に対処する最もシンプルなおもちゃモデルだろう。
我々はMGに強化学習パラダイムを導入し、蓄積された経験に基づいて個人が意思決定を調整する。
このRLフレームワークは、個人がランダム探索による経験の活用のバランスをとると、最適な資源調整を実現する。
- 参考スコア(独自算出の注目度): 6.0413802011767705
- License:
- Abstract: Efficient allocation is important in nature and human society, where individuals frequently compete for limited resources. The Minority Game (MG) is perhaps the simplest toy model to address this issue. However, most previous solutions assume that the strategies are provided a priori and static, failing to capture their adaptive nature. Here, we introduce the reinforcement learning (RL) paradigm to MG, where individuals adjust decisions based on accumulated experience and expected rewards dynamically. We find that this RL framework achieves optimal resource coordination when individuals balance the exploitation of experience with random exploration. Yet, the imbalanced strategies of the two lead to suboptimal partial coordination or even anti-coordination. Our mechanistic analysis reveals a symmetry-breaking in action preferences at the optimum, offering a fresh solution to the MG and new insights into the resource allocation problem.
- Abstract(参考訳): 効率的な割り当ては自然と人間社会において重要であり、個人が限られた資源を競うことがしばしばある。
マイノリティゲーム(MG)はおそらくこの問題に対処する最もシンプルなおもちゃモデルだろう。
しかし、これまでのほとんどのソリューションは、戦略は優先順位と静的であり、それらの適応的性質を捉えていないと仮定している。
本稿では,蓄積した経験と期待される報酬に基づいて個人が意思決定を動的に調整する,強化学習(RL)パラダイムをMGに導入する。
このRLフレームワークは、個人がランダム探索による経験の活用のバランスをとると、最適な資源調整を実現する。
しかし、この2つの不均衡な戦略は、最適部分調整や反コーディネートに繋がる。
メカニスティック分析により、最適での行動選好の対称性の破れが明らかとなり、MGに対する新たな解法と資源配分問題に対する新たな洞察が提供される。
関連論文リスト
- Learning Reward and Policy Jointly from Demonstration and Preference Improves Alignment [58.049113055986375]
我々は、報酬モデルとポリシーをトレーニングするために、AIHF(Alignment with Integrated Human Feedback)と呼ばれる単一ステージアプローチを開発する。
提案した手法は、一般的なアライメントアルゴリズムに容易に還元し、活用できる、効率的なアルゴリズムの集合を認めている。
本研究では,LLMにおけるアライメント問題と,MuJoCoにおけるロボット制御問題を含む広範な実験により,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-06-11T01:20:53Z) - Multi-turn Reinforcement Learning from Preference Human Feedback [41.327438095745315]
RLHF(Reinforcement Learning from Human Feedback)は、大規模言語モデルと人間の嗜好を整合させる標準的なアプローチとなっている。
既存のメソッドは、選好を単一の決定(ターン)レベルでエミュレートすることで機能する。
本研究では,2つの全会話間の嗜好フィードバックから強化学習のための新しい手法を開発する。
論文 参考訳(メタデータ) (2024-05-23T14:53:54Z) - Non-linear Welfare-Aware Strategic Learning [10.448052192725168]
本稿では,戦略的個人行動の存在下でのアルゴリズム的意思決定について考察する。
まず,先行研究におけるエージェントベスト応答モデルを非線形設定に一般化する。
制限条件下でのみ3つの福祉が同時に最適な状態が得られることを示す。
論文 参考訳(メタデータ) (2024-05-03T01:50:03Z) - RLEMMO: Evolutionary Multimodal Optimization Assisted By Deep Reinforcement Learning [8.389454219309837]
マルチモーダル最適化問題 (MMOP) は, 限られた関数評価において困難となる最適解の探索を必要とする。
本稿では,メタブラックボックス最適化フレームワークであるRLEMMOを提案する。
品質と多様性の両方を促進する新しい報酬メカニズムにより、RLEMMOはポリシー勾配アルゴリズムを用いて効果的に訓練できる。
論文 参考訳(メタデータ) (2024-04-12T05:02:49Z) - MaxMin-RLHF: Alignment with Diverse Human Preferences [101.57443597426374]
Reinforcement Learning from Human Feedback (RLHF) は、言語モデルと人間の嗜好を一致させる。
予測最大化アルゴリズムを用いて嗜好分布の混合を学習し、人間の嗜好をよりよく表現する。
従来のRLHFアルゴリズムよりも16%以上の勝利率向上を実現している。
論文 参考訳(メタデータ) (2024-02-14T03:56:27Z) - WARM: On the Benefits of Weight Averaged Reward Models [63.08179139233774]
Weight Averaged Reward Models (WARM) を提案する。
最良N法とRL法を用いた要約タスクの実験は、WARMがLLM予測の全体的な品質とアライメントを改善することを示す。
論文 参考訳(メタデータ) (2024-01-22T18:27:08Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Unsupervised Resource Allocation with Graph Neural Networks [0.0]
本研究では,教師なしの方法で資源の配分方法を学ぶことによって,グローバルなユーティリティ関数を最大化する手法を提案する。
我々は,GNNを用いて最適に近いアロケーションポリシーの報酬構造を学習することを提案する。
論文 参考訳(メタデータ) (2021-06-17T18:44:04Z) - Resource Allocation via Model-Free Deep Learning in Free Space Optical
Communications [119.81868223344173]
本稿では,自由空間光学(FSO)通信におけるチャネルフェージング効果の緩和のための資源配分の一般的な問題について検討する。
本フレームワークでは,FSO資源割り当て問題を解決する2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-27T17:38:51Z) - Decentralized Reinforcement Learning: Global Decision-Making via Local
Economic Transactions [80.49176924360499]
我々は、シーケンシャルな意思決定問題を解決するために、単純で専門的で自己関心のあるエージェントの社会を指示する枠組みを確立する。
我々は分散強化学習アルゴリズムのクラスを導出する。
我々は、より効率的な移動学習のための社会固有のモジュラー構造の潜在的な利点を実証する。
論文 参考訳(メタデータ) (2020-07-05T16:41:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。