論文の概要: Cooperative-Competitive Reinforcement Learning with History-Dependent
Rewards
- arxiv url: http://arxiv.org/abs/2010.08030v1
- Date: Thu, 15 Oct 2020 21:37:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 04:56:21.084609
- Title: Cooperative-Competitive Reinforcement Learning with History-Dependent
Rewards
- Title(参考訳): 歴史依存報酬を用いた協調競争強化学習
- Authors: Keyang He, Bikramjit Banerjee, Prashant Doshi
- Abstract要約: エージェントの意思決定問題は,対話的部分観測可能なマルコフ決定プロセス(I-POMDP)としてモデル化可能であることを示す。
本稿では,対話型アドバンテージアクター批判手法(IA2C$+$)を提案する。
実験の結果、IA2C$+$は他のいくつかのベースラインよりも早く、より堅牢に最適なポリシーを学ぶことが示されている。
- 参考スコア(独自算出の注目度): 12.41853254173419
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Consider a typical organization whose worker agents seek to collectively
cooperate for its general betterment. However, each individual agent
simultaneously seeks to act to secure a larger chunk than its co-workers of the
annual increment in compensation, which usually comes from a {\em fixed} pot.
As such, the individual agent in the organization must cooperate and compete.
Another feature of many organizations is that a worker receives a bonus, which
is often a fraction of previous year's total profit. As such, the agent derives
a reward that is also partly dependent on historical performance. How should
the individual agent decide to act in this context? Few methods for the mixed
cooperative-competitive setting have been presented in recent years, but these
are challenged by problem domains whose reward functions do not depend on the
current state and action only. Recent deep multi-agent reinforcement learning
(MARL) methods using long short-term memory (LSTM) may be used, but these adopt
a joint perspective to the interaction or require explicit exchange of
information among the agents to promote cooperation, which may not be possible
under competition. In this paper, we first show that the agent's
decision-making problem can be modeled as an interactive partially observable
Markov decision process (I-POMDP) that captures the dynamic of a
history-dependent reward. We present an interactive advantage actor-critic
method (IA2C$^+$), which combines the independent advantage actor-critic
network with a belief filter that maintains a belief distribution over other
agents' models. Empirical results show that IA2C$^+$ learns the optimal policy
faster and more robustly than several other baselines including one that uses a
LSTM, even when attributed models are incorrect.
- Abstract(参考訳): 労働者エージェントがその全般的な改善のために協力しようとする典型的な組織を考える。
しかし、個々のエージェントは、通常 {\displaystyle {\em fixed} ポットから得られる補償の年次増額の同僚よりも大きなチャンクを確保するために同時に行動しようとする。
そのため、組織の個々のエージェントは協力し、競争しなければならない。
多くの組織のもう1つの特徴は、労働者がボーナスを受け取ることである。
そのため、エージェントは歴史的パフォーマンスにも部分的に依存する報酬を導出する。
個々のエージェントはこの状況でどのように振る舞うべきか?
近年, 協調競争的設定の手法がほとんど提示されていないが, 報酬関数が現状と行動のみに依存しない問題領域では課題となっている。
近年、長期記憶(LSTM)を用いた深層多エージェント強化学習(MARL)法が用いられているが、これらは相互作用に対する共同視点を採用するか、エージェント間で情報交換が必要である。
本稿では,まず,エージェントの意思決定問題を対話型部分可観測マルコフ決定プロセス (i-pomdp) としてモデル化し,履歴依存報酬のダイナミクスをとらえることを示す。
本稿では,他のエージェントのモデルに対する信念分布を維持する信念フィルタと,独立したアドバンテージアクタ-クリティックネットワークを組み合わせた対話型アドバタイズ・アクタ-クリティック手法(ia2c$^+$)を提案する。
実験の結果、IA2C$^+$は、属性モデルが正しくない場合でもLSTMを使用するものを含め、他のいくつかのベースラインよりも速く、より堅牢に最適なポリシーを学ぶことを示す。
関連論文リスト
- Principal-Agent Reward Shaping in MDPs [50.914110302917756]
主要な問題とは、ある政党が他の政党に代わって行動し、利害対立を引き起こすことである。
本研究では,主役とエージェントが異なる報酬関数を持つ2人プレイのスタックゲームについて検討し,エージェントは両プレイヤーに対してMDPポリシーを選択する。
この結果は,有限の地平線を持つ木と決定論的決定過程を確立した。
論文 参考訳(メタデータ) (2023-12-30T18:30:44Z) - Byzantine-Resilient Decentralized Multi-Armed Bandits [25.499420566469098]
エージェント間の情報混合ステップを不整合および極端な値の切り離しで融合するアルゴリズムを開発する。
このフレームワークは、コンピュータネットワークの攻撃者をモデル化したり、攻撃的なコンテンツをレコメンデーターシステムに攻撃したり、金融市場のマニピュレータとして利用することができる。
論文 参考訳(メタデータ) (2023-10-11T09:09:50Z) - Estimating and Incentivizing Imperfect-Knowledge Agents with Hidden
Rewards [4.742123770879715]
実際には、インセンティブ提供者はインセンティブ付きエージェントの報酬実現を観察できないことが多い。
本稿では,自己関心学習エージェントと学習プリンシパルの繰り返し選択ゲームについて検討する。
我々は,プリンシパルのインセンティブとエージェントの選択履歴のみを入力とする推定器を導入する。
論文 参考訳(メタデータ) (2023-08-13T08:12:01Z) - Credit-cognisant reinforcement learning for multi-agent cooperation [0.0]
エージェントは,その行動が環境および共同エージェントに与える影響を知覚することができる。
これらの経験を操り、それらに含まれる報酬を構成することで、すべてのエージェントが受け取る報酬を同一のアクションシーケンスに含めることで、独立した深層Q-ラーニングの性能を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2022-11-18T09:00:25Z) - Online Learning of Competitive Equilibria in Exchange Economies [94.24357018178867]
経済学では、複数の有理エージェント間の資源不足の共有は古典的な問題である。
エージェントの好みを学習するためのオンライン学習機構を提案する。
数値シミュレーションにより,本機構の有効性を実証する。
論文 参考訳(メタデータ) (2021-06-11T21:32:17Z) - Cooperative and Competitive Biases for Multi-Agent Reinforcement
Learning [12.676356746752893]
マルチエージェント強化学習(MARL)アルゴリズムのトレーニングは,単一エージェント強化学習アルゴリズムのトレーニングよりも難しい。
本稿では,他のエージェントの偏りのある行動情報を用いたMARL訓練を促進するアルゴリズムを提案する。
本アルゴリズムは, 多様な協調競合環境において, 既存のアルゴリズムを上回っていることを実証した。
論文 参考訳(メタデータ) (2021-01-18T05:52:22Z) - Multi-agent Policy Optimization with Approximatively Synchronous
Advantage Estimation [55.96893934962757]
マルチエージェントシステムでは、異なるエージェントの警察を共同で評価する必要がある。
現在の方法では、バリュー関数やアドバンテージ関数は非同期に評価される対実関節アクションを使用する。
本研究では,近似的に同期する利点推定を提案する。
論文 参考訳(メタデータ) (2020-12-07T07:29:19Z) - UneVEn: Universal Value Exploration for Multi-Agent Reinforcement
Learning [53.73686229912562]
我々はUniversal Value Exploration(UneVEn)と呼ばれる新しいMARLアプローチを提案する。
UneVEnは、一連の関連するタスクと、普遍的な後継機能の線形分解を同時に学習する。
一連の探索ゲームにおける実証的な結果、エージェント間の重要な調整を必要とする協調捕食・捕食作業への挑戦、およびStarCraft IIのマイクロマネジメントベンチマークは、UneVEnが他の最先端のMARLメソッドが失敗するタスクを解決できることを示している。
論文 参考訳(メタデータ) (2020-10-06T19:08:47Z) - Learning to Incentivize Other Learning Agents [73.03133692589532]
我々は、学習インセンティブ関数を用いて、RLエージェントに他のエージェントに直接報酬を与える能力を持たせる方法を示す。
このようなエージェントは、一般的なマルコフゲームにおいて、標準のRLと対戦型エージェントを著しく上回っている。
私たちの仕事は、マルチエージェントの未来において共通の善を確実にする道のりに沿って、より多くの機会と課題を指しています。
論文 参考訳(メタデータ) (2020-06-10T20:12:38Z) - Scalable Multi-Agent Inverse Reinforcement Learning via
Actor-Attention-Critic [54.2180984002807]
マルチエージェント逆逆強化学習 (MA-AIRL) は, 単エージェントAIRLをマルチエージェント問題に適用する最近の手法である。
本稿では,従来の手法よりもサンプル効率が高く,スケーラブルなマルチエージェント逆RLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-02-24T20:30:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。