論文の概要: Reciprocal Reward Influence Encourages Cooperation From Self-Interested Agents
- arxiv url: http://arxiv.org/abs/2406.01641v1
- Date: Mon, 3 Jun 2024 06:07:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-05 21:21:41.846904
- Title: Reciprocal Reward Influence Encourages Cooperation From Self-Interested Agents
- Title(参考訳): 自己関心エージェントからの相互報酬効果の協調
- Authors: John L. Zhou, Weizhe Hong, Jonathan C. Kao,
- Abstract要約: 本稿では,リシプロエータ,強化学習エージェントを導入し,相手の行動がリターンに与える影響を再現する。
共用者は同時学習中に時間的に拡張された社会ジレンマの協力を促進するために使用できることを示す。
- 参考スコア(独自算出の注目度): 2.1301560294088318
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Emergent cooperation among self-interested individuals is a widespread phenomenon in the natural world, but remains elusive in interactions between artificially intelligent agents. Instead, na\"ive reinforcement learning algorithms typically converge to Pareto-dominated outcomes in even the simplest of social dilemmas. An emerging class of opponent-shaping methods have demonstrated the ability to reach prosocial outcomes by influencing the learning of other agents. However, they rely on higher-order derivatives through the predicted learning step of other agents or learning meta-game dynamics, which in turn rely on stringent assumptions over opponent learning rules or exponential sample complexity, respectively. To provide a learning rule-agnostic and sample-efficient alternative, we introduce Reciprocators, reinforcement learning agents which are intrinsically motivated to reciprocate the influence of an opponent's actions on their returns. This approach effectively seeks to modify other agents' $Q$-values by increasing their return following beneficial actions (with respect to the Reciprocator) and decreasing it after detrimental actions, guiding them towards mutually beneficial actions without attempting to directly shape policy updates. We show that Reciprocators can be used to promote cooperation in a variety of temporally extended social dilemmas during simultaneous learning.
- Abstract(参考訳): 利己的な個人間の創発的な協力は、自然界で広く見られる現象であるが、人工的に知的なエージェント間の相互作用においては、いまだ解明されていない。
代わりに、ナシブ強化学習アルゴリズムは一般的に、最も単純な社会的ジレンマにおいてもパレートに支配された結果に収束する。
対戦者形成手法の新たなクラスは、他のエージェントの学習に影響を与えることにより、社会的な結果に到達する能力を示している。
しかし、それらは他のエージェントの予測学習ステップやメタゲームダイナミクスの学習を通じて高階微分に依存しており、それぞれ反対の学習規則や指数的なサンプル複雑性よりも厳密な仮定に依存している。
学習ルールに依存しない、サンプル効率の良い代替手段として、本研究では、相手の行動がリターンに与える影響を、本質的に動機づける強化学習エージェントであるReciprocatorを導入する。
このアプローチは、他のエージェントのQ$値の変更を、(Reciprocatorに関して)有益なアクションの後にリターンを増やし、有害なアクションの後にそれを減らし、ポリシー更新を直接形作ることなく、相互に有益なアクションへと導くことによって効果的に求めている。
共用者は同時学習中に時間的に拡張された社会ジレンマの協力を促進するために使用できることを示す。
関連論文リスト
- Multi-agent cooperation through learning-aware policy gradients [53.63948041506278]
利己的な個人はしばしば協力に失敗し、マルチエージェント学習の根本的な課題を提起する。
本稿では,学習型強化学習のための,偏見のない高導出性ポリシー勾配アルゴリズムを提案する。
我々は, 受刑者のジレンマから, 自己関心のある学習エージェントの間でどのように, いつ, 協力関係が生じるかの新たな説明を得た。
論文 参考訳(メタデータ) (2024-10-24T10:48:42Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Intrinsic fluctuations of reinforcement learning promote cooperation [0.0]
社会的ジレンマの状況における協力は、動物、人間、機械にとって不可欠である。
マルチエージェント・ラーニング・セッティングの個々の要素が協調にどのように寄与するかを実証する。
論文 参考訳(メタデータ) (2022-09-01T09:14:47Z) - Collaborative Training of Heterogeneous Reinforcement Learning Agents in
Environments with Sparse Rewards: What and When to Share? [7.489793155793319]
本研究は,本質的なモチベーションを通じて得られた情報と,より効率的な探索と学習の高速化を目的とした情報を組み合わせることに焦点を当てる。
計算コストの少ない協調的なフレームワークが知識を共有することなく独立した学習プロセスより優れていることを示す。
論文 参考訳(メタデータ) (2022-02-24T16:15:51Z) - Deception in Social Learning: A Multi-Agent Reinforcement Learning
Perspective [0.0]
本研究は、問題ステートメントを導入し、重要な概念を定義し、既存の証拠を批判的に評価し、今後の研究で解決すべき課題に対処する。
マルチエージェント強化学習(Multi-Agent Reinforcement Learning)の枠組みの中で、ソーシャルラーニング(Social Learning)は、エージェントが他のエージェントの報酬機能を再形成することを可能にする新しいアルゴリズムのクラスである。
論文 参考訳(メタデータ) (2021-06-09T21:34:11Z) - Learning Human Rewards by Inferring Their Latent Intelligence Levels in
Multi-Agent Games: A Theory-of-Mind Approach with Application to Driving Data [18.750834997334664]
我々は、人間は有理論的であり、他人の意思決定過程を推論する際に異なる知能レベルを持っていると論じる。
学習中の人間の潜在知能レベルを推論する,新しいマルチエージェント逆強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-07T07:48:31Z) - PsiPhi-Learning: Reinforcement Learning with Demonstrations using
Successor Features and Inverse Temporal Difference Learning [102.36450942613091]
時間差学習(ITD)と呼ばれる逆強化学習アルゴリズムを提案する。
Psi Phi$-learningと呼ばれるデモで強化学習のための新しいアルゴリズムに到達し、オンライン環境の相互作用から学習とITDをシームレスに統合する方法を示します。
論文 参考訳(メタデータ) (2021-02-24T21:12:09Z) - Deep Interactive Bayesian Reinforcement Learning via Meta-Learning [63.96201773395921]
他のエージェントの戦略に対する不確実性下での最適適応行動は、インタラクティブベイズ強化学習フレームワークを用いて計算することができる。
本稿では,メタラーン近似的信念推論とベイズ最適行動を提案する。
提案手法は, モデルフリーアプローチ, 近似後部からのサンプル採取, 他者のメモリフリーモデル維持, あるいは環境の既知の構造を完全に活用しない既存手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-01-11T13:25:13Z) - Learning Latent Representations to Influence Multi-Agent Interaction [65.44092264843538]
エージェントのポリシーの潜在表現を学習するための強化学習に基づくフレームワークを提案する。
提案手法は代替手段よりも優れており,他のエージェントに影響を与えることを学習している。
論文 参考訳(メタデータ) (2020-11-12T19:04:26Z) - Intrinsic Motivation for Encouraging Synergistic Behavior [55.10275467562764]
スパース・リワード・シナジスティック・タスクにおける強化学習の探索バイアスとしての本質的モチベーションの役割について検討した。
私たちのキーとなる考え方は、シナジスティックなタスクにおける本質的なモチベーションのための優れた指針は、エージェントが自分自身で行動している場合、達成できない方法で世界に影響を与える行動を取ることである。
論文 参考訳(メタデータ) (2020-02-12T19:34:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。