論文の概要: The Good Shepherd: An Oracle Agent for Mechanism Design
- arxiv url: http://arxiv.org/abs/2202.10135v1
- Date: Mon, 21 Feb 2022 11:28:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-24 10:00:49.352101
- Title: The Good Shepherd: An Oracle Agent for Mechanism Design
- Title(参考訳): The Good Shepherd: メカニズム設計のためのOracleエージェント
- Authors: Jan Balaguer, Raphael Koster, Christopher Summerfield, Andrea
Tacchetti
- Abstract要約: 本研究では,適応型コプレーヤの学習軌道上での評価を行うエージェント構築アルゴリズムを提案する。
以上の結果から,我々のメカニズムは参加者の望ましい成果への戦略をシェパードできることが示唆された。
- 参考スコア(独自算出の注目度): 6.226991885861965
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: From social networks to traffic routing, artificial learning agents are
playing a central role in modern institutions. We must therefore understand how
to leverage these systems to foster outcomes and behaviors that align with our
own values and aspirations. While multiagent learning has received considerable
attention in recent years, artificial agents have been primarily evaluated when
interacting with fixed, non-learning co-players. While this evaluation scheme
has merit, it fails to capture the dynamics faced by institutions that must
deal with adaptive and continually learning constituents. Here we address this
limitation, and construct agents ("mechanisms") that perform well when
evaluated over the learning trajectory of their adaptive co-players
("participants"). The algorithm we propose consists of two nested learning
loops: an inner loop where participants learn to best respond to fixed
mechanisms; and an outer loop where the mechanism agent updates its policy
based on experience. We report the performance of our mechanism agents when
paired with both artificial learning agents and humans as co-players. Our
results show that our mechanisms are able to shepherd the participants
strategies towards favorable outcomes, indicating a path for modern
institutions to effectively and automatically influence the strategies and
behaviors of their constituents.
- Abstract(参考訳): ソーシャルネットワークからトラフィックルーティングまで、人工知能エージェントは現代の機関で中心的な役割を果たす。
したがって私たちは、自分たちの価値観や願望に沿った成果や行動を促進するために、これらのシステムを活用する方法を理解する必要があります。
近年, マルチエージェント学習が注目されているが, 人工エージェントは, 固定された非学習者との相互作用において主に評価されている。
この評価スキームにはメリットはあるが、適応的かつ継続的な学習構成員に対処しなければならない機関が直面するダイナミクスを捉えることに失敗している。
ここでは,この制限に対処し,適応型コプレーヤの学習軌跡("participants")に基づいて評価を行うエージェント("mechanisms")を構築する。
提案するアルゴリズムは,2つのネスト学習ループからなり,参加者が固定されたメカニズムに最もよく反応する内ループと,メカニズムエージェントが経験に基づいてポリシーを更新する外ループから構成される。
人工学習エージェントと人間を共同プレイヤとして組み合わせた場合のメカニズムエージェントの性能について報告する。
その結果,我々のメカニズムは参加者の戦略を望ましい結果へと導くことができ,現代の機関が構成員の戦略や行動に効果的かつ自動的に影響を与える道筋を示した。
関連論文リスト
- Multi-agent cooperation through learning-aware policy gradients [53.63948041506278]
利己的な個人はしばしば協力に失敗し、マルチエージェント学習の根本的な課題を提起する。
本稿では,学習型強化学習のための,偏見のない高導出性ポリシー勾配アルゴリズムを提案する。
我々は, 受刑者のジレンマから, 自己関心のある学習エージェントの間でどのように, いつ, 協力関係が生じるかの新たな説明を得た。
論文 参考訳(メタデータ) (2024-10-24T10:48:42Z) - Reciprocal Reward Influence Encourages Cooperation From Self-Interested Agents [2.1301560294088318]
自己関心の個人間の協力は、自然界で広く見られる現象であるが、人工的な知的エージェント間の相互作用においては、いまだ解明されていない。
そこで,本研究では,リターンに対する相手の行動の影響を再現するために,本質的に動機づけられた強化学習エージェントであるReciprocatorを紹介する。
本研究では,同時学習において,時間的に拡張された社会的ジレンマにおける協調を促進するために,共用者が利用できることを示す。
論文 参考訳(メタデータ) (2024-06-03T06:07:27Z) - ProAgent: Building Proactive Cooperative Agents with Large Language
Models [89.53040828210945]
ProAgentは、大規模な言語モデルを利用してプロアクティブエージェントを生成する新しいフレームワークである。
ProAgentは現状を分析し、チームメイトの意図を観察から推測することができる。
ProAgentは高度なモジュール化と解釈可能性を示し、様々な調整シナリオに容易に統合できる。
論文 参考訳(メタデータ) (2023-08-22T10:36:56Z) - Homomorphism Autoencoder -- Learning Group Structured Representations from Observed Transitions [51.71245032890532]
本研究では,世界に作用するエージェントが,それを修飾する動作と整合した感覚情報の内部表現を学習できるようにする手法を提案する。
既存の作業とは対照的に、我々のアプローチはグループの事前の知識を必要とせず、エージェントが実行可能なアクションのセットを制限しない。
論文 参考訳(メタデータ) (2022-07-25T11:22:48Z) - Pessimism meets VCG: Learning Dynamic Mechanism Design via Offline
Reinforcement Learning [114.36124979578896]
オフライン強化学習アルゴリズムを用いて動的メカニズムを設計する。
我々のアルゴリズムは悲観主義の原理に基づいており、オフラインデータセットのカバレッジについて軽度な仮定しか必要としない。
論文 参考訳(メタデータ) (2022-05-05T05:44:26Z) - HCMD-zero: Learning Value Aligned Mechanisms from Data [11.146694178077565]
HCMD-zeroは、メカニズムエージェントを構築するための汎用的な方法である。
参加者間の交流を仲介しながら学習し、自作の選挙コンテストに引き続き参加する。
HCMD-zero はヒトの被験者に常に好まれる競合機構因子を産生することを示した。
論文 参考訳(メタデータ) (2022-02-21T11:13:53Z) - What is Going on Inside Recurrent Meta Reinforcement Learning Agents? [63.58053355357644]
recurrent meta reinforcement learning (meta-rl)エージェントは「学習アルゴリズムの学習」を目的としてrecurrent neural network (rnn)を使用するエージェントである。
部分観測可能なマルコフ決定プロセス(POMDP)フレームワークを用いてメタRL問題を再構成することにより,これらのエージェントの内部動作機構を明らかにする。
論文 参考訳(メタデータ) (2021-04-29T20:34:39Z) - Modelling Cooperation in Network Games with Spatio-Temporal Complexity [11.665246332943058]
複雑なグリッドワールドドメインにおける自己組織化協調の出現について検討する。
マルチエージェント深層強化学習を用いて,エージェント・ソサエティの多種多様なメカニズムをシミュレートした。
本手法は,人間および人工エージェントシステムにおける機構設計に影響を及ぼす。
論文 参考訳(メタデータ) (2021-02-13T12:04:52Z) - Learning Latent Representations to Influence Multi-Agent Interaction [65.44092264843538]
エージェントのポリシーの潜在表現を学習するための強化学習に基づくフレームワークを提案する。
提案手法は代替手段よりも優れており,他のエージェントに影響を与えることを学習している。
論文 参考訳(メタデータ) (2020-11-12T19:04:26Z) - Parallel Knowledge Transfer in Multi-Agent Reinforcement Learning [0.2538209532048867]
本稿では,MARL(Parallel Attentional Transfer)における新しい知識伝達フレームワークを提案する。
PAT,学生モード,自己学習モードの2つの動作モードを設計する。
エージェントが環境に不慣れな場合、学生モードにおける共有注意機構は、エージェントの行動を決定するために、他のエージェントからの学習知識を効果的に選択する。
論文 参考訳(メタデータ) (2020-03-29T17:42:00Z) - On Simple Reactive Neural Networks for Behaviour-Based Reinforcement
Learning [5.482532589225552]
本稿では,Brookの仮定アーキテクチャに着想を得た行動に基づく強化学習手法を提案する。
作業上の前提は、ロボット開発者のドメイン知識を活用することで、ロボットのピック・アンド・プレイス・タスクを単純化できるということです。
提案手法では,8000エピソードのピック・アンド・プレイス・タスクを学習し,エンド・ツー・エンドアプローチで必要とされるトレーニング・エピソードの数を劇的に削減する。
論文 参考訳(メタデータ) (2020-01-22T11:49:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。