論文の概要: The Good Shepherd: An Oracle Agent for Mechanism Design
- arxiv url: http://arxiv.org/abs/2202.10135v1
- Date: Mon, 21 Feb 2022 11:28:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-24 10:00:49.352101
- Title: The Good Shepherd: An Oracle Agent for Mechanism Design
- Title(参考訳): The Good Shepherd: メカニズム設計のためのOracleエージェント
- Authors: Jan Balaguer, Raphael Koster, Christopher Summerfield, Andrea
Tacchetti
- Abstract要約: 本研究では,適応型コプレーヤの学習軌道上での評価を行うエージェント構築アルゴリズムを提案する。
以上の結果から,我々のメカニズムは参加者の望ましい成果への戦略をシェパードできることが示唆された。
- 参考スコア(独自算出の注目度): 6.226991885861965
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: From social networks to traffic routing, artificial learning agents are
playing a central role in modern institutions. We must therefore understand how
to leverage these systems to foster outcomes and behaviors that align with our
own values and aspirations. While multiagent learning has received considerable
attention in recent years, artificial agents have been primarily evaluated when
interacting with fixed, non-learning co-players. While this evaluation scheme
has merit, it fails to capture the dynamics faced by institutions that must
deal with adaptive and continually learning constituents. Here we address this
limitation, and construct agents ("mechanisms") that perform well when
evaluated over the learning trajectory of their adaptive co-players
("participants"). The algorithm we propose consists of two nested learning
loops: an inner loop where participants learn to best respond to fixed
mechanisms; and an outer loop where the mechanism agent updates its policy
based on experience. We report the performance of our mechanism agents when
paired with both artificial learning agents and humans as co-players. Our
results show that our mechanisms are able to shepherd the participants
strategies towards favorable outcomes, indicating a path for modern
institutions to effectively and automatically influence the strategies and
behaviors of their constituents.
- Abstract(参考訳): ソーシャルネットワークからトラフィックルーティングまで、人工知能エージェントは現代の機関で中心的な役割を果たす。
したがって私たちは、自分たちの価値観や願望に沿った成果や行動を促進するために、これらのシステムを活用する方法を理解する必要があります。
近年, マルチエージェント学習が注目されているが, 人工エージェントは, 固定された非学習者との相互作用において主に評価されている。
この評価スキームにはメリットはあるが、適応的かつ継続的な学習構成員に対処しなければならない機関が直面するダイナミクスを捉えることに失敗している。
ここでは,この制限に対処し,適応型コプレーヤの学習軌跡("participants")に基づいて評価を行うエージェント("mechanisms")を構築する。
提案するアルゴリズムは,2つのネスト学習ループからなり,参加者が固定されたメカニズムに最もよく反応する内ループと,メカニズムエージェントが経験に基づいてポリシーを更新する外ループから構成される。
人工学習エージェントと人間を共同プレイヤとして組み合わせた場合のメカニズムエージェントの性能について報告する。
その結果,我々のメカニズムは参加者の戦略を望ましい結果へと導くことができ,現代の機関が構成員の戦略や行動に効果的かつ自動的に影響を与える道筋を示した。
関連論文リスト
- ProAgent: Building Proactive Cooperative Agents with Large Language
Models [89.53040828210945]
ProAgentは、大規模な言語モデルを利用してプロアクティブエージェントを生成する新しいフレームワークである。
ProAgentは現状を分析し、チームメイトの意図を観察から推測することができる。
ProAgentは高度なモジュール化と解釈可能性を示し、様々な調整シナリオに容易に統合できる。
論文 参考訳(メタデータ) (2023-08-22T10:36:56Z) - Pessimism meets VCG: Learning Dynamic Mechanism Design via Offline
Reinforcement Learning [114.36124979578896]
オフライン強化学習アルゴリズムを用いて動的メカニズムを設計する。
我々のアルゴリズムは悲観主義の原理に基づいており、オフラインデータセットのカバレッジについて軽度な仮定しか必要としない。
論文 参考訳(メタデータ) (2022-05-05T05:44:26Z) - The Frost Hollow Experiments: Pavlovian Signalling as a Path to
Coordination and Communication Between Agents [7.980685978549764]
本稿では,パブロフ信号の多面的研究に貢献する。
固定的な信号処理パラダイムと完全適応型通信学習の自然な橋渡しとしてパブロヴィアン信号処理を確立した。
本研究は, 強化学習エージェント間の連続的なコミュニケーション学習に向けた実践的, 建設的経路を示唆するものである。
論文 参考訳(メタデータ) (2022-03-17T17:49:45Z) - Coach-assisted Multi-Agent Reinforcement Learning Framework for
Unexpected Crashed Agents [120.91291581594773]
本稿では,予期せぬクラッシュを伴う協調型マルチエージェント強化学習システムの公式な定式化について述べる。
本稿では,教師支援型多エージェント強化学習フレームワークを提案する。
私たちの知る限りでは、この研究はマルチエージェントシステムにおける予期せぬクラッシュを初めて研究したものです。
論文 参考訳(メタデータ) (2022-03-16T08:22:45Z) - HCMD-zero: Learning Value Aligned Mechanisms from Data [11.146694178077565]
HCMD-zeroは、メカニズムエージェントを構築するための汎用的な方法である。
参加者間の交流を仲介しながら学習し、自作の選挙コンテストに引き続き参加する。
HCMD-zero はヒトの被験者に常に好まれる競合機構因子を産生することを示した。
論文 参考訳(メタデータ) (2022-02-21T11:13:53Z) - What is Going on Inside Recurrent Meta Reinforcement Learning Agents? [63.58053355357644]
recurrent meta reinforcement learning (meta-rl)エージェントは「学習アルゴリズムの学習」を目的としてrecurrent neural network (rnn)を使用するエージェントである。
部分観測可能なマルコフ決定プロセス(POMDP)フレームワークを用いてメタRL問題を再構成することにより,これらのエージェントの内部動作機構を明らかにする。
論文 参考訳(メタデータ) (2021-04-29T20:34:39Z) - Modelling Cooperation in Network Games with Spatio-Temporal Complexity [11.665246332943058]
複雑なグリッドワールドドメインにおける自己組織化協調の出現について検討する。
マルチエージェント深層強化学習を用いて,エージェント・ソサエティの多種多様なメカニズムをシミュレートした。
本手法は,人間および人工エージェントシステムにおける機構設計に影響を及ぼす。
論文 参考訳(メタデータ) (2021-02-13T12:04:52Z) - Learning Latent Representations to Influence Multi-Agent Interaction [65.44092264843538]
エージェントのポリシーの潜在表現を学習するための強化学習に基づくフレームワークを提案する。
提案手法は代替手段よりも優れており,他のエージェントに影響を与えることを学習している。
論文 参考訳(メタデータ) (2020-11-12T19:04:26Z) - Learning from Learners: Adapting Reinforcement Learning Agents to be
Competitive in a Card Game [71.24825724518847]
本稿では,競争力のあるマルチプレイヤーカードゲームの現実的な実装を学習・プレイするために,一般的な強化学習アルゴリズムをどのように適用できるかについて検討する。
本研究は,学習エージェントに対して,エージェントが競争力を持つことの学習方法を評価するための特定のトレーニングと検証ルーチンを提案し,それらが相互の演奏スタイルにどのように適応するかを説明する。
論文 参考訳(メタデータ) (2020-04-08T14:11:05Z) - Parallel Knowledge Transfer in Multi-Agent Reinforcement Learning [0.2538209532048867]
本稿では,MARL(Parallel Attentional Transfer)における新しい知識伝達フレームワークを提案する。
PAT,学生モード,自己学習モードの2つの動作モードを設計する。
エージェントが環境に不慣れな場合、学生モードにおける共有注意機構は、エージェントの行動を決定するために、他のエージェントからの学習知識を効果的に選択する。
論文 参考訳(メタデータ) (2020-03-29T17:42:00Z) - On Simple Reactive Neural Networks for Behaviour-Based Reinforcement
Learning [5.482532589225552]
本稿では,Brookの仮定アーキテクチャに着想を得た行動に基づく強化学習手法を提案する。
作業上の前提は、ロボット開発者のドメイン知識を活用することで、ロボットのピック・アンド・プレイス・タスクを単純化できるということです。
提案手法では,8000エピソードのピック・アンド・プレイス・タスクを学習し,エンド・ツー・エンドアプローチで必要とされるトレーニング・エピソードの数を劇的に削減する。
論文 参考訳(メタデータ) (2020-01-22T11:49:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。