論文の概要: IQ-Flow: Mechanism Design for Inducing Cooperative Behavior to
Self-Interested Agents in Sequential Social Dilemmas
- arxiv url: http://arxiv.org/abs/2302.14604v1
- Date: Tue, 28 Feb 2023 14:44:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-01 16:17:02.695809
- Title: IQ-Flow: Mechanism Design for Inducing Cooperative Behavior to
Self-Interested Agents in Sequential Social Dilemmas
- Title(参考訳): IQ-Flow:シークエンシャル社会ジレンマにおける自己関心エージェントの協調行動誘導機構の設計
- Authors: Bengisu Guresti, Abdullah Vanlioglu, Nazim Kemal Ure
- Abstract要約: Incentive Q-Flow (IQ-Flow) アルゴリズムを提案する。
自己関心のあるエージェントのインセンティブを学習する既存の方法とは異なり、IQ-Flowはエージェントのポリシーに関する仮定を一切行わない。
Escape Room や 2-Player のクリーンアップ環境において,IQ-Flow が最先端のインセンティブ設計アルゴリズムより優れていることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Achieving and maintaining cooperation between agents to accomplish a common
objective is one of the central goals of Multi-Agent Reinforcement Learning
(MARL). Nevertheless in many real-world scenarios, separately trained and
specialized agents are deployed into a shared environment, or the environment
requires multiple objectives to be achieved by different coexisting parties.
These variations among specialties and objectives are likely to cause mixed
motives that eventually result in a social dilemma where all the parties are at
a loss. In order to resolve this issue, we propose the Incentive Q-Flow
(IQ-Flow) algorithm, which modifies the system's reward setup with an incentive
regulator agent such that the cooperative policy also corresponds to the
self-interested policy for the agents. Unlike the existing methods that learn
to incentivize self-interested agents, IQ-Flow does not make any assumptions
about agents' policies or learning algorithms, which enables the generalization
of the developed framework to a wider array of applications. IQ-Flow performs
an offline evaluation of the optimality of the learned policies using the data
provided by other agents to determine cooperative and self-interested policies.
Next, IQ-Flow uses meta-gradient learning to estimate how policy evaluation
changes according to given incentives and modifies the incentive such that the
greedy policy for cooperative objective and self-interested objective yield the
same actions. We present the operational characteristics of IQ-Flow in Iterated
Matrix Games. We demonstrate that IQ-Flow outperforms the state-of-the-art
incentive design algorithm in Escape Room and 2-Player Cleanup environments. We
further demonstrate that the pretrained IQ-Flow mechanism significantly
outperforms the performance of the shared reward setup in the 2-Player Cleanup
environment.
- Abstract(参考訳): 共通の目的を達成するためのエージェント間の協力と維持は、MARL(Multi-Agent Reinforcement Learning)の中心的な目標の1つである。
それにもかかわらず、多くの現実世界のシナリオでは、個別に訓練されたエージェントと専門化されたエージェントが共有環境にデプロイされる。
これらの専門性と目的のバリエーションは、最終的にはすべての当事者が失われる社会的ジレンマを引き起こす混合動機を引き起こす可能性が高い。
この問題を解決するために,インセンティブ型Qフロー(IQ-Flow)アルゴリズムを提案する。このアルゴリズムは,協調政策がエージェントの自己関心ポリシーに対応するように,インセンティブ型規制エージェントでシステムの報酬設定を変更する。
自己関心のあるエージェントにインセンティブを与えることを学ぶ既存の方法とは異なり、iq-flowはエージェントのポリシーや学習アルゴリズムについて仮定していない。
IQ-Flowは、他のエージェントが提供したデータを用いて、学習したポリシーの最適性をオフラインで評価し、協調的かつ自己関心の政策を決定する。
次に、IQ-Flowはメタグラディエント学習を用いて、与えられたインセンティブに応じて政策評価がどのように変化するかを推定し、協調目的と自己関心の対象に対する欲求政策が同じ行動をもたらすようなインセンティブを変更する。
反復行列ゲームにおけるIQ-Flowの動作特性について述べる。
Escape Room や 2-Player のクリーンアップ環境において,IQ-Flow が最先端のインセンティブ設計アルゴリズムより優れていることを示す。
さらに,事前学習したIQ-Flow機構は,2プレーヤクリーンアップ環境における共有報酬設定の性能を著しく向上させることを示した。
関連論文リスト
- Principal-Agent Reinforcement Learning: Orchestrating AI Agents with Contracts [20.8288955218712]
本稿では,マルコフ決定プロセス(MDP)のエージェントを一連の契約でガイドするフレームワークを提案する。
我々は,主観とエージェントの方針を反復的に最適化するメタアルゴリズムを提示し,分析する。
次に,本アルゴリズムを深層Q-ラーニングで拡張し,近似誤差の存在下での収束度を解析する。
論文 参考訳(メタデータ) (2024-07-25T14:28:58Z) - Efficient Adaptation in Mixed-Motive Environments via Hierarchical Opponent Modeling and Planning [51.52387511006586]
本稿では,HOP(Hierarchical Opponent Modeling and Planning)を提案する。
HOPは階層的に2つのモジュールから構成される: 相手の目標を推論し、対応する目標条件のポリシーを学ぶ、反対モデリングモジュール。
HOPは、さまざまな未確認エージェントと相互作用する際、優れた少数ショット適応能力を示し、セルフプレイのシナリオで優れている。
論文 参考訳(メタデータ) (2024-06-12T08:48:06Z) - LOQA: Learning with Opponent Q-Learning Awareness [1.1666234644810896]
本稿では,エージェントの個々のユーティリティを最適化する分散型強化学習アルゴリズムであるLearning with Opponent Q-Learning Awareness (LOQA)を紹介する。
LOQAは、Iterated Prisoner's DilemmaやCoin Gameのようなベンチマークシナリオで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-05-02T06:33:01Z) - DCIR: Dynamic Consistency Intrinsic Reward for Multi-Agent Reinforcement
Learning [84.22561239481901]
本稿では,エージェントの行動が他のエージェントの行動と一致しているかどうかを学習するための新しいアプローチを提案する。
マルチエージェント粒子, Google Research Football および StarCraft II Micromanagement を含む複数の環境における DCIR の評価を行った。
論文 参考訳(メタデータ) (2023-12-10T06:03:57Z) - Pointer Networks with Q-Learning for Combinatorial Optimization [55.2480439325792]
我々は、モデルフリーQ値ポリシー近似をPointer Networks(Ptr-Nets)と統合したハイブリッドニューラルネットワークであるPointer Q-Network(PQN)を紹介する。
実験により,本手法の有効性を実証し,不安定な環境でモデルをテストする。
論文 参考訳(メタデータ) (2023-11-05T12:03:58Z) - Context-Aware Bayesian Network Actor-Critic Methods for Cooperative
Multi-Agent Reinforcement Learning [7.784991832712813]
本稿では, エージェントの行動選択の相関関係を, 共同政策に導入するベイズネットワークを提案する。
本研究では,コンテキスト認識型ベイズ型ネットワークポリシを学習するための実用的なアルゴリズムを開発した。
MARLベンチマークの実証結果は,我々のアプローチの利点を示している。
論文 参考訳(メタデータ) (2023-06-02T21:22:27Z) - Q-learning with biased policy rules [0.0]
動的環境において、Q-ラーニング(Q-learning)は、利用可能な各アクションに関連する継続値の推定(Q-値)を提供するオートマトンである。
我々は、Q値に基づくが、そのポリシーが体系的に他人よりもいくつかの行動を好むようなオートマトン族を考える。
論文 参考訳(メタデータ) (2023-04-25T08:25:10Z) - Residual Q-Networks for Value Function Factorizing in Multi-Agent
Reinforcement Learning [0.0]
マルチエージェント強化学習(MARL)のためのResidual Q-Networks(RQN)の概念を提案する。
RQNは、個人-グローバル-マックス基準(IGM)を保存する方法で、個々のQ値軌跡を変換することを学ぶ
提案手法はより高速に収束し、安定性が向上し、より広い環境群で堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-05-30T16:56:06Z) - DQMIX: A Distributional Perspective on Multi-Agent Reinforcement
Learning [122.47938710284784]
協調的マルチエージェントタスクでは、エージェントのチームがアクションを取り、報酬を受け取り、次の状態を観察し、環境と共同で対話する。
既存の価値に基づく多エージェント強化学習手法のほとんどは、個々のQ値とグローバルQ値の期待をモデル化するのみである。
論文 参考訳(メタデータ) (2022-02-21T11:28:00Z) - Implicit Distributional Reinforcement Learning [61.166030238490634]
2つのディープジェネレータネットワーク(DGN)上に構築された暗黙の分布型アクター批判(IDAC)
半単純アクター (SIA) は、フレキシブルなポリシー分布を利用する。
我々は,代表的OpenAI Gym環境において,IDACが最先端のアルゴリズムより優れていることを観察する。
論文 参考訳(メタデータ) (2020-07-13T02:52:18Z) - FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。
離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。
我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文 参考訳(メタデータ) (2020-03-14T21:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。