論文の概要: On the Equilibrium Elicitation of Markov Games Through Information
Design
- arxiv url: http://arxiv.org/abs/2102.07152v1
- Date: Sun, 14 Feb 2021 13:30:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-16 15:28:25.624247
- Title: On the Equilibrium Elicitation of Markov Games Through Information
Design
- Title(参考訳): 情報設計によるマルコフゲームの平衡解法について
- Authors: Tao Zhang, Quanyan Zhu
- Abstract要約: 報償関連環境信号の技術がインテリジェントエージェントの行動にどのように影響するかを研究する。
直接的な情報設計に焦点を合わせることは一般性の損失がないと述べる従順な原則が確立されます。
最適なslack変数を最大化するアプローチに基づいて,情報設計の新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 32.37168850559519
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work considers a novel information design problem and studies how the
craft of payoff-relevant environmental signals solely can influence the
behaviors of intelligent agents. The agents' strategic interactions are
captured by an incomplete-information Markov game, in which each agent first
selects one environmental signal from multiple signal sources as additional
payoff-relevant information and then takes an action. There is a rational
information designer (designer) who possesses one signal source and aims to
control the equilibrium behaviors of the agents by designing the information
structure of her signals sent to the agents. An obedient principle is
established which states that it is without loss of generality to focus on the
direct information design when the information design incentivizes each agent
to select the signal sent by the designer, such that the design process avoids
the predictions of the agents' strategic selection behaviors. We then introduce
the design protocol given a goal of the designer referred to as obedient
implementability (OIL) and characterize the OIL in a class of obedient perfect
Bayesian Markov Nash equilibria (O-PBME). A new framework for information
design is proposed based on an approach of maximizing the optimal slack
variables. Finally, we formulate the designer's goal selection problem and
characterize it in terms of information design by establishing a relationship
between the O-PBME and the Bayesian Markov correlated equilibria, in which we
build upon the revelation principle in classic information design in economics.
The proposed approach can be applied to elicit desired behaviors of multi-agent
systems in competing as well as cooperating settings and be extended to
heterogeneous stochastic games in the complete- and the incomplete-information
environments.
- Abstract(参考訳): 本研究は,新しい情報設計問題を検討し,知的エージェントの行動にのみ影響するペイオフ関連環境信号の手法について検討する。
エージェントの戦略的相互作用は、各エージェントが複数の信号源から1つの環境信号を追加のペイオフ関連情報として選択し、次にアクションを取る不完全情報マルコフゲームによってキャプチャされる。
有理情報設計者(設計者)は一つの信号源を持ち、エージェントに送られたシグナルの情報構造を設計することによってエージェントの平衡挙動を制御することを目的としている。
情報設計が各エージェントにインセンティブを与えてデザイナが送信した信号を選択し、設計プロセスがエージェントの戦略選択行動の予測を回避した場合に、直接情報設計に集中することが一般性を損なうことがないことを示す従順原理が確立される。
次に, 従順実装性(OIL)と呼ばれる設計者の目標を前提とした設計プロトコルを導入し, 従順完全マルコフ・ナッシュ均衡(O-PBME)のクラスでOILを特徴付ける。
最適なslack変数を最大化するアプローチに基づいて,情報設計の新しいフレームワークを提案する。
最後に、O-PBMEとベイジアンマルコフ相関平衡の関係を確立し、経済における古典的な情報設計における啓示原則に基づいて、設計者の目標選択問題を策定し、情報設計の観点から特徴づけます。
提案手法は,競争におけるマルチエージェントシステムの望ましい行動や,協調的な設定,完全および不完全情報環境における異種確率ゲームへの拡張に応用できる。
関連論文リスト
- Communication Learning in Multi-Agent Systems from Graph Modeling Perspective [62.13508281188895]
本稿では,エージェント間の通信アーキテクチャを学習可能なグラフとして概念化する手法を提案する。
本稿では,各エージェントに対して時間的ゲーティング機構を導入し,ある時間に共有情報を受信するかどうかの動的決定を可能にする。
論文 参考訳(メタデータ) (2024-11-01T05:56:51Z) - Information Design in Multi-Agent Reinforcement Learning [61.140924904755266]
強化学習(Reinforcement Learning、RL)は、人間の幼児や動物が環境から学ぶ方法にインスパイアされている。
計算経済学の研究は、他者に直接影響を与える2つの方法を蒸留する: 有形物(機械設計)の提供と情報(情報設計)の提供である。
論文 参考訳(メタデータ) (2023-05-08T07:52:15Z) - Sequential Bayesian Optimization for Adaptive Informative Path Planning
with Multimodal Sensing [34.86734745942814]
本稿では,複数のセンサを備えたエージェントの問題点について考察する。
エージェントの目標は、未知の、部分的に観測可能な環境において、環境を探索し、そのリソース制約の対象となる情報を集めることである。
我々は,AIPPMS問題を,ガウス過程の信念を用いたマルコフ決定過程として定式化し,オンラインプランニングによる逐次ベイズ最適化アプローチを用いて解決する。
論文 参考訳(メタデータ) (2022-09-16T00:50:36Z) - Pessimism meets VCG: Learning Dynamic Mechanism Design via Offline
Reinforcement Learning [114.36124979578896]
オフライン強化学習アルゴリズムを用いて動的メカニズムを設計する。
我々のアルゴリズムは悲観主義の原理に基づいており、オフラインデータセットのカバレッジについて軽度な仮定しか必要としない。
論文 参考訳(メタデータ) (2022-05-05T05:44:26Z) - Sequential Information Design: Markov Persuasion Process and Its
Efficient Reinforcement Learning [156.5667417159582]
本稿では,逐次情報設計の新たなモデル,すなわちマルコフ説得過程(MPP)を提案する。
MPPのプランニングは、ミオピックレシーバーに同時に説得されるシグナルポリシーを見つけ、送信者の最適な長期累積ユーティリティを誘導する、というユニークな課題に直面している。
我々は,楽観主義と悲観主義の両原理の新たな組み合わせを特徴とする,実証可能な効率のよい非回帰学習アルゴリズム,Optimism-Pessimism Principle for Persuasion Process (OP4) を設計する。
論文 参考訳(メタデータ) (2022-02-22T05:41:43Z) - The Value of Information When Deciding What to Learn [21.945359614094503]
本研究は情報指向サンプリングの設計原理に基づく(Russo & Van Roy, 2014)。
我々は,学習内容を決定する際の情報の価値を確認する実証的な結果に目を向ける前に,学習目標に関する文献からの新たな知見を提示する。
論文 参考訳(メタデータ) (2021-10-26T19:23:12Z) - A Consciousness-Inspired Planning Agent for Model-Based Reinforcement
Learning [104.3643447579578]
本稿では、その状態の関連部分に動的に対応できるエンドツーエンドのモデルベース深層強化学習エージェントを提案する。
この設計により、エージェントは関連するオブジェクトに参画することで効果的に計画を学ぶことができ、配布外一般化がより良くなる。
論文 参考訳(メタデータ) (2021-06-03T19:35:19Z) - Informational Design of Dynamic Multi-Agent System [32.37168850559519]
報償関連環境信号の技術がインテリジェントエージェントの行動にどのように影響するかを研究する。
直接的な情報設計に焦点を合わせることは一般性の損失がないと述べる従順な原則が確立されます。
エージェントにプリンシパルが送信する信号を選択するインセンティブを与える固定点アライメント(fix-point alignment)と呼ばれるアプローチに基づいて、フレームワークを提案する。
論文 参考訳(メタデータ) (2021-05-07T03:46:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。