論文の概要: Informational Design of Dynamic Multi-Agent System
- arxiv url: http://arxiv.org/abs/2105.03052v1
- Date: Fri, 7 May 2021 03:46:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-10 12:12:30.081875
- Title: Informational Design of Dynamic Multi-Agent System
- Title(参考訳): 動的マルチエージェントシステムの情報設計
- Authors: Tao Zhang and Quanyan Zhu
- Abstract要約: 報償関連環境信号の技術がインテリジェントエージェントの行動にどのように影響するかを研究する。
直接的な情報設計に焦点を合わせることは一般性の損失がないと述べる従順な原則が確立されます。
エージェントにプリンシパルが送信する信号を選択するインセンティブを与える固定点アライメント(fix-point alignment)と呼ばれるアプローチに基づいて、フレームワークを提案する。
- 参考スコア(独自算出の注目度): 32.37168850559519
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work considers a novel information design problem and studies how the
craft of payoff-relevant environmental signals solely can influence the
behaviors of intelligent agents. The agents' strategic interactions are
captured by an incomplete-information Markov game, in which each agent first
selects one environmental signal from multiple signal sources as additional
payoff-relevant information and then takes an action. There is a rational
information designer (principal) who possesses one signal source and aims to
control the equilibrium behaviors of the agents by designing the information
structure of her signals sent to the agents. An obedient principle is
established which states that it is without loss of generality to focus on the
direct information design when the information design incentivizes each agent
to select the signal sent by the principal, such that the design process avoids
the predictions of the agents' strategic selection behaviors. Based on the
obedient principle, we introduce the design protocol given a goal of the
principal referred to as obedient implementability (OIL) and study a Myersonian
information design that characterizes the OIL in a class of obedient sequential
Markov perfect Bayesian equilibria (O-SMPBE). A framework is proposed based on
an approach which we refer to as the fixed-point alignment that incentivizes
the agents to choose the signal sent by the principal, makes sure that the
agents' policy profile of taking actions is the policy component of an O-SMPBE,
and the principal's goal is achieved. The proposed approach can be applied to
elicit desired behaviors of multi-agent systems in competing as well as
cooperating settings and be extended to heterogeneous stochastic games in the
complete- and the incomplete-information environments.
- Abstract(参考訳): 本研究は,新しい情報設計問題を検討し,知的エージェントの行動にのみ影響するペイオフ関連環境信号の手法について検討する。
エージェントの戦略的相互作用は、各エージェントが複数の信号源から1つの環境信号を追加のペイオフ関連情報として選択し、次にアクションを取る不完全情報マルコフゲームによってキャプチャされる。
1つの信号源を持ち、エージェントに送られたシグナルの情報構造を設計することによってエージェントの平衡挙動を制御することを目的とした合理的情報デザイナー(原則)が存在する。
設計プロセスがエージェントの戦略選択行動の予測を避けるように、情報設計がプリンシパルが送信する信号を選択するよう各エージェントにインセンティブを与えるとき、直接情報設計に焦点を合わせることは一般性を失うことなく行われるという従属原理が確立されている。
従順性原理に基づき、従順性実装性(OIL)と呼ばれるプリンシパルの目標を与えられた設計プロトコルを導入し、従順性マルコフ完全ベイズ平衡(O-SMPBE)のクラスでOILを特徴付けるマイアソン情報設計について検討する。
提案手法は, エージェントがプリンシパルから送られてくる信号を選択することを動機付ける固定点アライメント(固定点アライメント)として, エージェントの行動方針プロファイルがO-SMPBEの政策成分であることを確認し, プリンシパルの目標を達成するための枠組みを提案する。
提案手法は,競争におけるマルチエージェントシステムの望ましい行動や,協調的な設定,完全および不完全情報環境における異種確率ゲームへの拡張に応用できる。
関連論文リスト
- The Landscape of Emerging AI Agent Architectures for Reasoning, Planning, and Tool Calling: A Survey [0.0]
本稿では,AIエージェントの実装の最近の進歩について考察する。
推論、計画、ツールの実行能力の強化を必要とする複雑な目標を達成する能力に重点を置いている。
論文 参考訳(メタデータ) (2024-04-17T17:32:41Z) - Pure Exploration under Mediators' Feedback [63.56002444692792]
マルチアームバンディット(Multi-armed bandits)は、各インタラクションステップにおいて、学習者が腕を選択し、報酬を観察する、シーケンシャルな意思決定フレームワークである。
本稿では,学習者が仲介者の集合にアクセスできるシナリオについて考察する。
本稿では,学習者には仲介者の方針が知られていると仮定して,最適な腕を発見するための逐次的意思決定戦略を提案する。
論文 参考訳(メタデータ) (2023-08-29T18:18:21Z) - Information Design in Multi-Agent Reinforcement Learning [61.140924904755266]
強化学習(Reinforcement Learning、RL)は、人間の幼児や動物が環境から学ぶ方法にインスパイアされている。
計算経済学の研究は、他者に直接影響を与える2つの方法を蒸留する: 有形物(機械設計)の提供と情報(情報設計)の提供である。
論文 参考訳(メタデータ) (2023-05-08T07:52:15Z) - Strategic Decision-Making in the Presence of Information Asymmetry:
Provably Efficient RL with Algorithmic Instruments [55.41685740015095]
我々は,戦略MDPと呼ばれる新しいモデルの下で,オフライン強化学習について検討する。
アルゴリズムiNstruments(PLAN)を用いたペシミスティックポリシー学習法を提案する。
論文 参考訳(メタデータ) (2022-08-23T15:32:44Z) - Coordinating Policies Among Multiple Agents via an Intelligent
Communication Channel [81.39444892747512]
MARL(Multi-Agent Reinforcement Learning)では、エージェントが直接通信できる特別なチャンネルがしばしば導入される。
本稿では,エージェントの集団的性能を向上させるために,エージェントが提供した信号の伝達と解釈を学習する,インテリジェントなファシリテータを通じてエージェントがコミュニケーションする手法を提案する。
論文 参考訳(メタデータ) (2022-05-21T14:11:33Z) - On the Equilibrium Elicitation of Markov Games Through Information
Design [32.37168850559519]
報償関連環境信号の技術がインテリジェントエージェントの行動にどのように影響するかを研究する。
直接的な情報設計に焦点を合わせることは一般性の損失がないと述べる従順な原則が確立されます。
最適なslack変数を最大化するアプローチに基づいて,情報設計の新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-14T13:30:06Z) - "I Don't Think So": Disagreement-Based Policy Summaries for Comparing
Agents [2.6270468656705765]
本稿では,エージェントのポリシーの違いを強調するコントラスト的な要約を生成する手法を提案する。
本結果から, 新規な不一致に基づく要約は, HighLIGHTS を用いた要約に比べてユーザパフォーマンスの向上につながることが示された。
論文 参考訳(メタデータ) (2021-02-05T09:09:00Z) - Model-based Reinforcement Learning for Decentralized Multiagent
Rendezvous [66.6895109554163]
目標を他のエージェントと整合させる人間の能力の下にあるのは、他人の意図を予測し、自分たちの計画を積極的に更新する能力である。
分散型マルチエージェントレンデブーのためのモデルに基づく強化学習手法である階層型予測計画(HPP)を提案する。
論文 参考訳(メタデータ) (2020-03-15T19:49:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。