論文の概要: Information Design in Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2305.06807v2
- Date: Sun, 29 Oct 2023 12:30:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 22:39:55.958211
- Title: Information Design in Multi-Agent Reinforcement Learning
- Title(参考訳): マルチエージェント強化学習における情報設計
- Authors: Yue Lin, Wenhao Li, Hongyuan Zha, Baoxiang Wang
- Abstract要約: 強化学習(Reinforcement Learning、RL)は、人間の幼児や動物が環境から学ぶ方法にインスパイアされている。
計算経済学の研究は、他者に直接影響を与える2つの方法を蒸留する: 有形物(機械設計)の提供と情報(情報設計)の提供である。
- 参考スコア(独自算出の注目度): 61.140924904755266
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) is inspired by the way human infants and animals
learn from the environment. The setting is somewhat idealized because, in
actual tasks, other agents in the environment have their own goals and behave
adaptively to the ego agent. To thrive in those environments, the agent needs
to influence other agents so their actions become more helpful and less
harmful. Research in computational economics distills two ways to influence
others directly: by providing tangible goods (mechanism design) and by
providing information (information design). This work investigates information
design problems for a group of RL agents. The main challenges are two-fold. One
is the information provided will immediately affect the transition of the agent
trajectories, which introduces additional non-stationarity. The other is the
information can be ignored, so the sender must provide information that the
receiver is willing to respect. We formulate the Markov signaling game, and
develop the notions of signaling gradient and the extended obedience
constraints that address these challenges. Our algorithm is efficient on
various mixed-motive tasks and provides further insights into computational
economics. Our code is publicly available at
https://github.com/YueLin301/InformationDesignMARL.
- Abstract(参考訳): 強化学習(rl)は、人間の幼児や動物が環境から学ぶ方法に触発されている。
この設定は、実際のタスクでは、環境内の他のエージェントが独自の目標を持ち、エゴエージェントに適応して振る舞うため、やや理想化されている。
これらの環境で繁栄するためには、エージェントは他のエージェントに影響を与える必要がある。
計算経済学の研究は、有形財(機械設計)と情報(情報設計)の2つの方法で他者に直接影響を与える方法を蒸留する。
本研究は,rlエージェント群の情報設計問題を調査する。
主な課題は2つある。
1つは、エージェントの軌跡の遷移に直ちに影響を及ぼす情報であり、追加の非定常性をもたらす。
もう1つは、情報は無視できるため、送信側は受信側が尊重する情報を提供しなければならない。
我々はマルコフシグナリングゲームを定式化し、これらの課題に対処するシグナリング勾配の概念と拡張された服従制約を開発する。
我々のアルゴリズムは様々な混合モチベーションタスクにおいて効率的であり、計算経済学のさらなる洞察を提供する。
私たちのコードはhttps://github.com/YueLin301/InformationDesignMARLで公開されています。
関連論文リスト
- Ignorance is Bliss: Robust Control via Information Gating [60.17644038829572]
情報パーシモニーは、ノイズや突発的相関に頑健であることにより、より良い一般化を実現する学習表現に有用な帰納的バイアスを提供する。
本稿では,タスクに必要な最小限の情報を識別する類似表現を学習する手段として,テキスト情報ゲーティングを提案する。
論文 参考訳(メタデータ) (2023-03-10T18:31:50Z) - GANterfactual-RL: Understanding Reinforcement Learning Agents'
Strategies through Visual Counterfactual Explanations [0.7874708385247353]
本稿では,RLエージェントの反実的説明を生成する手法を提案する。
本手法は完全にモデルに依存しないので,いくつかの計算量において,従来の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-02-24T15:29:43Z) - Denoised MDPs: Learning World Models Better Than the World Itself [94.74665254213588]
本研究は,野生の情報を制御可能性と報酬との関係に基づく4つのタイプに分類し,制御性および報酬関連性の両方に有用な情報を定式化する。
DeepMind Control Suite と RoboDesk の変種に関する実験では、生の観測のみを用いた場合よりも、認知された世界モデルの優れた性能が示されている。
論文 参考訳(メタデータ) (2022-06-30T17:59:49Z) - Retrieval-Augmented Reinforcement Learning [63.32076191982944]
過去の経験のデータセットを最適な行動にマップするために、ネットワークをトレーニングします。
検索プロセスは、現在のコンテキストで有用なデータセットから情報を取得するために訓練される。
検索強化R2D2はベースラインR2D2エージェントよりもかなり高速に学習し,より高いスコアを得ることを示す。
論文 参考訳(メタデータ) (2022-02-17T02:44:05Z) - Modeling Bounded Rationality in Multi-Agent Simulations Using Rationally
Inattentive Reinforcement Learning [85.86440477005523]
我々は、人間不合理性の確立されたモデルであるRational Inattention(RI)モデルを含む、より人間的なRLエージェントについて検討する。
RIRLは、相互情報を用いた認知情報処理のコストをモデル化する。
我々は、RIRLを用いることで、合理的な仮定の下で発見されたものと異なる、新しい平衡挙動の豊富なスペクトルが得られることを示す。
論文 参考訳(メタデータ) (2022-01-18T20:54:00Z) - Agent-Centric Representations for Multi-Agent Reinforcement Learning [12.577354830985012]
完全協調型マルチエージェント強化学習において,対象中心表現が有用であるかどうかを検討する。
具体的には、RLアルゴリズムにエージェント中心の誘導バイアスを組み込む2つの方法を検討する。
これらのアプローチをGoogle Research Football環境およびDeepMind Lab 2D上で評価します。
論文 参考訳(メタデータ) (2021-04-19T15:43:40Z) - Reinforcement Learning, Bit by Bit [27.66567077899924]
強化学習エージェントはシミュレーション環境において顕著な成果を示した。
データ効率は、この成功を現実の環境に運ぶ上で障害となる。
我々は、原則化されたガイダンスを提供する概念と後悔の分析について議論する。
論文 参考訳(メタデータ) (2021-03-06T06:37:46Z) - On the Equilibrium Elicitation of Markov Games Through Information
Design [32.37168850559519]
報償関連環境信号の技術がインテリジェントエージェントの行動にどのように影響するかを研究する。
直接的な情報設計に焦点を合わせることは一般性の損失がないと述べる従順な原則が確立されます。
最適なslack変数を最大化するアプローチに基づいて,情報設計の新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-14T13:30:06Z) - Mutual Information-based State-Control for Intrinsically Motivated
Reinforcement Learning [102.05692309417047]
強化学習において、エージェントは、外部報酬信号を用いて一連の目標に到達することを学習する。
自然界では、知的生物は内部の駆動から学習し、外部の信号を必要としない。
目的状態と制御可能な状態の間の相互情報として本質的な目的を定式化する。
論文 参考訳(メタデータ) (2020-02-05T19:21:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。