論文の概要: Information Design in Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2305.06807v1
- Date: Mon, 8 May 2023 07:52:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-12 14:41:31.940233
- Title: Information Design in Multi-Agent Reinforcement Learning
- Title(参考訳): マルチエージェント強化学習における情報設計
- Authors: Yue Lin, Wenhao Li, Hongyuan Zha, Baoxiang Wang
- Abstract要約: 強化学習(Reinforcement Learning、RL)は、人間と動物が環境とどのように相互作用するかを模倣する。
計算経済学の研究は、他者に直接影響を与える2つの方法、すなわち、有形物を提供することと情報を提供することである。
本稿では,RLエージェント群における情報設計問題について検討する。
- 参考スコア(独自算出の注目度): 63.5376386125822
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) mimics how humans and animals interact with the
environment. The setting is somewhat idealized because, in actual tasks, other
agents in the environment have their own goals and behave adaptively to the ego
agent. To thrive in those environments, the agent needs to influence other
agents so their actions become more helpful and less harmful. Research in
computational economics distills two ways to influence others directly: by
providing tangible goods (mechanism design) and by providing information
(information design). This work investigates information design problems for a
group of RL agents. The main challenges are two-fold. One is the information
provided will immediately affect the transition of the agent trajectories,
which introduces additional non-stationarity. The other is the information can
be ignored, so the sender must provide information that the receivers are
willing to respect. We formulate the Markov signaling game, and develop the
notions of signaling gradient and the extended obedience constraints that
address these challenges. Our algorithm is efficient on various mixed-motive
tasks and provides further insights into computational economics. Our code is
available at https://github.com/YueLin301/InformationDesignMARL.
- Abstract(参考訳): 強化学習(RL)は、人間と動物が環境とどのように相互作用するかを模倣する。
この設定は、実際のタスクでは、環境内の他のエージェントが独自の目標を持ち、エゴエージェントに適応して振る舞うため、やや理想化されている。
これらの環境で繁栄するためには、エージェントは他のエージェントに影響を与える必要がある。
計算経済学の研究は、有形財(機械設計)と情報(情報設計)の2つの方法で他者に直接影響を与える方法を蒸留する。
本研究は,rlエージェント群の情報設計問題を調査する。
主な課題は2つある。
1つは、エージェントの軌跡の遷移に直ちに影響を及ぼす情報であり、追加の非定常性をもたらす。
もう1つは、情報は無視できるため、送信側は受信側が尊重する情報を提供しなければならない。
我々はマルコフシグナリングゲームを定式化し、これらの課題に対処するシグナリング勾配の概念と拡張された服従制約を開発する。
我々のアルゴリズムは様々な混合モチベーションタスクにおいて効率的であり、計算経済学のさらなる洞察を提供する。
私たちのコードはhttps://github.com/YueLin301/InformationDesignMARLで利用可能です。
関連論文リスト
- Semifactual Explanations for Reinforcement Learning [1.5320737596132754]
強化学習(Reinforcement Learning、RL)は、エージェントが試行錯誤を通じて環境から学習する学習パラダイムである。
ディープ強化学習(DRL)アルゴリズムは、ニューラルネットワークを使用してエージェントのポリシーを表現し、その決定を解釈しにくくする。
DRLエージェントの動作を説明するには,ユーザの信頼を向上し,エンゲージメントを高め,実際のタスクとの統合を容易にする必要がある。
論文 参考訳(メタデータ) (2024-09-09T08:37:47Z) - AgentGym: Evolving Large Language Model-based Agents across Diverse Environments [116.97648507802926]
大規模言語モデル(LLM)はそのようなエージェントを構築するための有望な基盤と考えられている。
我々は、自己進化能力を備えた一般機能 LLM ベースのエージェントを構築するための第一歩を踏み出す。
我々はAgentGymを提案する。AgentGymは、幅広い、リアルタイム、ユニフォーマット、並行エージェント探索のための様々な環境とタスクを特徴とする新しいフレームワークである。
論文 参考訳(メタデータ) (2024-06-06T15:15:41Z) - Knowledge Boundary and Persona Dynamic Shape A Better Social Media Agent [69.12885360755408]
パーソナライズされた知識と動的ペルソナ情報に基づくソーシャルメディアエージェントを構築する。
パーソナライズされた知識に対して、外部知識ソースを追加し、エージェントのペルソナ情報とマッチングすることにより、エージェントにパーソナライズされた世界知識を与える。
動的ペルソナ情報については、現在の行動情報を用いてエージェントのペルソナ情報を内部的に検索し、現在の行動に対する多様なペルソナ情報の干渉を低減する。
論文 参考訳(メタデータ) (2024-03-28T10:01:23Z) - Ignorance is Bliss: Robust Control via Information Gating [60.17644038829572]
情報パーシモニーは、ノイズや突発的相関に頑健であることにより、より良い一般化を実現する学習表現に有用な帰納的バイアスを提供する。
本稿では,タスクに必要な最小限の情報を識別する類似表現を学習する手段として,テキスト情報ゲーティングを提案する。
論文 参考訳(メタデータ) (2023-03-10T18:31:50Z) - GANterfactual-RL: Understanding Reinforcement Learning Agents'
Strategies through Visual Counterfactual Explanations [0.7874708385247353]
本稿では,RLエージェントの反実的説明を生成する手法を提案する。
本手法は完全にモデルに依存しないので,いくつかの計算量において,従来の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-02-24T15:29:43Z) - Denoised MDPs: Learning World Models Better Than the World Itself [94.74665254213588]
本研究は,野生の情報を制御可能性と報酬との関係に基づく4つのタイプに分類し,制御性および報酬関連性の両方に有用な情報を定式化する。
DeepMind Control Suite と RoboDesk の変種に関する実験では、生の観測のみを用いた場合よりも、認知された世界モデルの優れた性能が示されている。
論文 参考訳(メタデータ) (2022-06-30T17:59:49Z) - Retrieval-Augmented Reinforcement Learning [63.32076191982944]
過去の経験のデータセットを最適な行動にマップするために、ネットワークをトレーニングします。
検索プロセスは、現在のコンテキストで有用なデータセットから情報を取得するために訓練される。
検索強化R2D2はベースラインR2D2エージェントよりもかなり高速に学習し,より高いスコアを得ることを示す。
論文 参考訳(メタデータ) (2022-02-17T02:44:05Z) - Reinforcement Learning, Bit by Bit [27.66567077899924]
強化学習エージェントはシミュレーション環境において顕著な成果を示した。
データ効率は、この成功を現実の環境に運ぶ上で障害となる。
我々は、原則化されたガイダンスを提供する概念と後悔の分析について議論する。
論文 参考訳(メタデータ) (2021-03-06T06:37:46Z) - On the Equilibrium Elicitation of Markov Games Through Information
Design [32.37168850559519]
報償関連環境信号の技術がインテリジェントエージェントの行動にどのように影響するかを研究する。
直接的な情報設計に焦点を合わせることは一般性の損失がないと述べる従順な原則が確立されます。
最適なslack変数を最大化するアプローチに基づいて,情報設計の新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-14T13:30:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。