Fugu-MT 論文翻訳(概要): Information Design in Multi-Agent Reinforcement Learning

論文の概要: Information Design in Multi-Agent Reinforcement Learning

arxiv url: http://arxiv.org/abs/2305.06807v2
Date: Sun, 29 Oct 2023 12:30:15 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-31 22:39:55.958211
Title: Information Design in Multi-Agent Reinforcement Learning
Title（参考訳）: マルチエージェント強化学習における情報設計
Authors: Yue Lin, Wenhao Li, Hongyuan Zha, Baoxiang Wang
Abstract要約: 強化学習(Reinforcement Learning、RL)は、人間の幼児や動物が環境から学ぶ方法にインスパイアされている。計算経済学の研究は、他者に直接影響を与える2つの方法を蒸留する: 有形物(機械設計)の提供と情報(情報設計)の提供である。
参考スコア（独自算出の注目度）: 61.140924904755266
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Reinforcement learning (RL) is inspired by the way human infants and animals learn from the environment. The setting is somewhat idealized because, in actual tasks, other agents in the environment have their own goals and behave adaptively to the ego agent. To thrive in those environments, the agent needs to influence other agents so their actions become more helpful and less harmful. Research in computational economics distills two ways to influence others directly: by providing tangible goods (mechanism design) and by providing information (information design). This work investigates information design problems for a group of RL agents. The main challenges are two-fold. One is the information provided will immediately affect the transition of the agent trajectories, which introduces additional non-stationarity. The other is the information can be ignored, so the sender must provide information that the receiver is willing to respect. We formulate the Markov signaling game, and develop the notions of signaling gradient and the extended obedience constraints that address these challenges. Our algorithm is efficient on various mixed-motive tasks and provides further insights into computational economics. Our code is publicly available at https://github.com/YueLin301/InformationDesignMARL.
Abstract（参考訳）: 強化学習(rl)は、人間の幼児や動物が環境から学ぶ方法に触発されている。この設定は、実際のタスクでは、環境内の他のエージェントが独自の目標を持ち、エゴエージェントに適応して振る舞うため、やや理想化されている。これらの環境で繁栄するためには、エージェントは他のエージェントに影響を与える必要がある。計算経済学の研究は、有形財(機械設計)と情報(情報設計)の2つの方法で他者に直接影響を与える方法を蒸留する。本研究は,rlエージェント群の情報設計問題を調査する。主な課題は2つある。 1つは、エージェントの軌跡の遷移に直ちに影響を及ぼす情報であり、追加の非定常性をもたらす。もう1つは、情報は無視できるため、送信側は受信側が尊重する情報を提供しなければならない。我々はマルコフシグナリングゲームを定式化し、これらの課題に対処するシグナリング勾配の概念と拡張された服従制約を開発する。我々のアルゴリズムは様々な混合モチベーションタスクにおいて効率的であり、計算経済学のさらなる洞察を提供する。私たちのコードはhttps://github.com/YueLin301/InformationDesignMARLで公開されています。

関連論文リスト

The Sample Complexity of Online Strategic Decision Making with Information Asymmetry and Knowledge Transportability [93.11220429350278]
情報非対称性はマルチエージェントシステムの普及した特徴である。本論文は,オンライン学習における基本的課題について考察する。知識伝達を必要とする場合でも,共同設立者について学ぶために,非I.d.アクションを適用できるのか? 本稿では,情報非対称性下でのシステム力学を正確に同定し,強化学習における知識伝達の課題を効果的にナビゲートするために,サンプル効率のよいアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-06-11T17:06:57Z)
Memento No More: Coaching AI Agents to Master Multiple Tasks via Hints Internalization [56.674356045200696]
本稿では,複雑なメモシステムや事前の高品質な実演データを必要としない,複数のタスクに対する知識とスキルを取り入れたAIエージェントの訓練手法を提案する。このアプローチでは,エージェントが新たな経験を収集し,ヒントの形で人間から補正フィードバックを受け取り,このフィードバックを重みに組み込む,反復的なプロセスを採用している。 Llama-3 をベースとしたエージェントに実装することで,提案手法の有効性を実証し,数ラウンドのフィードバックの後,高度なモデル GPT-4o と DeepSeek-V3 をタスクセットで向上させる。
論文参考訳（メタデータ） (2025-02-03T17:45:46Z)
Semifactual Explanations for Reinforcement Learning [1.5320737596132754]
強化学習(Reinforcement Learning、RL)は、エージェントが試行錯誤を通じて環境から学習する学習パラダイムである。ディープ強化学習(DRL)アルゴリズムは、ニューラルネットワークを使用してエージェントのポリシーを表現し、その決定を解釈しにくくする。 DRLエージェントの動作を説明するには,ユーザの信頼を向上し,エンゲージメントを高め,実際のタスクとの統合を容易にする必要がある。
論文参考訳（メタデータ） (2024-09-09T08:37:47Z)
AgentGym: Evolving Large Language Model-based Agents across Diverse Environments [116.97648507802926]
大規模言語モデル(LLM)はそのようなエージェントを構築するための有望な基盤と考えられている。我々は、自己進化能力を備えた一般機能 LLM ベースのエージェントを構築するための第一歩を踏み出す。我々はAgentGymを提案する。AgentGymは、幅広い、リアルタイム、ユニフォーマット、並行エージェント探索のための様々な環境とタスクを特徴とする新しいフレームワークである。
論文参考訳（メタデータ） (2024-06-06T15:15:41Z)
Knowledge Boundary and Persona Dynamic Shape A Better Social Media Agent [69.12885360755408]
パーソナライズされた知識と動的ペルソナ情報に基づくソーシャルメディアエージェントを構築する。パーソナライズされた知識に対して、外部知識ソースを追加し、エージェントのペルソナ情報とマッチングすることにより、エージェントにパーソナライズされた世界知識を与える。動的ペルソナ情報については、現在の行動情報を用いてエージェントのペルソナ情報を内部的に検索し、現在の行動に対する多様なペルソナ情報の干渉を低減する。
論文参考訳（メタデータ） (2024-03-28T10:01:23Z)
Ignorance is Bliss: Robust Control via Information Gating [60.17644038829572]
情報パーシモニーは、ノイズや突発的相関に頑健であることにより、より良い一般化を実現する学習表現に有用な帰納的バイアスを提供する。本稿では,タスクに必要な最小限の情報を識別する類似表現を学習する手段として,テキスト情報ゲーティングを提案する。
論文参考訳（メタデータ） (2023-03-10T18:31:50Z)
GANterfactual-RL: Understanding Reinforcement Learning Agents' Strategies through Visual Counterfactual Explanations [0.7874708385247353]
本稿では,RLエージェントの反実的説明を生成する手法を提案する。本手法は完全にモデルに依存しないので,いくつかの計算量において,従来の手法よりも優れていることを示す。
論文参考訳（メタデータ） (2023-02-24T15:29:43Z)
Denoised MDPs: Learning World Models Better Than the World Itself [94.74665254213588]
本研究は,野生の情報を制御可能性と報酬との関係に基づく4つのタイプに分類し,制御性および報酬関連性の両方に有用な情報を定式化する。 DeepMind Control Suite と RoboDesk の変種に関する実験では、生の観測のみを用いた場合よりも、認知された世界モデルの優れた性能が示されている。
論文参考訳（メタデータ） (2022-06-30T17:59:49Z)
Retrieval-Augmented Reinforcement Learning [63.32076191982944]
過去の経験のデータセットを最適な行動にマップするために、ネットワークをトレーニングします。検索プロセスは、現在のコンテキストで有用なデータセットから情報を取得するために訓練される。検索強化R2D2はベースラインR2D2エージェントよりもかなり高速に学習し,より高いスコアを得ることを示す。
論文参考訳（メタデータ） (2022-02-17T02:44:05Z)
Reinforcement Learning, Bit by Bit [27.66567077899924]
強化学習エージェントはシミュレーション環境において顕著な成果を示した。データ効率は、この成功を現実の環境に運ぶ上で障害となる。我々は、原則化されたガイダンスを提供する概念と後悔の分析について議論する。
論文参考訳（メタデータ） (2021-03-06T06:37:46Z)
On the Equilibrium Elicitation of Markov Games Through Information Design [32.37168850559519]
報償関連環境信号の技術がインテリジェントエージェントの行動にどのように影響するかを研究する。直接的な情報設計に焦点を合わせることは一般性の損失がないと述べる従順な原則が確立されます。最適なslack変数を最大化するアプローチに基づいて,情報設計の新しいフレームワークを提案する。
論文参考訳（メタデータ） (2021-02-14T13:30:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。