Fugu-MT 論文翻訳(概要): Transfer in Reinforcement Learning via Regret Bounds for Learning Agents

論文の概要: Transfer in Reinforcement Learning via Regret Bounds for Learning Agents

arxiv url: http://arxiv.org/abs/2202.01182v1
Date: Wed, 2 Feb 2022 18:10:21 GMT
ステータス: 翻訳完了
システム内更新日: 2022-02-03 15:20:58.287104
Title: Transfer in Reinforcement Learning via Regret Bounds for Learning Agents
Title（参考訳）: 学習エージェントに対する後悔領域による強化学習の伝達
Authors: Adrienne Tuynman and Ronald Ortner
Abstract要約: エージェントが観察結果を共有すると、すべてのエージェントの完全な後悔は$sqrtaleph$でより小さくなる。この結果は,複数エージェント設定における後悔を考慮すれば,伝達学習における観測結果の共有の利点に理論的制約を与えることができることを示す。
参考スコア（独自算出の注目度）: 2.023315598404668
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present an approach for the quantification of the usefulness of transfer in reinforcement learning via regret bounds for a multi-agent setting. Considering a number of $\aleph$ agents operating in the same Markov decision process, however possibly with different reward functions, we consider the regret each agent suffers with respect to an optimal policy maximizing her average reward. We show that when the agents share their observations the total regret of all agents is smaller by a factor of $\sqrt{\aleph}$ compared to the case when each agent has to rely on the information collected by herself. This result demonstrates how considering the regret in multi-agent settings can provide theoretical bounds on the benefit of sharing observations in transfer learning.
Abstract（参考訳）: 本稿では,複数エージェント設定に対する後悔境界による強化学習における伝達の有用性の定量化手法を提案する。同じマルコフ決定プロセスで動作する複数の$\aleph$エージェントを考えるが、おそらく異なる報酬機能を持つので、それぞれのエージェントが平均的な報酬を最大化する最適ポリシーに関して苦しむ後悔を考える。エージェントが観察を共有すると、各エージェントが自身の収集した情報に依存する必要がある場合と比較して、すべてのエージェントの後悔の総数は$\sqrt{\aleph}$の係数で小さいことが分かる。この結果は,複数エージェント設定における後悔を考慮すれば,伝達学習における観測結果の共有の利点に理論的制約を与えることができることを示す。

関連論文リスト

Multi-Agent Imitation Learning: Value is Easy, Regret is Hard [52.31989962031179]
我々は,エージェント群を協調させようとする学習者の視点で,マルチエージェント模倣学習(MAIL)問題を研究する。 MAILの以前の作業のほとんどは、基本的には、デモのサポート内で専門家の振る舞いにマッチする問題を減らすものです。エージェントが戦略的でないという仮定の下で、学習者と専門家の間の価値ギャップをゼロにするのに十分であるが、戦略的エージェントによる逸脱を保証するものではない。
論文参考訳（メタデータ） (2024-06-06T16:18:20Z)
Byzantine-Resilient Decentralized Multi-Armed Bandits [25.499420566469098]
エージェント間の情報混合ステップを不整合および極端な値の切り離しで融合するアルゴリズムを開発する。このフレームワークは、コンピュータネットワークの攻撃者をモデル化したり、攻撃的なコンテンツをレコメンデーターシステムに攻撃したり、金融市場のマニピュレータとして利用することができる。
論文参考訳（メタデータ） (2023-10-11T09:09:50Z)
Estimating and Incentivizing Imperfect-Knowledge Agents with Hidden Rewards [4.742123770879715]
実際には、インセンティブ提供者はインセンティブ付きエージェントの報酬実現を観察できないことが多い。本稿では,自己関心学習エージェントと学習プリンシパルの繰り返し選択ゲームについて検討する。我々は,プリンシパルのインセンティブとエージェントの選択履歴のみを入力とする推定器を導入する。
論文参考訳（メタデータ） (2023-08-13T08:12:01Z)
Explaining Reinforcement Learning Policies through Counterfactual Trajectories [147.7246109100945]
人間の開発者は、RLエージェントがテスト時にうまく機能することを検証しなければならない。本手法では, エージェントの挙動をより広い軌道分布で示すことにより, エージェントの挙動を分布変化下で表現する。本研究では,2つのエージェント検証タスクのうちの1つに対して,ベースライン法よりも優れたスコアを得られることを示す。
論文参考訳（メタデータ） (2022-01-29T00:52:37Z)
Provably Efficient Multi-Agent Reinforcement Learning with Fully Decentralized Communication [3.5450828190071655]
分散探索は強化学習におけるサンプリングの複雑さを低減する。各エージェントが分散メッセージパスプロトコルを使用すると,グループ性能が大幅に向上することを示す。グループ学習手法により多くのエージェントと情報共有を組み込むことで、最適ポリシーへの収束が加速することを示す。
論文参考訳（メタデータ） (2021-10-14T14:27:27Z)
Multi-agent Policy Optimization with Approximatively Synchronous Advantage Estimation [55.96893934962757]
マルチエージェントシステムでは、異なるエージェントの警察を共同で評価する必要がある。現在の方法では、バリュー関数やアドバンテージ関数は非同期に評価される対実関節アクションを使用する。本研究では,近似的に同期する利点推定を提案する。
論文参考訳（メタデータ） (2020-12-07T07:29:19Z)
Learning to Incentivize Other Learning Agents [73.03133692589532]
我々は、学習インセンティブ関数を用いて、RLエージェントに他のエージェントに直接報酬を与える能力を持たせる方法を示す。このようなエージェントは、一般的なマルコフゲームにおいて、標準のRLと対戦型エージェントを著しく上回っている。私たちの仕事は、マルチエージェントの未来において共通の善を確実にする道のりに沿って、より多くの機会と課題を指しています。
論文参考訳（メタデータ） (2020-06-10T20:12:38Z)
Randomized Entity-wise Factorization for Multi-Agent Reinforcement Learning [59.62721526353915]
実世界のマルチエージェント設定は、エージェントや非エージェントエンティティのタイプや量が異なるタスクを伴うことが多い。我々の方法は、これらの共通点を活用することを目的としており、「観察対象のランダムに選択されたサブグループのみを考えるとき、各エージェントが期待する効用は何か?」という問いを投げかける。
論文参考訳（メタデータ） (2020-06-07T18:28:41Z)
Scalable Multi-Agent Inverse Reinforcement Learning via Actor-Attention-Critic [54.2180984002807]
マルチエージェント逆逆強化学習 (MA-AIRL) は, 単エージェントAIRLをマルチエージェント問題に適用する最近の手法である。本稿では,従来の手法よりもサンプル効率が高く,スケーラブルなマルチエージェント逆RLアルゴリズムを提案する。
論文参考訳（メタデータ） (2020-02-24T20:30:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。