論文の概要: Multi-Agent Transfer Learning in Reinforcement Learning-Based
Ride-Sharing Systems
- arxiv url: http://arxiv.org/abs/2112.00424v1
- Date: Wed, 1 Dec 2021 11:23:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-02 22:24:23.458711
- Title: Multi-Agent Transfer Learning in Reinforcement Learning-Based
Ride-Sharing Systems
- Title(参考訳): 強化学習に基づくライドシェアリングシステムにおけるマルチエージェントトランスファー学習
- Authors: Alberto Castagna and Ivana Dusparic
- Abstract要約: 強化学習(Reinforcement Learning, RL)は、実世界の様々なシミュレーションタスクで使われている。
本稿では,固定ソースとターゲットロールを用いたTL転送パラメータの影響について検討する。
- 参考スコア(独自算出の注目度): 3.7311680121118345
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) has been used in a range of simulated real-world
tasks, e.g., sensor coordination, traffic light control, and on-demand mobility
services. However, real world deployments are rare, as RL struggles with
dynamic nature of real world environments, requiring time for learning a task
and adapting to changes in the environment. Transfer Learning (TL) can help
lower these adaptation times. In particular, there is a significant potential
of applying TL in multi-agent RL systems, where multiple agents can share
knowledge with each other, as well as with new agents that join the system. To
obtain the most from inter-agent transfer, transfer roles (i.e., determining
which agents act as sources and which as targets), as well as relevant transfer
content parameters (e.g., transfer size) should be selected dynamically in each
particular situation. As a first step towards fully dynamic transfers, in this
paper we investigate the impact of TL transfer parameters with fixed source and
target roles. Specifically, we label every agent-environment interaction with
agent's epistemic confidence, and we filter the shared examples using varying
threshold levels and sample sizes. We investigate impact of these parameters in
two scenarios, a standard predator-prey RL benchmark and a simulation of a
ride-sharing system with 200 vehicle agents and 10,000 ride-requests.
- Abstract(参考訳): 強化学習(rl)は、センサー調整、信号制御、オンデマンドモビリティサービスなど、現実世界のタスクをシミュレートするために使用されてきた。
しかし、RLは実際の環境の動的な性質に苦しむため、タスクを学習し、環境の変化に適応する時間を必要とするため、現実世界のデプロイメントはまれである。
トランスファーラーニング(TL)は、これらの適応時間の短縮に役立つ。
特に、マルチエージェントRLシステムにTLを適用する大きな可能性があり、複数のエージェントが相互に知識を共有し、システムに参加する新しいエージェントと共有することができる。
エージェント間転送、転送ロール(すなわち、どのエージェントがソースとして、どのエージェントがターゲットとして振る舞うかを決定する)、および関連する転送内容パラメータ(例えば、転送サイズ)を、それぞれの状況において動的に選択する。
本稿では,完全な動的転送への第一歩として,固定ソースとターゲットロールによるTL転送パラメータの影響について検討する。
具体的には, エージェント-環境相互作用とエージェントの認識信頼度をラベル付けし, 種々の閾値レベルとサンプルサイズを用いて共有例をフィルタリングする。
これらのパラメータが与える影響を,標準的なプレデター・プリー・rlベンチマークと,200台の車両エージェントと10,000台の乗車要求を備えたライドシェアリングシステムのシミュレーションの2つのシナリオで検討した。
関連論文リスト
- Towards Generalizable Reinforcement Learning via Causality-Guided Self-Adaptive Representations [22.6449779859417]
汎用インテリジェンスには、タスク間の迅速な適応が必要です。
本稿では,分布だけでなく,環境空間も変化するシナリオを幅広く検討する。
我々はCSRと呼ばれる因果性誘導型自己適応表現に基づく手法を導入し、エージェントを効果的に一般化させる。
論文 参考訳(メタデータ) (2024-07-30T08:48:49Z) - Adaptive action supervision in reinforcement learning from real-world
multi-agent demonstrations [10.174009792409928]
マルチエージェントシナリオにおける実世界の実演からRLにおける適応的行動監視手法を提案する。
実験では,未知のソースとターゲット環境の異なるダイナミックスを用いて,チェイス・アンド・エスケープとフットボールのタスクを用いて,本手法がベースラインと比較して一般化能力と一般化能力のバランスを保っていることを示す。
論文 参考訳(メタデータ) (2023-05-22T13:33:37Z) - Learning From Good Trajectories in Offline Multi-Agent Reinforcement
Learning [98.07495732562654]
オフラインマルチエージェント強化学習(MARL)は、事前コンパイルされたデータセットから効果的なマルチエージェントポリシーを学ぶことを目的としている。
オフラインのMARLが学んだエージェントは、しばしばこのランダムなポリシーを継承し、チーム全体のパフォーマンスを脅かす。
この問題に対処するために,共有個人軌道(SIT)と呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-28T18:11:26Z) - LDSA: Learning Dynamic Subtask Assignment in Cooperative Multi-Agent
Reinforcement Learning [122.47938710284784]
協調型MARLにおける動的サブタスク代入(LDSA)を学習するための新しいフレームワークを提案する。
エージェントを異なるサブタスクに合理的に割り当てるために,能力に基づくサブタスク選択戦略を提案する。
LDSAは、より優れたコラボレーションのために、合理的で効果的なサブタスクの割り当てを学習していることを示す。
論文 参考訳(メタデータ) (2022-05-05T10:46:16Z) - Learning to Communicate with Reinforcement Learning for an Adaptive
Traffic Control System [0.0]
適応的交通制御システム(ATCS)上での学習情報を用いた,コミュニケーションのない独立したQ-ラーニング(IQL)と識別可能なエージェント間ラーニング(DIAL)について検討する。
以上の結果から,DIALエージェントは,他のエージェントと関連する情報を共有できるため,トレーニング時間と最大報酬の両方において,独立したQ-Larnerよりも優れていた。
論文 参考訳(メタデータ) (2021-10-29T13:46:15Z) - PsiPhi-Learning: Reinforcement Learning with Demonstrations using
Successor Features and Inverse Temporal Difference Learning [102.36450942613091]
時間差学習(ITD)と呼ばれる逆強化学習アルゴリズムを提案する。
Psi Phi$-learningと呼ばれるデモで強化学習のための新しいアルゴリズムに到達し、オンライン環境の相互作用から学習とITDをシームレスに統合する方法を示します。
論文 参考訳(メタデータ) (2021-02-24T21:12:09Z) - UPDeT: Universal Multi-agent Reinforcement Learning via Policy
Decoupling with Transformers [108.92194081987967]
タスクに適合する1つのアーキテクチャを設計し、汎用的なマルチエージェント強化学習パイプラインを最初に試行する。
従来のRNNモデルとは異なり、トランスフォーマーモデルを用いてフレキシブルなポリシーを生成する。
提案方式はUPDeT(Universal Policy Decoupling Transformer)と名付けられ,動作制限を緩和し,マルチエージェントタスクの決定プロセスをより説明しやすいものにする。
論文 参考訳(メタデータ) (2021-01-20T07:24:24Z) - ReLMoGen: Leveraging Motion Generation in Reinforcement Learning for
Mobile Manipulation [99.2543521972137]
ReLMoGenは、サブゴールを予測するための学習されたポリシーと、これらのサブゴールに到達するために必要な動作を計画し実行するためのモーションジェネレータを組み合わせたフレームワークである。
本手法は,フォトリアリスティック・シミュレーション環境における7つのロボットタスクの多種多様なセットをベンチマークする。
ReLMoGenは、テスト時に異なるモーションジェネレータ間で顕著な転送可能性を示し、実際のロボットに転送する大きな可能性を示している。
論文 参考訳(メタデータ) (2020-08-18T08:05:15Z) - Parallel Knowledge Transfer in Multi-Agent Reinforcement Learning [0.2538209532048867]
本稿では,MARL(Parallel Attentional Transfer)における新しい知識伝達フレームワークを提案する。
PAT,学生モード,自己学習モードの2つの動作モードを設計する。
エージェントが環境に不慣れな場合、学生モードにおける共有注意機構は、エージェントの行動を決定するために、他のエージェントからの学習知識を効果的に選択する。
論文 参考訳(メタデータ) (2020-03-29T17:42:00Z) - Meta Reinforcement Learning with Autonomous Inference of Subtask
Dependencies [57.27944046925876]
本稿では,タスクがサブタスクグラフによって特徴づけられるような,新しい数発のRL問題を提案し,対処する。
メタ政治を直接学習する代わりに、Subtask Graph Inferenceを使ったメタラーナーを開発した。
実験の結果,2つのグリッドワールド領域とStarCraft II環境において,提案手法が潜在タスクパラメータを正確に推定できることが確認された。
論文 参考訳(メタデータ) (2020-01-01T17:34:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。