論文の概要: A Multi-Agent Reinforcement Learning Framework for Off-Policy Evaluation
in Two-sided Markets
- arxiv url: http://arxiv.org/abs/2202.10574v1
- Date: Mon, 21 Feb 2022 23:36:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-23 14:58:24.380244
- Title: A Multi-Agent Reinforcement Learning Framework for Off-Policy Evaluation
in Two-sided Markets
- Title(参考訳): 両面市場におけるオフポリティ評価のためのマルチエージェント強化学習フレームワーク
- Authors: Chengchun Shi, Runzhe Wan, Ge Song, Shikai Luo, Rui Song and Hongtu
Zhu
- Abstract要約: ライドシェアリング会社のような二面市場は、時間や場所の連続的な決定を下している被験者のグループを巻き込むことが多い。
我々は、時間とともに製品(または治療)のシーケンスを受信する異なる領域の複数のユニットを含むライドシェアリング企業における大規模なフリート管理について検討する。
状態-作用空間の高次元性にも拘わらず, 異なる積の平均結果に対する新しい推定器を提案する。
- 参考スコア(独自算出の注目度): 21.338519115071666
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The two-sided markets such as ride-sharing companies often involve a group of
subjects who are making sequential decisions across time and/or location. With
the rapid development of smart phones and internet of things, they have
substantially transformed the transportation landscape of human beings. In this
paper we consider large-scale fleet management in ride-sharing companies that
involve multiple units in different areas receiving sequences of products (or
treatments) over time. Major technical challenges, such as policy evaluation,
arise in those studies because (i) spatial and temporal proximities induce
interference between locations and times; and (ii) the large number of
locations results in the curse of dimensionality. To address both challenges
simultaneously, we introduce a multi-agent reinforcement learning (MARL)
framework for carrying policy evaluation in these studies. We propose novel
estimators for mean outcomes under different products that are consistent
despite the high-dimensionality of state-action space. The proposed estimator
works favorably in simulation experiments. We further illustrate our method
using a real dataset obtained from a two-sided marketplace company to evaluate
the effects of applying different subsidizing policies. A Python implementation
of the proposed method is available at
https://github.com/RunzheStat/CausalMARL.
- Abstract(参考訳): ライドシェアリング会社のような両面の市場は、時間や場所の連続的な決定を行う被験者のグループを巻き込むことが多い。
スマートフォンとモノのインターネットの急速な発展により、彼らは人間の輸送環境を大きく変えた。
本稿では,様々な分野の複数の製品(または治療)を時間とともに受け取っているライドシェアリング企業における大規模艦隊管理について考察する。
これらの研究には、政策評価などの主要な技術的課題が生じる。
一 場所と時間の間の干渉を引き起こす空間的・時間的近接性
(ii) 位置の多さは、次元の呪いをもたらす。
両課題を同時に解決するために,政策評価を行うためのマルチエージェント強化学習(MARL)フレームワークを導入する。
状態-作用空間の高次元性にも拘わらず, 異なる積の平均結果に対する新しい推定器を提案する。
提案する推定器はシミュレーション実験で好適に機能する。
さらに,二面市場企業から得られた実データを用いて,助成方針の異なる適用効果を評価する手法について紹介する。
提案するメソッドのpython実装は、https://github.com/runzhestat/causalmarlで利用可能である。
関連論文リスト
- Large Multimodal Agents: A Survey [78.81459893884737]
大規模言語モデル(LLM)は、テキストベースのAIエージェントのパワーで優れたパフォーマンスを実現している。
LLMを利用したAIエージェントをマルチモーダルドメインに拡張することに焦点を当てた、新たな研究トレンドがある。
本総説は, この急速に発展する分野において, 今後の研究に有用な洞察とガイドラインを提供することを目的としている。
論文 参考訳(メタデータ) (2024-02-23T06:04:23Z) - Off-Policy Evaluation for Large Action Spaces via Policy Convolution [60.6953713877886]
ポリシ・コンボリューション(Policy Convolution)のファミリーは、アクション内の潜在構造を使用して、ログとターゲットポリシを戦略的に畳み込みます。
合成およびベンチマークデータセットの実験では、PCを使用する場合の平均二乗誤差(MSE)が顕著に改善されている。
論文 参考訳(メタデータ) (2023-10-24T01:00:01Z) - Deep reinforcement learning for the dynamic vehicle dispatching problem:
An event-based approach [0.0]
この問題を半マルコフ決定プロセスとしてモデル化することで、時間を連続的に扱うことができます。
イベントベースのアプローチは決定空間の複雑さを大幅に減らし、離散時間モデルの他の制限を克服する、と我々は主張する。
その結果、我々の政策は平均待ち時間、キャンセル率、サービス全体の時間に優れており、他のテスト済みのポリシーと比較して最大50%の削減が期待できることがわかった。
論文 参考訳(メタデータ) (2023-07-13T16:29:25Z) - Perturbation-Based Two-Stage Multi-Domain Active Learning [31.073745612552926]
本稿では、よく認識されたASP-MTLモデルに組み込んだ摂動型2段階多段階アクティブラーニング(P2S-MDAL)手法を提案する。
P2S-MDALは、ドメインの予算を割り当て、多様性の選択のための領域を確立する。
モデルの共有特徴抽出器のロバスト性を評価するために摂動距離が導入された。
論文 参考訳(メタデータ) (2023-06-19T04:58:32Z) - Large-scale Ridesharing DARP Instances Based on Real Travel Demand [0.0]
最先端のDARPソリューションのベンチマークは、小さな人工インスタンスや時代遅れの非パブリックインスタンスに限られている。
我々は,実世界のデータに基づく大規模需要インスタンスを包括的に作成する手法を開発した。
その結果,全測定値の面積に有意な差が認められた。
論文 参考訳(メタデータ) (2023-05-30T08:51:11Z) - From Multi-agent to Multi-robot: A Scalable Training and Evaluation
Platform for Multi-robot Reinforcement Learning [12.74238738538799]
マルチエージェント強化学習(MARL)は、過去数十年間、学術や産業から広く注目を集めてきた。
これらの手法が実際のシナリオ、特にマルチロボットシステムでどのように機能するかは未だ分かっていない。
本稿では,マルチロボット強化学習(MRRL)のためのスケーラブルなエミュレーションプラットフォームSMARTを提案する。
論文 参考訳(メタデータ) (2022-06-20T06:36:45Z) - Estimation of Reliable Proposal Quality for Temporal Action Detection [71.5989469643732]
提案手法では,時間的視点と地域的視点を同時に把握し,信頼性の高い提案品質を取得することによって2つの課題を整合させる手法を提案する。
バウンダリ評価モジュール (BEM) は, 境界品質を推定するために, 局所的な外観と動きの進化に焦点を当てた設計である。
地域の観点からは,提案する特徴表現に対して,新しい効率的なサンプリング手法を用いた領域評価モジュール(REM)を導入する。
論文 参考訳(メタデータ) (2022-04-25T14:33:49Z) - The Multi-Agent Pickup and Delivery Problem: MAPF, MARL and Its
Warehouse Applications [2.969705152497174]
マルチエージェントピックアップおよび配送問題に対する2つの最先端ソリューションを,異なる原理に基づいて検討した。
具体的には、コンフリクトベースサーチ(CBS)と呼ばれるMAPFアルゴリズムと、共有経験アクター批判(SEAC)と呼ばれる現在のMARLアルゴリズムについて検討する。
論文 参考訳(メタデータ) (2022-03-14T13:23:35Z) - Benchmarks for Deep Off-Policy Evaluation [152.28569758144022]
我々は,政策外の評価のベンチマークに使用できるポリシーの集合を提案する。
私たちのベンチマークの目標は、一連の原則から動機付けられた進歩の標準化された尺度を提供することです。
この領域における今後の研究を促進するために、当社のデータとコードに対するオープンソースアクセスを提供しています。
論文 参考訳(メタデータ) (2021-03-30T18:09:33Z) - Off-policy Evaluation in Infinite-Horizon Reinforcement Learning with
Latent Confounders [62.54431888432302]
無限水平エルゴードマルコフ決定過程におけるOPE問題について考察する。
我々は、状態と行動の潜在変数モデルのみを考慮すれば、政策値が政治外のデータから特定できることを示す。
論文 参考訳(メタデータ) (2020-07-27T22:19:01Z) - SMART: Simultaneous Multi-Agent Recurrent Trajectory Prediction [72.37440317774556]
本稿では,将来の軌道予測における2つの重要な課題に対処する手法を提案する。
エージェントの数に関係なく、トレーニングデータと予測と一定時間の推測の両方において、マルチモーダリティ。
論文 参考訳(メタデータ) (2020-07-26T08:17:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。