論文の概要: Pattern Transfer Learning for Reinforcement Learning in Order
Dispatching
- arxiv url: http://arxiv.org/abs/2105.13218v1
- Date: Thu, 27 May 2021 15:08:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-28 16:15:29.546168
- Title: Pattern Transfer Learning for Reinforcement Learning in Order
Dispatching
- Title(参考訳): 順序パッシングにおける強化学習のためのパターン伝達学習
- Authors: Runzhe Wan, Sheng Zhang, Chengchun Shi, Shikai Luo and Rui Song
- Abstract要約: 本稿では,秩序分散問題における値に基づく強化学習のためのパターン伝達学習フレームワークを提案する。
提案手法の優れた性能は実験によって支持される。
- 参考スコア(独自算出の注目度): 12.747361275395011
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Order dispatch is one of the central problems to ride-sharing platforms.
Recently, value-based reinforcement learning algorithms have shown promising
performance on this problem. However, in real-world applications, the
non-stationarity of the demand-supply system poses challenges to re-utilizing
data generated in different time periods to learn the value function. In this
work, motivated by the fact that the relative relationship between the values
of some states is largely stable across various environments, we propose a
pattern transfer learning framework for value-based reinforcement learning in
the order dispatch problem. Our method efficiently captures the value patterns
by incorporating a concordance penalty. The superior performance of the
proposed method is supported by experiments.
- Abstract(参考訳): オーダーディスパッチは、ライドシェアリングプラットフォームの中心的な問題のひとつだ。
近年,価値に基づく強化学習アルゴリズムがこの問題に対して有望な性能を示している。
しかし、現実のアプリケーションでは、需要供給システムの非定常性は、異なる期間に生成されたデータを再利用して値関数を学習する上で困難をもたらす。
本研究では, ある状態の値の相対関係が, 様々な環境においてほぼ安定であるという事実から, 秩序分散問題における値に基づく強化学習のためのパターン伝達学習フレームワークを提案する。
提案手法は, 一致ペナルティを組み込んだ値パターンを効率的に捕捉する。
提案手法の優れた性能は実験によって支持される。
関連論文リスト
- ReconBoost: Boosting Can Achieve Modality Reconcilement [89.4377895465204]
我々は、調和を達成するために、モダリティ代替学習パラダイムについて研究する。
固定モードを毎回更新するReconBoostと呼ばれる新しい手法を提案する。
提案手法はFriedman's Gradient-Boosting (GB) アルゴリズムに似ており,更新された学習者が他者による誤りを訂正できることを示す。
論文 参考訳(メタデータ) (2024-05-15T13:22:39Z) - Feature-based Federated Transfer Learning: Communication Efficiency, Robustness and Privacy [11.308544280789016]
本稿では,コミュニケーション効率向上のための新しい手法として,特徴に基づくフェデレーション・トランスファー・ラーニングを提案する。
具体的には,提案した特徴に基づくフェデレーション学習において,パラメータ更新ではなく,抽出した特徴と出力をアップロードするように設計する。
画像分類タスクと自然言語処理タスクを用いて,提案手法の性能評価を行い,その有効性を実証した。
論文 参考訳(メタデータ) (2024-05-15T00:43:19Z) - Vlearn: Off-Policy Learning with Efficient State-Value Function Estimation [22.129001951441015]
既存の非政治強化学習アルゴリズムは、しばしば明示的な状態-作用-値関数表現に依存している。
この信頼性は、高次元の作用空間における状態-作用値関数の維持が困難なデータ非効率をもたらす。
本稿では,非政治的な深層強化学習に対する批判として,状態値関数のみを利用する効率的なアプローチを提案する。
論文 参考訳(メタデータ) (2024-03-07T12:45:51Z) - UNIDEAL: Curriculum Knowledge Distillation Federated Learning [17.817181326740698]
フェデレートラーニング(FL)は、複数のクライアント間で協調学習を可能にする、有望なアプローチとして登場した。
本稿では,ドメイン横断シナリオの課題に対処するための新しいFLアルゴリズムであるUNIを提案する。
この結果から,UNIはモデル精度と通信効率の両面において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2023-09-16T11:30:29Z) - Contrastive Example-Based Control [163.6482792040079]
報酬関数ではなく多段階遷移の暗黙的なモデルを学ぶオフラインのサンプルベース制御法を提案する。
状態ベースおよび画像ベースのオフライン制御タスクの範囲で、学習された報酬関数を使用するベースラインよりも優れています。
論文 参考訳(メタデータ) (2023-07-24T19:43:22Z) - Robust Deep Reinforcement Learning Scheduling via Weight Anchoring [7.570246812206769]
我々は、重みアンカーを用いてニューラルネットワークの望ましい振る舞いを培養し、固定する。
ウェイトアンカーは、他の学習問題の解に近い学習問題の解を見つけるために用いられる。
その結果,シミュレーション環境を増強する技術に匹敵する性能が得られた。
論文 参考訳(メタデータ) (2023-04-20T09:30:23Z) - On Modality Bias Recognition and Reduction [70.69194431713825]
マルチモーダル分類の文脈におけるモダリティバイアス問題について検討する。
本稿では,各ラベルの特徴空間を適応的に学習するプラグアンドプレイ損失関数法を提案する。
本手法は, ベースラインに比べ, 顕著な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-25T13:47:09Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Learning Diverse Representations for Fast Adaptation to Distribution
Shift [78.83747601814669]
本稿では,複数のモデルを学習する手法を提案する。
分散シフトへの迅速な適応を促進するフレームワークの能力を実証する。
論文 参考訳(メタデータ) (2020-06-12T12:23:50Z) - Dynamic Federated Learning [57.14673504239551]
フェデレートラーニング(Federated Learning)は、マルチエージェント環境における集中的なコーディネーション戦略の包括的用語として登場した。
我々は、各イテレーションにおいて、利用可能なエージェントのランダムなサブセットがそのデータに基づいてローカル更新を実行する、フェデレートされた学習モデルを考える。
集約最適化問題に対する真の最小化器上の非定常ランダムウォークモデルの下で、アーキテクチャの性能は、各エージェントにおけるデータ変動率、各エージェントにおけるモデル変動率、アルゴリズムの学習率に逆比例する追跡項の3つの要因によって決定されることを示す。
論文 参考訳(メタデータ) (2020-02-20T15:00:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。