論文の概要: Pattern Transfer Learning for Reinforcement Learning in Order
Dispatching
- arxiv url: http://arxiv.org/abs/2105.13218v1
- Date: Thu, 27 May 2021 15:08:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-28 16:15:29.546168
- Title: Pattern Transfer Learning for Reinforcement Learning in Order
Dispatching
- Title(参考訳): 順序パッシングにおける強化学習のためのパターン伝達学習
- Authors: Runzhe Wan, Sheng Zhang, Chengchun Shi, Shikai Luo and Rui Song
- Abstract要約: 本稿では,秩序分散問題における値に基づく強化学習のためのパターン伝達学習フレームワークを提案する。
提案手法の優れた性能は実験によって支持される。
- 参考スコア(独自算出の注目度): 12.747361275395011
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Order dispatch is one of the central problems to ride-sharing platforms.
Recently, value-based reinforcement learning algorithms have shown promising
performance on this problem. However, in real-world applications, the
non-stationarity of the demand-supply system poses challenges to re-utilizing
data generated in different time periods to learn the value function. In this
work, motivated by the fact that the relative relationship between the values
of some states is largely stable across various environments, we propose a
pattern transfer learning framework for value-based reinforcement learning in
the order dispatch problem. Our method efficiently captures the value patterns
by incorporating a concordance penalty. The superior performance of the
proposed method is supported by experiments.
- Abstract(参考訳): オーダーディスパッチは、ライドシェアリングプラットフォームの中心的な問題のひとつだ。
近年,価値に基づく強化学習アルゴリズムがこの問題に対して有望な性能を示している。
しかし、現実のアプリケーションでは、需要供給システムの非定常性は、異なる期間に生成されたデータを再利用して値関数を学習する上で困難をもたらす。
本研究では, ある状態の値の相対関係が, 様々な環境においてほぼ安定であるという事実から, 秩序分散問題における値に基づく強化学習のためのパターン伝達学習フレームワークを提案する。
提案手法は, 一致ペナルティを組み込んだ値パターンを効率的に捕捉する。
提案手法の優れた性能は実験によって支持される。
関連論文リスト
- UNIDEAL: Curriculum Knowledge Distillation Federated Learning [17.817181326740698]
フェデレートラーニング(FL)は、複数のクライアント間で協調学習を可能にする、有望なアプローチとして登場した。
本稿では,ドメイン横断シナリオの課題に対処するための新しいFLアルゴリズムであるUNIを提案する。
この結果から,UNIはモデル精度と通信効率の両面において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2023-09-16T11:30:29Z) - Contrastive Example-Based Control [163.6482792040079]
報酬関数ではなく多段階遷移の暗黙的なモデルを学ぶオフラインのサンプルベース制御法を提案する。
状態ベースおよび画像ベースのオフライン制御タスクの範囲で、学習された報酬関数を使用するベースラインよりも優れています。
論文 参考訳(メタデータ) (2023-07-24T19:43:22Z) - Robust Deep Reinforcement Learning Scheduling via Weight Anchoring [7.570246812206769]
我々は、重みアンカーを用いてニューラルネットワークの望ましい振る舞いを培養し、固定する。
ウェイトアンカーは、他の学習問題の解に近い学習問題の解を見つけるために用いられる。
その結果,シミュレーション環境を増強する技術に匹敵する性能が得られた。
論文 参考訳(メタデータ) (2023-04-20T09:30:23Z) - On Modality Bias Recognition and Reduction [70.69194431713825]
マルチモーダル分類の文脈におけるモダリティバイアス問題について検討する。
本稿では,各ラベルの特徴空間を適応的に学習するプラグアンドプレイ損失関数法を提案する。
本手法は, ベースラインに比べ, 顕著な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-25T13:47:09Z) - Holistic Deep Learning [3.718942345103135]
本稿では、入力摂動、過度なパラメータ化、性能不安定といった脆弱性の課題に対処する、新しい総合的なディープラーニングフレームワークを提案する。
提案したフレームワークは、標準的なディープラーニングモデルよりも正確性、堅牢性、疎性、安定性を全面的に改善する。
論文 参考訳(メタデータ) (2021-10-29T14:46:32Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Strictly Batch Imitation Learning by Energy-based Distribution Matching [104.33286163090179]
すなわち、強化信号へのアクセスがなく、遷移力学の知識がなく、環境とのさらなる相互作用もない。
1つの解決策は、既存のアルゴリズムをオフライン環境で動作させるために、見習いの学習に適合させることである。
しかし、このようなアプローチは、政治外の評価やオフラインモデルの推定に大きく依存しており、間接的で非効率である可能性がある。
優れたソリューションは、ポリシーを明示的にパラメータ化し、ロールアウトダイナミクスから暗黙的に学習し、完全にオフラインで運用できるべきだ、と私たちは主張する。
論文 参考訳(メタデータ) (2020-06-25T03:27:59Z) - Learning Diverse Representations for Fast Adaptation to Distribution
Shift [78.83747601814669]
本稿では,複数のモデルを学習する手法を提案する。
分散シフトへの迅速な適応を促進するフレームワークの能力を実証する。
論文 参考訳(メタデータ) (2020-06-12T12:23:50Z) - Dynamic Federated Learning [57.14673504239551]
フェデレートラーニング(Federated Learning)は、マルチエージェント環境における集中的なコーディネーション戦略の包括的用語として登場した。
我々は、各イテレーションにおいて、利用可能なエージェントのランダムなサブセットがそのデータに基づいてローカル更新を実行する、フェデレートされた学習モデルを考える。
集約最適化問題に対する真の最小化器上の非定常ランダムウォークモデルの下で、アーキテクチャの性能は、各エージェントにおけるデータ変動率、各エージェントにおけるモデル変動率、アルゴリズムの学習率に逆比例する追跡項の3つの要因によって決定されることを示す。
論文 参考訳(メタデータ) (2020-02-20T15:00:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。