論文の概要: Massively Scalable Inverse Reinforcement Learning in Google Maps
- arxiv url: http://arxiv.org/abs/2305.11290v2
- Date: Wed, 24 May 2023 21:38:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 19:39:57.124860
- Title: Massively Scalable Inverse Reinforcement Learning in Google Maps
- Title(参考訳): Google Mapsにおける超スケーラブルな逆強化学習
- Authors: Matt Barnes, Matthew Abueg, Oliver F. Lange, Matt Deeds, Jason Trader,
Denali Molitor, Markus Wulfmeier, Shawn O'Banion
- Abstract要約: 本稿では,既存の業務を一般化し,その計画的地平を通した重要な業績トレードオフの制御を可能にするReceding Inverse Planning(RHIP)を紹介する。
我々の結果は、旅行時間を超えた要因が重要な役割を果たす、より持続可能な交通手段に対する重要な利点を示している。
我々は、キーコンポーネントの廃止、最先端の固有値解法に対する否定的な結果、そして将来の機会を特定することで結論付ける。
- 参考スコア(独自算出の注目度): 3.6384245267640267
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Optimizing for humans' latent preferences is a grand challenge in route
recommendation, where globally-scalable solutions remain an open problem.
Although past work created increasingly general solutions for the application
of inverse reinforcement learning (IRL), these have not been successfully
scaled to world-sized MDPs, large datasets, and highly parameterized models;
respectively hundreds of millions of states, trajectories, and parameters. In
this work, we surpass previous limitations through a series of advancements
focused on graph compression, parallelization, and problem initialization based
on dominant eigenvectors. We introduce Receding Horizon Inverse Planning
(RHIP), which generalizes existing work and enables control of key performance
trade-offs via its planning horizon. Our policy achieves a 16-24% improvement
in global route quality, and, to our knowledge, represents the largest instance
of IRL in a real-world setting to date. Our results show critical benefits to
more sustainable modes of transportation (e.g. two-wheelers), where factors
beyond journey time (e.g. route safety) play a substantial role. We conclude
with ablations of key components, negative results on state-of-the-art
eigenvalue solvers, and identify future opportunities to improve scalability
via IRL-specific batching strategies.
- Abstract(参考訳): 人間の潜在選好を最適化することは、グローバルスケーラブルなソリューションが依然としてオープンな問題であるルートレコメンデーションにおいて大きな課題である。
過去の研究は、逆強化学習(IRL)の適用に対する一般的な解決策をますます生み出しているが、これらは世界規模のMDP、大規模なデータセット、高度パラメータ化モデル(それぞれ数億の状態、軌道、パラメータ)に拡張されることはなかった。
本研究では,グラフ圧縮,並列化,問題初期化に主観的固有ベクトルに基づく一連の進歩を通して,これまでの限界を克服する。
我々は,既存の作業を一般化し,計画地平線を介して重要なパフォーマンストレードオフを制御できるreceeding horizon inverse planning (rhip)を導入する。
当社の方針は,世界ルート品質の16~24%向上を実現しており,我々の知る限り,IRLが現在までの現実世界における最大の事例である。
その結果,より持続可能な交通手段(二輪車など)に対して,走行時間以外の要因(ルート安全性など)が重要な役割を担っている。
結論として,キーコンポーネントのアブレーション,最先端の固有値ソルバに対する負の結果,irl固有のバッチ戦略によるスケーラビリティ向上の機会を見出した。
関連論文リスト
- Joint Demonstration and Preference Learning Improves Policy Alignment with Human Feedback [58.049113055986375]
我々は、報酬モデルとポリシーをトレーニングするために、AIHF(Alignment with Integrated Human Feedback)と呼ばれる単一ステージアプローチを開発する。
提案した手法は、一般的なアライメントアルゴリズムに容易に還元し、活用できる、効率的なアルゴリズムの集合を認めている。
本研究では,LLMにおけるアライメント問題と,MuJoCoにおけるロボット制御問題を含む広範な実験により,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-06-11T01:20:53Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - High-Precision Geosteering via Reinforcement Learning and Particle
Filters [0.0]
ジオステアリング(Geosteering)はドリル操作の重要なコンポーネントであり、伝統的にログデータなどの様々なデータソースを手動で解釈する。
ADP(Approximate Dynamic Programming)は将来性を示したが、現実的な多様なシナリオへの適応性に欠けていた。
報酬に基づく反復学習を通じて最適な意思決定を容易にするための強化学習(RL)を提案する。
論文 参考訳(メタデータ) (2024-02-09T12:54:34Z) - Discovering General Reinforcement Learning Algorithms with Adversarial
Environment Design [54.39859618450935]
メタ学習型更新ルールは,広範囲のRLタスクで良好に機能するアルゴリズムの発見を期待して,実現可能であることを示す。
Learned Policy Gradient (LPG)のようなアルゴリズムによる印象的な初期結果にもかかわらず、これらのアルゴリズムが目に見えない環境に適用される場合、まだギャップが残っている。
本研究では,メタ教師付き学習分布の特性が,これらのアルゴリズムの性能に与える影響について検討する。
論文 参考訳(メタデータ) (2023-10-04T12:52:56Z) - Online Network Source Optimization with Graph-Kernel MAB [62.6067511147939]
大規模ネットワークにおける最適なソース配置をオンラインで学習するためのグラフカーネルマルチアームバンディットアルゴリズムであるGrab-UCBを提案する。
適応グラフ辞書モデルを用いて,ネットワークプロセスを記述する。
我々は、ネットワークパラメータに依存する性能保証を導出し、シーケンシャルな意思決定戦略の学習曲線にさらに影響を及ぼす。
論文 参考訳(メタデータ) (2023-07-07T15:03:42Z) - Enforcing the consensus between Trajectory Optimization and Policy
Learning for precise robot control [75.28441662678394]
強化学習(RL)と軌道最適化(TO)は強い相補的優位性を示す。
グローバルコントロールポリシを迅速に学習する上で,これらのアプローチに対して,いくつかの改良が提案されている。
論文 参考訳(メタデータ) (2022-09-19T13:32:09Z) - Compositional Reinforcement Learning from Logical Specifications [21.193231846438895]
最近のアプローチでは、与えられた仕様から報酬関数を自動的に生成し、適切な強化学習アルゴリズムを用いてポリシーを学習する。
我々は、高レベルの計画と強化学習をインターリーブする、DiRLと呼ばれる構成学習手法を開発した。
提案手法では,各エッジ(サブタスク)のニューラルネットワークポリシをDijkstraスタイルの計画アルゴリズムで学習し,グラフの高レベルプランを計算する。
論文 参考訳(メタデータ) (2021-06-25T22:54:28Z) - Unsupervised Resource Allocation with Graph Neural Networks [0.0]
本研究では,教師なしの方法で資源の配分方法を学ぶことによって,グローバルなユーティリティ関数を最大化する手法を提案する。
我々は,GNNを用いて最適に近いアロケーションポリシーの報酬構造を学習することを提案する。
論文 参考訳(メタデータ) (2021-06-17T18:44:04Z) - Escaping from Zero Gradient: Revisiting Action-Constrained Reinforcement
Learning via Frank-Wolfe Policy Optimization [5.072893872296332]
アクション制約強化学習(RL)は、さまざまな現実世界のアプリケーションで広く使用されているアプローチです。
本稿では,政策パラメータ更新から行動制約を分離する学習アルゴリズムを提案する。
提案アルゴリズムは,様々な制御タスクにおけるベンチマーク手法を有意に上回っていることを示した。
論文 参考訳(メタデータ) (2021-02-22T14:28:03Z) - Inverse Reinforcement Learning from a Gradient-based Learner [41.8663538249537]
逆強化学習は、専門家の報酬関数をデモンストレーションから推測する問題に対処する。
本稿では,エージェントが最適化した報酬関数を復元するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-15T16:41:00Z) - Localized active learning of Gaussian process state space models [63.97366815968177]
多くの共通制御アプリケーションにおいて、優れた性能を達成するためには、グローバルに正確なモデルを必要としない。
本稿では,状態-作用空間の有界部分集合上の正確なモデルを得ることを目的としたガウス過程状態空間モデルに対する能動的学習戦略を提案する。
モデル予測制御を用いることで、探索中に収集した情報を統合し、探索戦略を適応的に改善する。
論文 参考訳(メタデータ) (2020-05-04T05:35:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。