論文の概要: Massively Scalable Inverse Reinforcement Learning in Google Maps
- arxiv url: http://arxiv.org/abs/2305.11290v4
- Date: Tue, 5 Mar 2024 22:07:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 18:21:58.164907
- Title: Massively Scalable Inverse Reinforcement Learning in Google Maps
- Title(参考訳): Google Mapsにおける超スケーラブルな逆強化学習
- Authors: Matt Barnes, Matthew Abueg, Oliver F. Lange, Matt Deeds, Jason Trader,
Denali Molitor, Markus Wulfmeier, Shawn O'Banion
- Abstract要約: 逆強化学習は、ルートレコメンデーションにおいて人間の潜在的嗜好を学習するための強力で一般的な枠組みを提供する。
数億の州と実証軌道で惑星規模の問題に対処したアプローチはない。
我々は、ルーティングコンテキストにおける古典的IRL手法を再検討し、安価で決定論的プランナーと高価で堅牢なポリシーとの間にトレードオフがあることを重要視する。
Receding Horizon Inverse Planning (RHIP)は、従来のIRLアルゴリズムの新たな一般化であり、その計画的地平を通したパフォーマンストレードオフのきめ細かい制御を提供する。
- 参考スコア(独自算出の注目度): 3.1244966374281544
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Inverse reinforcement learning (IRL) offers a powerful and general framework
for learning humans' latent preferences in route recommendation, yet no
approach has successfully addressed planetary-scale problems with hundreds of
millions of states and demonstration trajectories. In this paper, we introduce
scaling techniques based on graph compression, spatial parallelization, and
improved initialization conditions inspired by a connection to eigenvector
algorithms. We revisit classic IRL methods in the routing context, and make the
key observation that there exists a trade-off between the use of cheap,
deterministic planners and expensive yet robust stochastic policies. This
insight is leveraged in Receding Horizon Inverse Planning (RHIP), a new
generalization of classic IRL algorithms that provides fine-grained control
over performance trade-offs via its planning horizon. Our contributions
culminate in a policy that achieves a 16-24% improvement in route quality at a
global scale, and to the best of our knowledge, represents the largest
published study of IRL algorithms in a real-world setting to date. We conclude
by conducting an ablation study of key components, presenting negative results
from alternative eigenvalue solvers, and identifying opportunities to further
improve scalability via IRL-specific batching strategies.
- Abstract(参考訳): 逆強化学習(IRL)は、ルートレコメンデーションにおいて人間の潜在的嗜好を学習するための強力で一般的な枠組みを提供するが、数億の州と実証軌道で惑星規模の問題に対処するアプローチは成功していない。
本稿では,グラフ圧縮,空間並列化,固有ベクトルアルゴリズムとの接続による初期化条件の改善に基づくスケーリング手法を提案する。
従来のirlメソッドをルーティングコンテキストで再検討し、安価で決定論的なプランナーと、高価でロバストな確率的ポリシーとのトレードオフが存在することを重要視する。
Receding Horizon Inverse Planning (RHIP)は、従来のIRLアルゴリズムの新たな一般化であり、その計画的地平を通したパフォーマンストレードオフのきめ細かい制御を提供する。
我々の貢献は、グローバルスケールでの経路品質を16-24%向上させ、我々の知識を最大限に活用するポリシーに結実し、これまでの現実世界におけるirlアルゴリズムの最大の研究成果を示しています。
結論として,キーコンポーネントのアブレーション研究を行い,代替固有値ソルバからの負の結果を示し,irl特有のバッチ戦略によるスケーラビリティ向上の機会を見出した。
関連論文リスト
- Joint Demonstration and Preference Learning Improves Policy Alignment with Human Feedback [58.049113055986375]
我々は、報酬モデルとポリシーをトレーニングするために、AIHF(Alignment with Integrated Human Feedback)と呼ばれる単一ステージアプローチを開発する。
提案した手法は、一般的なアライメントアルゴリズムに容易に還元し、活用できる、効率的なアルゴリズムの集合を認めている。
本研究では,LLMにおけるアライメント問題と,MuJoCoにおけるロボット制御問題を含む広範な実験により,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-06-11T01:20:53Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - High-Precision Geosteering via Reinforcement Learning and Particle
Filters [0.0]
ジオステアリング(Geosteering)はドリル操作の重要なコンポーネントであり、伝統的にログデータなどの様々なデータソースを手動で解釈する。
ADP(Approximate Dynamic Programming)は将来性を示したが、現実的な多様なシナリオへの適応性に欠けていた。
報酬に基づく反復学習を通じて最適な意思決定を容易にするための強化学習(RL)を提案する。
論文 参考訳(メタデータ) (2024-02-09T12:54:34Z) - Discovering General Reinforcement Learning Algorithms with Adversarial
Environment Design [54.39859618450935]
メタ学習型更新ルールは,広範囲のRLタスクで良好に機能するアルゴリズムの発見を期待して,実現可能であることを示す。
Learned Policy Gradient (LPG)のようなアルゴリズムによる印象的な初期結果にもかかわらず、これらのアルゴリズムが目に見えない環境に適用される場合、まだギャップが残っている。
本研究では,メタ教師付き学習分布の特性が,これらのアルゴリズムの性能に与える影響について検討する。
論文 参考訳(メタデータ) (2023-10-04T12:52:56Z) - Online Network Source Optimization with Graph-Kernel MAB [62.6067511147939]
大規模ネットワークにおける最適なソース配置をオンラインで学習するためのグラフカーネルマルチアームバンディットアルゴリズムであるGrab-UCBを提案する。
適応グラフ辞書モデルを用いて,ネットワークプロセスを記述する。
我々は、ネットワークパラメータに依存する性能保証を導出し、シーケンシャルな意思決定戦略の学習曲線にさらに影響を及ぼす。
論文 参考訳(メタデータ) (2023-07-07T15:03:42Z) - Enforcing the consensus between Trajectory Optimization and Policy
Learning for precise robot control [75.28441662678394]
強化学習(RL)と軌道最適化(TO)は強い相補的優位性を示す。
グローバルコントロールポリシを迅速に学習する上で,これらのアプローチに対して,いくつかの改良が提案されている。
論文 参考訳(メタデータ) (2022-09-19T13:32:09Z) - Compositional Reinforcement Learning from Logical Specifications [21.193231846438895]
最近のアプローチでは、与えられた仕様から報酬関数を自動的に生成し、適切な強化学習アルゴリズムを用いてポリシーを学習する。
我々は、高レベルの計画と強化学習をインターリーブする、DiRLと呼ばれる構成学習手法を開発した。
提案手法では,各エッジ(サブタスク)のニューラルネットワークポリシをDijkstraスタイルの計画アルゴリズムで学習し,グラフの高レベルプランを計算する。
論文 参考訳(メタデータ) (2021-06-25T22:54:28Z) - Unsupervised Resource Allocation with Graph Neural Networks [0.0]
本研究では,教師なしの方法で資源の配分方法を学ぶことによって,グローバルなユーティリティ関数を最大化する手法を提案する。
我々は,GNNを用いて最適に近いアロケーションポリシーの報酬構造を学習することを提案する。
論文 参考訳(メタデータ) (2021-06-17T18:44:04Z) - Escaping from Zero Gradient: Revisiting Action-Constrained Reinforcement
Learning via Frank-Wolfe Policy Optimization [5.072893872296332]
アクション制約強化学習(RL)は、さまざまな現実世界のアプリケーションで広く使用されているアプローチです。
本稿では,政策パラメータ更新から行動制約を分離する学習アルゴリズムを提案する。
提案アルゴリズムは,様々な制御タスクにおけるベンチマーク手法を有意に上回っていることを示した。
論文 参考訳(メタデータ) (2021-02-22T14:28:03Z) - Inverse Reinforcement Learning from a Gradient-based Learner [41.8663538249537]
逆強化学習は、専門家の報酬関数をデモンストレーションから推測する問題に対処する。
本稿では,エージェントが最適化した報酬関数を復元するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-15T16:41:00Z) - Localized active learning of Gaussian process state space models [63.97366815968177]
多くの共通制御アプリケーションにおいて、優れた性能を達成するためには、グローバルに正確なモデルを必要としない。
本稿では,状態-作用空間の有界部分集合上の正確なモデルを得ることを目的としたガウス過程状態空間モデルに対する能動的学習戦略を提案する。
モデル予測制御を用いることで、探索中に収集した情報を統合し、探索戦略を適応的に改善する。
論文 参考訳(メタデータ) (2020-05-04T05:35:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。