Fugu-MT 論文翻訳(概要): Massively Scalable Inverse Reinforcement Learning in Google Maps

論文の概要: Massively Scalable Inverse Reinforcement Learning in Google Maps

arxiv url: http://arxiv.org/abs/2305.11290v3
Date: Sun, 10 Sep 2023 21:08:35 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-12 21:29:15.378776
Title: Massively Scalable Inverse Reinforcement Learning in Google Maps
Title（参考訳）: Google Mapsにおける超スケーラブルな逆強化学習
Authors: Matt Barnes, Matthew Abueg, Oliver F. Lange, Matt Deeds, Jason Trader, Denali Molitor, Markus Wulfmeier, Shawn O'Banion
Abstract要約: 我々は,数億の状態と実演軌跡を持つ世界規模の問題に対して,逆学習(IRL)をスケールする方法を提案する。我々は古典的なアルゴリズムを研究し、それらを大規模に研究し、安価で決定論的なプランナーと高価で堅牢なポリシーとの間にトレードオフが存在するという重要な観察を行う。我々の貢献は、世界のルート品質を16～24%向上させる政策と、私たちの知る限り、現在までの現実世界におけるIRLの最大の事例である。
参考スコア（独自算出の注目度）: 3.1244966374281544
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Optimizing for humans' latent preferences remains a grand challenge in route recommendation. Prior research has provided increasingly general techniques based on inverse reinforcement learning (IRL), yet no approach has been successfully scaled to world-sized routing problems with hundreds of millions of states and demonstration trajectories. In this paper, we provide methods for scaling IRL using graph compression, spatial parallelization, and problem initialization based on dominant eigenvectors. We revisit classic algorithms and study them in a large-scale setting, and make the key observation that there exists a trade-off between the use of cheap, deterministic planners and expensive yet robust stochastic policies. We leverage this insight in Receding Horizon Inverse Planning (RHIP), a new generalization of classic IRL algorithms that provides fine-grained control over performance trade-offs via its planning horizon. Our contributions culminate in a policy that achieves a 16-24% improvement in global route quality, and to the best of our knowledge, represents the largest instance of IRL in a real-world setting to date. Benchmark results show critical benefits to more sustainable modes of transportation, where factors beyond journey time play a substantial role. We conclude by conducting an ablation study of key components, presenting negative results from alternative eigenvalue solvers, and identifying opportunities to further improve scalability via IRL-specific batching strategies.
Abstract（参考訳）: 人間の潜在性好みに対する最適化は、ルートレコメンデーションにおける大きな課題である。従来の研究は、逆強化学習(IRL)に基づく一般的な技術を提供してきたが、数億の州や実証軌道で世界規模のルーティング問題に拡張されたアプローチは成功していない。本稿では,主要な固有ベクトルに基づくグラフ圧縮,空間並列化,問題初期化を用いたIRLのスケーリング手法を提案する。従来のアルゴリズムを再検討し,大規模に検討し,安価で決定論的なプランナーの使用と,高価かつ堅牢な確率的政策との間にはトレードオフが存在することを重要視する。我々は、従来のIRLアルゴリズムの新たな一般化であるReceding Horizon Inverse Planning(RHIP)におけるこの知見を活用し、その計画地平線を介してパフォーマンストレードオフのきめ細かい制御を提供する。我々の貢献は、世界のルート品質を16～24%向上させる政策と、私たちの知る限り、現在までの現実世界におけるIRLの最大の事例である。ベンチマークの結果は、旅行時間を超えた要因が重要な役割を果たす、より持続可能な交通手段に対する重要な利点を示している。結論として,キーコンポーネントのアブレーション研究を行い,代替固有値ソルバからの負の結果を示し,irl特有のバッチ戦略によるスケーラビリティ向上の機会を見出した。

関連論文リスト

Practical Performative Policy Learning with Strategic Agents [8.361090623217246]
本研究では,政策学習の課題について検討し,エージェントが提案した方針に応えて特徴を調整し,その潜在的な結果を改善する。本稿では,高次元分布マップの代用として,微分可能な分類器を用いた勾配型ポリシー最適化アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-12-02T10:09:44Z)
Joint Demonstration and Preference Learning Improves Policy Alignment with Human Feedback [58.049113055986375]
我々は、報酬モデルとポリシーをトレーニングするために、AIHF(Alignment with Integrated Human Feedback)と呼ばれる単一ステージアプローチを開発する。提案した手法は、一般的なアライメントアルゴリズムに容易に還元し、活用できる、効率的なアルゴリズムの集合を認めている。本研究では,LLMにおけるアライメント問題と,MuJoCoにおけるロボット制御問題を含む広範な実験により,提案手法の有効性を実証する。
論文参考訳（メタデータ） (2024-06-11T01:20:53Z)
Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文参考訳（メタデータ） (2024-05-03T16:45:15Z)
High-Precision Geosteering via Reinforcement Learning and Particle Filters [0.0]
ジオステアリング(Geosteering)はドリル操作の重要なコンポーネントであり、伝統的にログデータなどの様々なデータソースを手動で解釈する。 ADP(Approximate Dynamic Programming)は将来性を示したが、現実的な多様なシナリオへの適応性に欠けていた。報酬に基づく反復学習を通じて最適な意思決定を容易にするための強化学習(RL)を提案する。
論文参考訳（メタデータ） (2024-02-09T12:54:34Z)
Discovering General Reinforcement Learning Algorithms with Adversarial Environment Design [54.39859618450935]
メタ学習型更新ルールは,広範囲のRLタスクで良好に機能するアルゴリズムの発見を期待して,実現可能であることを示す。 Learned Policy Gradient (LPG)のようなアルゴリズムによる印象的な初期結果にもかかわらず、これらのアルゴリズムが目に見えない環境に適用される場合、まだギャップが残っている。本研究では,メタ教師付き学習分布の特性が,これらのアルゴリズムの性能に与える影響について検討する。
論文参考訳（メタデータ） (2023-10-04T12:52:56Z)
Online Network Source Optimization with Graph-Kernel MAB [62.6067511147939]
大規模ネットワークにおける最適なソース配置をオンラインで学習するためのグラフカーネルマルチアームバンディットアルゴリズムであるGrab-UCBを提案する。適応グラフ辞書モデルを用いて,ネットワークプロセスを記述する。我々は、ネットワークパラメータに依存する性能保証を導出し、シーケンシャルな意思決定戦略の学習曲線にさらに影響を及ぼす。
論文参考訳（メタデータ） (2023-07-07T15:03:42Z)
Enforcing the consensus between Trajectory Optimization and Policy Learning for precise robot control [75.28441662678394]
強化学習(RL)と軌道最適化(TO)は強い相補的優位性を示す。グローバルコントロールポリシを迅速に学習する上で,これらのアプローチに対して,いくつかの改良が提案されている。
論文参考訳（メタデータ） (2022-09-19T13:32:09Z)
Compositional Reinforcement Learning from Logical Specifications [21.193231846438895]
最近のアプローチでは、与えられた仕様から報酬関数を自動的に生成し、適切な強化学習アルゴリズムを用いてポリシーを学習する。我々は、高レベルの計画と強化学習をインターリーブする、DiRLと呼ばれる構成学習手法を開発した。提案手法では,各エッジ(サブタスク)のニューラルネットワークポリシをDijkstraスタイルの計画アルゴリズムで学習し,グラフの高レベルプランを計算する。
論文参考訳（メタデータ） (2021-06-25T22:54:28Z)
Unsupervised Resource Allocation with Graph Neural Networks [0.0]
本研究では,教師なしの方法で資源の配分方法を学ぶことによって,グローバルなユーティリティ関数を最大化する手法を提案する。我々は,GNNを用いて最適に近いアロケーションポリシーの報酬構造を学習することを提案する。
論文参考訳（メタデータ） (2021-06-17T18:44:04Z)
Escaping from Zero Gradient: Revisiting Action-Constrained Reinforcement Learning via Frank-Wolfe Policy Optimization [5.072893872296332]
アクション制約強化学習(RL)は、さまざまな現実世界のアプリケーションで広く使用されているアプローチです。本稿では,政策パラメータ更新から行動制約を分離する学習アルゴリズムを提案する。提案アルゴリズムは,様々な制御タスクにおけるベンチマーク手法を有意に上回っていることを示した。
論文参考訳（メタデータ） (2021-02-22T14:28:03Z)
Inverse Reinforcement Learning from a Gradient-based Learner [41.8663538249537]
逆強化学習は、専門家の報酬関数をデモンストレーションから推測する問題に対処する。本稿では,エージェントが最適化した報酬関数を復元するアルゴリズムを提案する。
論文参考訳（メタデータ） (2020-07-15T16:41:00Z)
Localized active learning of Gaussian process state space models [63.97366815968177]
多くの共通制御アプリケーションにおいて、優れた性能を達成するためには、グローバルに正確なモデルを必要としない。本稿では,状態-作用空間の有界部分集合上の正確なモデルを得ることを目的としたガウス過程状態空間モデルに対する能動的学習戦略を提案する。モデル予測制御を用いることで、探索中に収集した情報を統合し、探索戦略を適応的に改善する。
論文参考訳（メタデータ） (2020-05-04T05:35:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。