論文の概要: The Holy Grail of Multi-Robot Planning: Learning to Generate
Online-Scalable Solutions from Offline-Optimal Experts
- arxiv url: http://arxiv.org/abs/2107.12254v1
- Date: Mon, 26 Jul 2021 14:59:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-27 15:43:31.727028
- Title: The Holy Grail of Multi-Robot Planning: Learning to Generate
Online-Scalable Solutions from Offline-Optimal Experts
- Title(参考訳): マルチロボット計画の聖杯:オフライン最適専門家によるオンラインスケーラブルソリューションの学習
- Authors: Amanda Prorok, Jan Blumenkamp, Qingbiao Li, Ryan Kortvelesy, Zhe Liu,
Ethan Stump
- Abstract要約: 多くのマルチロボット計画問題は次元の呪いに悩まされている。
マルチロボット計画における学習に基づく手法の利用は大きな約束である。
しかし、多くの問題が、このアイデアを最大限に活用することを妨げました。
- 参考スコア(独自算出の注目度): 11.248871363316855
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many multi-robot planning problems are burdened by the curse of
dimensionality, which compounds the difficulty of applying solutions to
large-scale problem instances. The use of learning-based methods in multi-robot
planning holds great promise as it enables us to offload the online
computational burden of expensive, yet optimal solvers, to an offline learning
procedure. Simply put, the idea is to train a policy to copy an optimal pattern
generated by a small-scale system, and then transfer that policy to much larger
systems, in the hope that the learned strategy scales, while maintaining
near-optimal performance. Yet, a number of issues impede us from leveraging
this idea to its full potential. This blue-sky paper elaborates some of the key
challenges that remain.
- Abstract(参考訳): 多くのマルチロボット計画問題は次元の呪いによって負担され、大規模な問題インスタンスにソリューションを適用するのが困難である。
マルチロボット計画における学習ベースの手法の利用は、コストがかかるが最適な解法のオンライン計算負荷をオフラインの学習手順にオフロードできるので、大きな期待を抱いている。
簡単に言えば、小さなシステムで生成された最適なパターンをコピーするポリシーをトレーニングし、学習した戦略がスケールし、ほぼ最適に近いパフォーマンスを維持することを期待して、そのポリシーをもっと大きなシステムに転送する、というアイデアだ。
しかし、多くの問題が、このアイデアを最大限に活用することを妨げる。
このブルースキーの論文は、残るいくつかの重要な課題を詳述している。
関連論文リスト
- PolyNet: Learning Diverse Solution Strategies for Neural Combinatorial
Optimization [4.764047597837088]
補完的なソリューション戦略を学習することで、ソリューション空間の探索を改善するアプローチであるPolyNetを導入する。
他の作業とは対照的に、PolyNetはシングルデコーダと、多様なソリューション生成を強制しないトレーニングスキーマのみを使用する。
論文 参考訳(メタデータ) (2024-02-21T16:38:14Z) - Optimizing Solution-Samplers for Combinatorial Problems: The Landscape
of Policy-Gradient Methods [52.0617030129699]
本稿では,DeepMatching NetworksとReinforcement Learningメソッドの有効性を解析するための新しい理論フレームワークを提案する。
我々の主な貢献は、Max- and Min-Cut、Max-$k$-Bipartite-Bi、Maximum-Weight-Bipartite-Bi、Traveing Salesman Problemを含む幅広い問題である。
本分析の副産物として,バニラ降下による新たな正則化プロセスを導入し,失効する段階的な問題に対処し,悪い静止点から逃れる上で有効であることを示す理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-10-08T23:39:38Z) - An End-to-End Reinforcement Learning Approach for Job-Shop Scheduling
Problems Based on Constraint Programming [5.070542698701157]
本稿では,CPと強化学習(Reinforcement Learning, RL)を用いてスケジューリング問題を解決する新しいエンドツーエンドアプローチを提案する。
当社のアプローチでは,既存のCPソルバを活用して,プライオリティ・ディスパッチ・ルール(PDR)を学ぶエージェントをトレーニングする。
論文 参考訳(メタデータ) (2023-06-09T08:24:56Z) - Oracle-Efficient Smoothed Online Learning for Piecewise Continuous
Decision Making [91.89643024162973]
この研究は、複雑性という新しい概念、一般化ブラケット数を導入し、空間の大きさに対する敵の制約を結婚させる。
次に、オンライン予測や断片的連続関数の計画など、関心のあるいくつかの問題で境界をインスタンス化する。
論文 参考訳(メタデータ) (2023-02-10T18:45:52Z) - Smoothed Online Learning for Prediction in Piecewise Affine Systems [54.98643421343919]
本稿では,最近開発されたスムーズなオンライン学習フレームワークに基づく。
これは、断片的なアフィン系における予測とシミュレーションのための最初のアルゴリズムを提供する。
論文 参考訳(メタデータ) (2023-01-26T15:54:14Z) - Optimal Solving of Constrained Path-Planning Problems with Graph
Convolutional Networks and Optimized Tree Search [12.457788665461312]
本稿では,機械学習モデルと最適解法を併用したハイブリッド問題解決プランナを提案する。
我々は現実的なシナリオで実験を行い、GCNのサポートにより、より難しい問題に対して、大幅なスピードアップとスムーズなスケーリングが可能になることを示す。
論文 参考訳(メタデータ) (2021-08-02T16:53:21Z) - Deep Policy Dynamic Programming for Vehicle Routing Problems [89.96386273895985]
本稿では,学習ニューラルの強みと動的プログラミングアルゴリズムの強みを組み合わせた深層ポリシー動的プログラミング(d pdp)を提案する。
D PDPは、例の解からエッジを予測するために訓練されたディープニューラルネットワークから派生したポリシーを使用して、DP状態空間を優先し、制限する。
本研究では,旅行セールスマン問題 (TSP) と車両ルーティング問題 (VRP) の枠組みを評価し,ニューラルネットワークが(制限された)DPアルゴリズムの性能を向上させることを示す。
論文 参考訳(メタデータ) (2021-02-23T15:33:57Z) - Multiple Plans are Better than One: Diverse Stochastic Planning [26.887796946596243]
計画上の問題では、望ましい仕様を完全にモデル化することはしばしば困難です。
特に、人間とロボットの相互作用において、そのような困難は、プライベートまたはモデルに複雑である人間の好みによって生じる可能性がある。
我々は、最適に近い代表行動の集合を生成することを目的とした、多種多様な計画と呼ばれる問題を定式化する。
論文 参考訳(メタデータ) (2020-12-31T07:29:11Z) - Learning High-Level Policies for Model Predictive Control [54.00297896763184]
Model Predictive Control (MPC)は、ロボット制御タスクに対する堅牢なソリューションを提供する。
ニューラルネットワークの高レベルポリシーを学習するための自己教師付き学習アルゴリズムを提案する。
提案手法は, 標準的なMPCでは困難な状況に対処できることを示す。
論文 参考訳(メタデータ) (2020-07-20T17:12:34Z) - Decentralized MCTS via Learned Teammate Models [89.24858306636816]
本稿では,モンテカルロ木探索に基づくトレーニング可能なオンライン分散計画アルゴリズムを提案する。
深層学習と畳み込みニューラルネットワークを用いて正確なポリシー近似を作成可能であることを示す。
論文 参考訳(メタデータ) (2020-03-19T13:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。