論文の概要: The Holy Grail of Multi-Robot Planning: Learning to Generate
Online-Scalable Solutions from Offline-Optimal Experts
- arxiv url: http://arxiv.org/abs/2107.12254v1
- Date: Mon, 26 Jul 2021 14:59:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-27 15:43:31.727028
- Title: The Holy Grail of Multi-Robot Planning: Learning to Generate
Online-Scalable Solutions from Offline-Optimal Experts
- Title(参考訳): マルチロボット計画の聖杯:オフライン最適専門家によるオンラインスケーラブルソリューションの学習
- Authors: Amanda Prorok, Jan Blumenkamp, Qingbiao Li, Ryan Kortvelesy, Zhe Liu,
Ethan Stump
- Abstract要約: 多くのマルチロボット計画問題は次元の呪いに悩まされている。
マルチロボット計画における学習に基づく手法の利用は大きな約束である。
しかし、多くの問題が、このアイデアを最大限に活用することを妨げました。
- 参考スコア(独自算出の注目度): 11.248871363316855
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many multi-robot planning problems are burdened by the curse of
dimensionality, which compounds the difficulty of applying solutions to
large-scale problem instances. The use of learning-based methods in multi-robot
planning holds great promise as it enables us to offload the online
computational burden of expensive, yet optimal solvers, to an offline learning
procedure. Simply put, the idea is to train a policy to copy an optimal pattern
generated by a small-scale system, and then transfer that policy to much larger
systems, in the hope that the learned strategy scales, while maintaining
near-optimal performance. Yet, a number of issues impede us from leveraging
this idea to its full potential. This blue-sky paper elaborates some of the key
challenges that remain.
- Abstract(参考訳): 多くのマルチロボット計画問題は次元の呪いによって負担され、大規模な問題インスタンスにソリューションを適用するのが困難である。
マルチロボット計画における学習ベースの手法の利用は、コストがかかるが最適な解法のオンライン計算負荷をオフラインの学習手順にオフロードできるので、大きな期待を抱いている。
簡単に言えば、小さなシステムで生成された最適なパターンをコピーするポリシーをトレーニングし、学習した戦略がスケールし、ほぼ最適に近いパフォーマンスを維持することを期待して、そのポリシーをもっと大きなシステムに転送する、というアイデアだ。
しかし、多くの問題が、このアイデアを最大限に活用することを妨げる。
このブルースキーの論文は、残るいくつかの重要な課題を詳述している。
関連論文リスト
- Offline reinforcement learning for job-shop scheduling problems [1.3927943269211593]
本稿では,複雑な制約を伴う最適化問題に対して,新しいオフラインRL法を提案する。
我々のアプローチは、エッジ属性のアクションを符号化し、専門家ソリューションの模倣と期待される報酬のバランスをとる。
本手法がジョブショップスケジューリングおよびフレキシブルジョブショップスケジューリングベンチマークに与える影響を実証する。
論文 参考訳(メタデータ) (2024-10-21T07:33:42Z) - Unlocking Reasoning Potential in Large Langauge Models by Scaling Code-form Planning [94.76546523689113]
CodePlanは、テキストコード形式の計画を生成し、追跡するフレームワークで、高いレベルの構造化された推論プロセスの概要を擬似コードで示します。
CodePlanは、洗練された推論タスク固有のリッチなセマンティクスと制御フローを効果的にキャプチャする。
反応を直接生成するのに比べて25.1%の相対的な改善が達成されている。
論文 参考訳(メタデータ) (2024-09-19T04:13:58Z) - Robotic warehousing operations: a learn-then-optimize approach to large-scale neighborhood search [84.39855372157616]
本稿では,ワークステーションの注文処理,アイテムポッドの割り当て,ワークステーションでの注文処理のスケジュールを最適化することで,ウェアハウジングにおけるロボット部品対ピッカー操作を支援する。
そこで我々は, 大規模近傍探索を用いて, サブプロブレム生成に対する学習を最適化する手法を提案する。
Amazon Roboticsと共同で、我々のモデルとアルゴリズムは、最先端のアプローチよりも、実用的な問題に対するより強力なソリューションを生み出していることを示す。
論文 参考訳(メタデータ) (2024-08-29T20:22:22Z) - To Switch or Not to Switch? Balanced Policy Switching in Offline Reinforcement Learning [2.951820152291149]
いくつかの決定問題では、政策変更の可能性に直面し、それは無視できないコストを引き起こす。
本稿では,利得とスイッチングコストを柔軟かつ原則的にバランスをとるための新しい戦略を提案する。
提案するスイッチング式に対する基本特性を確立し,Net Actor-Criticアルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-07-01T22:24:31Z) - Decentralized Learning Strategies for Estimation Error Minimization with Graph Neural Networks [94.2860766709971]
統計的に同一性を持つ無線ネットワークにおける自己回帰的マルコフ過程のサンプリングとリモート推定の課題に対処する。
我々のゴールは、分散化されたスケーラブルサンプリングおよび送信ポリシーを用いて、時間平均推定誤差と/または情報の年齢を最小化することである。
論文 参考訳(メタデータ) (2024-04-04T06:24:11Z) - Optimizing Solution-Samplers for Combinatorial Problems: The Landscape
of Policy-Gradient Methods [52.0617030129699]
本稿では,DeepMatching NetworksとReinforcement Learningメソッドの有効性を解析するための新しい理論フレームワークを提案する。
我々の主な貢献は、Max- and Min-Cut、Max-$k$-Bipartite-Bi、Maximum-Weight-Bipartite-Bi、Traveing Salesman Problemを含む幅広い問題である。
本分析の副産物として,バニラ降下による新たな正則化プロセスを導入し,失効する段階的な問題に対処し,悪い静止点から逃れる上で有効であることを示す理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-10-08T23:39:38Z) - An End-to-End Reinforcement Learning Approach for Job-Shop Scheduling
Problems Based on Constraint Programming [5.070542698701157]
本稿では,CPと強化学習(Reinforcement Learning, RL)を用いてスケジューリング問題を解決する新しいエンドツーエンドアプローチを提案する。
当社のアプローチでは,既存のCPソルバを活用して,プライオリティ・ディスパッチ・ルール(PDR)を学ぶエージェントをトレーニングする。
論文 参考訳(メタデータ) (2023-06-09T08:24:56Z) - Oracle-Efficient Smoothed Online Learning for Piecewise Continuous Decision Making [73.48977854003697]
この研究は、複雑性という新しい概念、一般化ブラケット数を導入し、空間の大きさに対する敵の制約を結婚させる。
次に、オンライン予測や断片的連続関数の計画など、関心のあるいくつかの問題で境界をインスタンス化する。
論文 参考訳(メタデータ) (2023-02-10T18:45:52Z) - Optimal Solving of Constrained Path-Planning Problems with Graph
Convolutional Networks and Optimized Tree Search [12.457788665461312]
本稿では,機械学習モデルと最適解法を併用したハイブリッド問題解決プランナを提案する。
我々は現実的なシナリオで実験を行い、GCNのサポートにより、より難しい問題に対して、大幅なスピードアップとスムーズなスケーリングが可能になることを示す。
論文 参考訳(メタデータ) (2021-08-02T16:53:21Z) - Multiple Plans are Better than One: Diverse Stochastic Planning [26.887796946596243]
計画上の問題では、望ましい仕様を完全にモデル化することはしばしば困難です。
特に、人間とロボットの相互作用において、そのような困難は、プライベートまたはモデルに複雑である人間の好みによって生じる可能性がある。
我々は、最適に近い代表行動の集合を生成することを目的とした、多種多様な計画と呼ばれる問題を定式化する。
論文 参考訳(メタデータ) (2020-12-31T07:29:11Z) - Learning High-Level Policies for Model Predictive Control [54.00297896763184]
Model Predictive Control (MPC)は、ロボット制御タスクに対する堅牢なソリューションを提供する。
ニューラルネットワークの高レベルポリシーを学習するための自己教師付き学習アルゴリズムを提案する。
提案手法は, 標準的なMPCでは困難な状況に対処できることを示す。
論文 参考訳(メタデータ) (2020-07-20T17:12:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。