Fugu-MT 論文翻訳(概要): The Holy Grail of Multi-Robot Planning: Learning to Generate Online-Scalable Solutions from Offline-Optimal Experts

論文の概要: The Holy Grail of Multi-Robot Planning: Learning to Generate Online-Scalable Solutions from Offline-Optimal Experts

arxiv url: http://arxiv.org/abs/2107.12254v1
Date: Mon, 26 Jul 2021 14:59:46 GMT
ステータス: 翻訳完了
システム内更新日: 2021-07-27 15:43:31.727028
Title: The Holy Grail of Multi-Robot Planning: Learning to Generate Online-Scalable Solutions from Offline-Optimal Experts
Title（参考訳）: マルチロボット計画の聖杯:オフライン最適専門家によるオンラインスケーラブルソリューションの学習
Authors: Amanda Prorok, Jan Blumenkamp, Qingbiao Li, Ryan Kortvelesy, Zhe Liu, Ethan Stump
Abstract要約: 多くのマルチロボット計画問題は次元の呪いに悩まされている。マルチロボット計画における学習に基づく手法の利用は大きな約束である。しかし、多くの問題が、このアイデアを最大限に活用することを妨げました。
参考スコア（独自算出の注目度）: 11.248871363316855
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Many multi-robot planning problems are burdened by the curse of dimensionality, which compounds the difficulty of applying solutions to large-scale problem instances. The use of learning-based methods in multi-robot planning holds great promise as it enables us to offload the online computational burden of expensive, yet optimal solvers, to an offline learning procedure. Simply put, the idea is to train a policy to copy an optimal pattern generated by a small-scale system, and then transfer that policy to much larger systems, in the hope that the learned strategy scales, while maintaining near-optimal performance. Yet, a number of issues impede us from leveraging this idea to its full potential. This blue-sky paper elaborates some of the key challenges that remain.
Abstract（参考訳）: 多くのマルチロボット計画問題は次元の呪いによって負担され、大規模な問題インスタンスにソリューションを適用するのが困難である。マルチロボット計画における学習ベースの手法の利用は、コストがかかるが最適な解法のオンライン計算負荷をオフラインの学習手順にオフロードできるので、大きな期待を抱いている。簡単に言えば、小さなシステムで生成された最適なパターンをコピーするポリシーをトレーニングし、学習した戦略がスケールし、ほぼ最適に近いパフォーマンスを維持することを期待して、そのポリシーをもっと大きなシステムに転送する、というアイデアだ。しかし、多くの問題が、このアイデアを最大限に活用することを妨げる。このブルースキーの論文は、残るいくつかの重要な課題を詳述している。

関連論文リスト

Offline Critic-Guided Diffusion Policy for Multi-User Delay-Constrained Scheduling [29.431945795881976]
本稿では,新しいオフライン強化学習アルゴリズムである underlineScheduling を提案する。プリコンパイルされたEmphofflineデータから、効率的なスケジューリングポリシを純粋に学習する。我々は、SOCDは、部分的に観測可能で大規模な環境を含む、様々なシステム力学に耐性があることを示します。
論文参考訳（メタデータ） (2025-01-22T15:13:21Z)
Learning for Cross-Layer Resource Allocation in MEC-Aided Cell-Free Networks [71.30914500714262]
移動エッジコンピューティング(MEC)を援用したセルフリーネットワーク上でのクロスレイヤリソース割り当ては、データレートを促進するために、送信およびコンピューティングリソースを十分に活用することができる。深層学習の観点からMEC支援セルフリーネットワークのサブキャリア配置とビームフォーミング最適化について検討した。
論文参考訳（メタデータ） (2024-12-21T10:18:55Z)
Offline reinforcement learning for job-shop scheduling problems [1.3927943269211593]
本稿では,複雑な制約を伴う最適化問題に対して,新しいオフラインRL法を提案する。我々のアプローチは、エッジ属性のアクションを符号化し、専門家ソリューションの模倣と期待される報酬のバランスをとる。本手法がジョブショップスケジューリングおよびフレキシブルジョブショップスケジューリングベンチマークに与える影響を実証する。
論文参考訳（メタデータ） (2024-10-21T07:33:42Z)
Unlocking Reasoning Potential in Large Langauge Models by Scaling Code-form Planning [94.76546523689113]
CodePlanは、テキストコード形式の計画を生成し、追跡するフレームワークで、高いレベルの構造化された推論プロセスの概要を擬似コードで示します。 CodePlanは、洗練された推論タスク固有のリッチなセマンティクスと制御フローを効果的にキャプチャする。反応を直接生成するのに比べて25.1%の相対的な改善が達成されている。
論文参考訳（メタデータ） (2024-09-19T04:13:58Z)
Robotic warehousing operations: a learn-then-optimize approach to large-scale neighborhood search [84.39855372157616]
本稿では,ワークステーションの注文処理,アイテムポッドの割り当て,ワークステーションでの注文処理のスケジュールを最適化することで,ウェアハウジングにおけるロボット部品対ピッカー操作を支援する。そこで我々は, 大規模近傍探索を用いて, サブプロブレム生成に対する学習を最適化する手法を提案する。 Amazon Roboticsと共同で、我々のモデルとアルゴリズムは、最先端のアプローチよりも、実用的な問題に対するより強力なソリューションを生み出していることを示す。
論文参考訳（メタデータ） (2024-08-29T20:22:22Z)
To Switch or Not to Switch? Balanced Policy Switching in Offline Reinforcement Learning [2.951820152291149]
いくつかの決定問題では、政策変更の可能性に直面し、それは無視できないコストを引き起こす。本稿では,利得とスイッチングコストを柔軟かつ原則的にバランスをとるための新しい戦略を提案する。提案するスイッチング式に対する基本特性を確立し,Net Actor-Criticアルゴリズムを設計する。
論文参考訳（メタデータ） (2024-07-01T22:24:31Z)
Decentralized Learning Strategies for Estimation Error Minimization with Graph Neural Networks [94.2860766709971]
統計的に同一性を持つ無線ネットワークにおける自己回帰的マルコフ過程のサンプリングとリモート推定の課題に対処する。我々のゴールは、分散化されたスケーラブルサンプリングおよび送信ポリシーを用いて、時間平均推定誤差と/または情報の年齢を最小化することである。
論文参考訳（メタデータ） (2024-04-04T06:24:11Z)
Optimizing Solution-Samplers for Combinatorial Problems: The Landscape of Policy-Gradient Methods [52.0617030129699]
本稿では,DeepMatching NetworksとReinforcement Learningメソッドの有効性を解析するための新しい理論フレームワークを提案する。我々の主な貢献は、Max- and Min-Cut、Max-$k$-Bipartite-Bi、Maximum-Weight-Bipartite-Bi、Traveing Salesman Problemを含む幅広い問題である。本分析の副産物として,バニラ降下による新たな正則化プロセスを導入し,失効する段階的な問題に対処し,悪い静止点から逃れる上で有効であることを示す理論的および実験的証拠を提供する。
論文参考訳（メタデータ） (2023-10-08T23:39:38Z)
An End-to-End Reinforcement Learning Approach for Job-Shop Scheduling Problems Based on Constraint Programming [5.070542698701157]
本稿では,CPと強化学習(Reinforcement Learning, RL)を用いてスケジューリング問題を解決する新しいエンドツーエンドアプローチを提案する。当社のアプローチでは,既存のCPソルバを活用して,プライオリティ・ディスパッチ・ルール(PDR)を学ぶエージェントをトレーニングする。
論文参考訳（メタデータ） (2023-06-09T08:24:56Z)
Oracle-Efficient Smoothed Online Learning for Piecewise Continuous Decision Making [73.48977854003697]
この研究は、複雑性という新しい概念、一般化ブラケット数を導入し、空間の大きさに対する敵の制約を結婚させる。次に、オンライン予測や断片的連続関数の計画など、関心のあるいくつかの問題で境界をインスタンス化する。
論文参考訳（メタデータ） (2023-02-10T18:45:52Z)
Optimal Solving of Constrained Path-Planning Problems with Graph Convolutional Networks and Optimized Tree Search [12.457788665461312]
本稿では,機械学習モデルと最適解法を併用したハイブリッド問題解決プランナを提案する。我々は現実的なシナリオで実験を行い、GCNのサポートにより、より難しい問題に対して、大幅なスピードアップとスムーズなスケーリングが可能になることを示す。
論文参考訳（メタデータ） (2021-08-02T16:53:21Z)
Multiple Plans are Better than One: Diverse Stochastic Planning [26.887796946596243]
計画上の問題では、望ましい仕様を完全にモデル化することはしばしば困難です。特に、人間とロボットの相互作用において、そのような困難は、プライベートまたはモデルに複雑である人間の好みによって生じる可能性がある。我々は、最適に近い代表行動の集合を生成することを目的とした、多種多様な計画と呼ばれる問題を定式化する。
論文参考訳（メタデータ） (2020-12-31T07:29:11Z)
Learning High-Level Policies for Model Predictive Control [54.00297896763184]
Model Predictive Control (MPC)は、ロボット制御タスクに対する堅牢なソリューションを提供する。ニューラルネットワークの高レベルポリシーを学習するための自己教師付き学習アルゴリズムを提案する。提案手法は, 標準的なMPCでは困難な状況に対処できることを示す。
論文参考訳（メタデータ） (2020-07-20T17:12:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。