論文の概要: An Auction-based Coordination Strategy for Task-Constrained Multi-Agent
Stochastic Planning with Submodular Rewards
- arxiv url: http://arxiv.org/abs/2212.14624v1
- Date: Fri, 30 Dec 2022 10:25:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-02 16:33:00.576762
- Title: An Auction-based Coordination Strategy for Task-Constrained Multi-Agent
Stochastic Planning with Submodular Rewards
- Title(参考訳): タスク制約付きマルチエージェント確率計画のためのオークションベースの協調戦略
- Authors: Ruifan Liu, Hyo-Sang Shin, Bonbon Yan, and Antonios Tsourdos
- Abstract要約: 既存のタスク調整アルゴリズムはプロセスを無視したり、計算強度に悩まされる。
新たに定式化されたスコア関数を用いた分散オークションベースのコーディネート戦略を提案する。
大規模アプリケーションの実装には,提案手法の近似変種,すなわちDeep Auctionも提案されている。
- 参考スコア(独自算出の注目度): 6.159771892460151
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In many domains such as transportation and logistics, search and rescue, or
cooperative surveillance, tasks are pending to be allocated with the
consideration of possible execution uncertainties. Existing task coordination
algorithms either ignore the stochastic process or suffer from the
computational intensity. Taking advantage of the weakly coupled feature of the
problem and the opportunity for coordination in advance, we propose a
decentralized auction-based coordination strategy using a newly formulated
score function which is generated by forming the problem into task-constrained
Markov decision processes (MDPs). The proposed method guarantees convergence
and at least 50% optimality in the premise of a submodular reward function.
Furthermore, for the implementation on large-scale applications, an approximate
variant of the proposed method, namely Deep Auction, is also suggested with the
use of neural networks, which is evasive of the troublesome for constructing
MDPs. Inspired by the well-known actor-critic architecture, two Transformers
are used to map observations to action probabilities and cumulative rewards
respectively. Finally, we demonstrate the performance of the two proposed
approaches in the context of drone deliveries, where the stochastic planning
for the drone league is cast into a stochastic price-collecting Vehicle Routing
Problem (VRP) with time windows. Simulation results are compared with
state-of-the-art methods in terms of solution quality, planning efficiency and
scalability.
- Abstract(参考訳): 輸送、物流、捜索、救助、協調監視といった多くの分野において、実行の不確実性を考慮してタスクを割り当てる準備が整っている。
既存のタスク調整アルゴリズムは確率過程を無視したり、計算強度に悩まされる。
本稿では,問題の弱結合性と事前調整の機会を生かして,タスク制約付きマルコフ決定プロセス(MDPs)に問題を形成した新たな定式化スコア関数を用いた分散オークション型コーディネーション戦略を提案する。
提案手法は,サブモジュラー報酬関数を前提とした収束と少なくとも50%の最適性を保証する。
さらに,大規模アプリケーションの実装においては,提案手法の近似的変種であるディープオークション(deep auction)も提案されており,mdp構築の難しさを回避できるニューラルネットワークの利用が提案されている。
有名なアクター・クリティック・アーキテクチャにインスパイアされた2つのトランスフォーマーは、それぞれ観測結果を行動確率と累積報酬にマッピングするために使用される。
最後に、ドローンの配送における2つの提案されたアプローチの性能を実演する。そこでは、ドローンリーグの確率的計画が、時間窓を備えた確率論的価格決定型車両ルーティング問題(VRP)に投じられる。
シミュレーション結果は、ソリューションの品質、計画効率、スケーラビリティの観点から最先端の手法と比較される。
関連論文リスト
- On efficient computation in active inference [1.1470070927586016]
計算量を大幅に減らした有限時間地平線に対する新しい計画アルゴリズムを提案する。
また、新規かつ既存のアクティブな推論計画スキームに対して適切な目標分布を設定するプロセスを簡単にする。
論文 参考訳(メタデータ) (2023-07-02T07:38:56Z) - Semantically Aligned Task Decomposition in Multi-Agent Reinforcement
Learning [56.26889258704261]
我々は,MARL(SAMA)における意味的アライズされたタスク分解という,新しい「不整合」意思決定手法を提案する。
SAMAは、潜在的な目標を示唆し、適切な目標分解とサブゴールアロケーションを提供するとともに、自己回帰に基づくリプランニングを提供する、チェーン・オブ・シントによる事前訓練された言語モデルを促進する。
SAMAは, 最先端のASG法と比較して, 試料効率に有意な優位性を示す。
論文 参考訳(メタデータ) (2023-05-18T10:37:54Z) - Structural Estimation of Markov Decision Processes in High-Dimensional
State Space with Finite-Time Guarantees [39.287388288477096]
本研究では,実施行動と訪問状態の観測可能な履歴に基づいて,人間エージェントによる動的決定の構造モデルの推定作業を検討する。
この問題には固有のネスト構造があり、内部問題では与えられた報酬関数に対する最適ポリシーが特定され、外部問題では適合度の測定が最大化される。
本研究では,高次元状態空間を扱うための有限時間保証付き単一ループ推定アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-04T00:11:38Z) - Fidelity-Guarantee Entanglement Routing in Quantum Networks [64.49733801962198]
絡み合いルーティングは、2つの任意のノード間のリモート絡み合い接続を確立する。
量子ネットワークにおける複数のソース・デスティネーション(SD)ペアの忠実性を保証するために、精製可能な絡み合わせルーティング設計を提案する。
論文 参考訳(メタデータ) (2021-11-15T14:07:22Z) - Distributed Allocation and Scheduling of Tasks with Cross-Schedule
Dependencies for Heterogeneous Multi-Robot Teams [2.294915015129229]
本稿では,異なるロボットのタスクが時間的・優先的な制約に強く結びついているミッションに対して,タスク割り当てとスケジューリングを行うアルゴリズムを提案する。
マルチロボットシステムによって維持される温室の実用ユースケースへの計画手順の適用。
論文 参考訳(メタデータ) (2021-09-07T13:44:28Z) - Asynchronous Distributed Reinforcement Learning for LQR Control via Zeroth-Order Block Coordinate Descent [7.6860514640178]
分散強化学習のための新しいゼロ階最適化アルゴリズムを提案する。
これにより、各エージェントはコンセンサスプロトコルを使わずに、コスト評価を独立してローカル勾配を推定できる。
論文 参考訳(メタデータ) (2021-07-26T18:11:07Z) - Momentum Accelerates the Convergence of Stochastic AUPRC Maximization [80.8226518642952]
高精度リコール曲線(AUPRC)に基づく領域の最適化について検討し,不均衡なタスクに広く利用されている。
我々は、$O (1/epsilon4)$のより優れた反復による、$epsilon$定常解を見つけるための新しい運動量法を開発する。
また,O(1/epsilon4)$と同じ複雑さを持つ適応手法の新たなファミリを設計し,実際により高速な収束を享受する。
論文 参考訳(メタデータ) (2021-07-02T16:21:52Z) - An Efficient Algorithm for Deep Stochastic Contextual Bandits [10.298368632706817]
コンテキスト境界の問題では、エージェントは特定の観察されたコンテキストに基づいてアクションを選択し、反復よりも報酬を最大化します。
近年、ディープニューラルネットワーク(DNN)を用いて行動に対する期待される報酬を予測する研究がいくつか行われ、勾配に基づく手法で訓練されている。
論文 参考訳(メタデータ) (2021-04-12T16:34:43Z) - A Hamiltonian Monte Carlo Method for Probabilistic Adversarial Attack
and Learning [122.49765136434353]
本稿では,HMCAM (Acumulated Momentum) を用いたハミルトニアンモンテカルロ法を提案する。
また, 対数的対数的対数的学習(Contrastive Adversarial Training, CAT)と呼ばれる新たな生成法を提案し, 対数的例の平衡分布にアプローチする。
いくつかの自然画像データセットと実用システムに関する定量的および定性的な解析により、提案アルゴリズムの優位性が確認された。
論文 参考訳(メタデータ) (2020-10-15T16:07:26Z) - Combining Deep Learning and Optimization for Security-Constrained
Optimal Power Flow [94.24763814458686]
セキュリティに制約のある最適電力フロー(SCOPF)は、電力システムの基本である。
SCOPF問題におけるAPRのモデル化は、複雑な大規模混合整数プログラムをもたらす。
本稿では,ディープラーニングとロバスト最適化を組み合わせた新しい手法を提案する。
論文 参考訳(メタデータ) (2020-07-14T12:38:21Z) - Decentralized MCTS via Learned Teammate Models [89.24858306636816]
本稿では,モンテカルロ木探索に基づくトレーニング可能なオンライン分散計画アルゴリズムを提案する。
深層学習と畳み込みニューラルネットワークを用いて正確なポリシー近似を作成可能であることを示す。
論文 参考訳(メタデータ) (2020-03-19T13:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。