論文の概要: Multiagent Rollout and Policy Iteration for POMDP with Application to
Multi-Robot Repair Problems
- arxiv url: http://arxiv.org/abs/2011.04222v1
- Date: Mon, 9 Nov 2020 06:51:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-28 02:11:19.298016
- Title: Multiagent Rollout and Policy Iteration for POMDP with Application to
Multi-Robot Repair Problems
- Title(参考訳): POMDPのマルチエージェントロールアウトとポリシーイテレーションとマルチロボット修理問題への応用
- Authors: Sushmita Bhattacharya, Siva Kailas, Sahil Badyal, Stephanie Gil,
Dimitri Bertsekas
- Abstract要約: 有限状態および制御空間,部分状態観測,マルチエージェント構造を有する無限地平面割引動的プログラミング問題を考える。
本手法は、部分的に観測可能なマルチエージェント問題の計算問題に特に対処する。
- 参考スコア(独自算出の注目度): 1.6939372704265414
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper we consider infinite horizon discounted dynamic programming
problems with finite state and control spaces, partial state observations, and
a multiagent structure. We discuss and compare algorithms that simultaneously
or sequentially optimize the agents' controls by using multistep lookahead,
truncated rollout with a known base policy, and a terminal cost function
approximation. Our methods specifically address the computational challenges of
partially observable multiagent problems. In particular: 1) We consider rollout
algorithms that dramatically reduce required computation while preserving the
key cost improvement property of the standard rollout method. The per-step
computational requirements for our methods are on the order of $O(Cm)$ as
compared with $O(C^m)$ for standard rollout, where $C$ is the maximum
cardinality of the constraint set for the control component of each agent, and
$m$ is the number of agents. 2) We show that our methods can be applied to
challenging problems with a graph structure, including a class of robot repair
problems whereby multiple robots collaboratively inspect and repair a system
under partial information. 3) We provide a simulation study that compares our
methods with existing methods, and demonstrate that our methods can handle
larger and more complex partially observable multiagent problems (state space
size $10^{37}$ and control space size $10^{7}$, respectively). Finally, we
incorporate our multiagent rollout algorithms as building blocks in an
approximate policy iteration scheme, where successive rollout policies are
approximated by using neural network classifiers. While this scheme requires a
strictly off-line implementation, it works well in our computational
experiments and produces additional significant performance improvement over
the single online rollout iteration method.
- Abstract(参考訳): 本稿では,有限状態と制御空間,部分状態の観測,マルチエージェント構造を有する無限地平面割引動的プログラミング問題について考察する。
マルチステップのルックアヘッド、既知の基本方針による切り抜きロールアウト、端末コスト関数近似を用いてエージェントの制御を同時にあるいは逐次最適化するアルゴリズムについて検討・比較する。
本手法は, 部分可観測マルチエージェント問題の計算課題を特に解決する。
特に
1) 標準ロールアウト法の主なコスト改善特性を維持しつつ, 必要な計算量を大幅に削減するロールアウトアルゴリズムを検討する。
我々のメソッドのステップごとの計算要件は、標準ロールアウトの$O(C^m)$と比較して$O(C^m)$であり、$C$は各エージェントの制御コンポーネントの制約セットの最大濃度であり、$m$はエージェントの数である。
2)本手法は,複数のロボットが協調して部分的な情報に基づいてシステムを検査・修復するロボット修復問題を含む,グラフ構造の問題に適用可能であることを示す。
3)本手法を既存の手法と比較したシミュレーション研究を行い,より大きく複雑な部分観測可能なマルチエージェント問題(状態空間サイズ10^{37}$,制御空間サイズ10^{7}$)を扱い得ることを示す。
最後に,我々のマルチエージェントロールアウトアルゴリズムを,ニューラルネットワーク分類器を用いて連続的なロールアウトポリシーを近似する近似ポリシー反復スキームのビルディングブロックとして組み込む。
このスキームは厳密なオフライン実装を必要とするが、計算実験ではうまく動作し、単一のオンラインロールアウトイテレーションメソッドよりも大幅にパフォーマンスが向上する。
関連論文リスト
- Scalable Mechanism Design for Multi-Agent Path Finding [87.40027406028425]
MAPF (Multi-Agent Path Finding) は、複数のエージェントが同時に移動し、与えられた目標地点に向かって共有領域を通って衝突しない経路を決定する。
最適解を見つけることは、しばしば計算不可能であり、近似的な準最適アルゴリズムを用いることが不可欠である。
本稿では、MAPFのスケーラブルな機構設計の問題を紹介し、MAPFアルゴリズムを近似した3つの戦略防御機構を提案する。
論文 参考訳(メタデータ) (2024-01-30T14:26:04Z) - Cooperative Thresholded Lasso for Sparse Linear Bandit [6.52540785559241]
本稿では,マルチエージェント・スパース文脈線形帯域問題に対処する新しい手法を提案する。
疎線形帯域における行単位の分散データに対処する最初のアルゴリズムである。
後悔を最小限に抑えるために効率的な特徴抽出が重要となる高次元マルチエージェント問題に適用可能である。
論文 参考訳(メタデータ) (2023-05-30T16:05:44Z) - Efficient Policy Iteration for Robust Markov Decision Processes via
Regularization [49.05403412954533]
ロバストな意思決定プロセス(MDP)は、システムのダイナミクスが変化している、あるいは部分的にしか知られていない決定問題をモデル化するためのフレームワークを提供する。
最近の研究は、長方形長方形の$L_p$頑健なMDPと正規化されたMDPの等価性を確立し、標準MDPと同じレベルの効率を享受する規則化されたポリシー反復スキームを導出した。
本研究では、政策改善のステップに焦点をあて、欲求政策と最適なロバストなベルマン作用素のための具体的な形式を導出する。
論文 参考訳(メタデータ) (2022-05-28T04:05:20Z) - An Experimental Design Perspective on Model-Based Reinforcement Learning [73.37942845983417]
環境からの状態遷移を観察するのは費用がかかる。
標準RLアルゴリズムは通常、学習するために多くの観測を必要とする。
本稿では,マルコフ決定過程について,状態-作用対がどの程度の情報を提供するかを定量化する獲得関数を提案する。
論文 参考訳(メタデータ) (2021-12-09T23:13:57Z) - Implicitly Regularized RL with Implicit Q-Values [42.87920755961722]
Q$関数は多くの強化学習(RL)アルゴリズムにおいて中心的な量であり、RLエージェントは(ソフト)グレーディポリシーに従って振る舞う。
対数政治と値関数の和として、暗黙的に$Q$-関数をパラメータ化することを提案する。
我々は,大規模アクション空間に適した実用的な非政治的深部RLアルゴリズムを導出し,ポリシーと$Q$値とのソフトマックス関係を強制する。
論文 参考訳(メタデータ) (2021-08-16T12:20:47Z) - Online Sub-Sampling for Reinforcement Learning with General Function
Approximation [111.01990889581243]
本稿では,RLアルゴリズムによって収集されたデータポイントの情報取得量を測定する,効率的なオンラインサブサンプリングフレームワークを確立する。
複雑性バウンド関数クラスを持つ値ベースのメソッドの場合、$proptooperatornamepolylog(K)$ timesに対してのみポリシーを更新する必要がある。
少なくとも$Omega(K)$倍のポリシーを更新する既存のアプローチとは対照的に、当社のアプローチはポリシーの解決における最適化コールの数を劇的に削減します。
論文 参考訳(メタデータ) (2021-06-14T07:36:25Z) - Online Apprenticeship Learning [58.45089581278177]
見習い学習(AL)では、コスト関数にアクセスせずにマルコフ決定プロセス(MDP)が与えられます。
目標は、事前に定義されたコスト関数のセットで専門家のパフォーマンスに一致するポリシーを見つけることです。
ミラー下降型ノンレグレットアルゴリズムを2つ組み合わせることで,OAL問題を効果的に解くことができることを示す。
論文 参考訳(メタデータ) (2021-02-13T12:57:51Z) - Queueing Network Controls via Deep Reinforcement Learning [0.0]
待ち行列ネットワークのためのポリシ最適化アルゴリズムを開発した。
このアルゴリズムは、文学における最先端よりも優れた制御ポリシーを一貫して生成する。
PPOアルゴリズムの成功の鍵は、相対値関数を推定するために3つの分散還元技術を使用することである。
論文 参考訳(メタデータ) (2020-07-31T01:02:57Z) - FANOK: Knockoffs in Linear Time [73.5154025911318]
本稿では,ガウスモデル-Xノックオフを効率的に実装し,大規模特徴選択問題における誤発見率を制御するアルゴリズムについて述べる。
当社のメソッドは、最大50,000ドルという問題でテストしています。
論文 参考訳(メタデータ) (2020-06-15T21:55:34Z) - Constrained Multiagent Rollout and Multidimensional Assignment with the
Auction Algorithm [0.0]
本稿では,制約付き決定論的動的プログラミングに適用可能なロールアウトアルゴリズムの拡張について考察する。
提案手法では,ベースが実現可能な解を生成する場合,ロールアウトアルゴリズムはコスト改善特性を有することを示す。
コスト改善特性は計算要求を大幅に削減した代替実装で維持されていることを示す。
論文 参考訳(メタデータ) (2020-02-18T07:09:06Z) - Reinforcement Learning for POMDP: Partitioned Rollout and Policy
Iteration with Application to Autonomous Sequential Repair Problems [2.6389022766562236]
有限状態と制御空間を持つ動的プログラミング問題と部分状態観測について考察する。
本稿では,マルチステップのルックアヘッド,既知の基本方針付きロールアウト,端末コスト関数近似を用いたアルゴリズムについて論じる。
論文 参考訳(メタデータ) (2020-02-11T02:38:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。