論文の概要: Assume-Guarantee Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2312.09938v1
- Date: Fri, 15 Dec 2023 16:49:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-18 14:55:25.001659
- Title: Assume-Guarantee Reinforcement Learning
- Title(参考訳): 受講者強化学習
- Authors: Milad Kazemi, Mateo Perez, Fabio Somenzi, Sadegh Soudjani, Ashutosh
Trivedi, Alvaro Velasquez
- Abstract要約: 本稿では, 並列に進化する単純なコンポーネントからなる環境において, RL (Emphreinforcement Learning) に対するモジュラーアプローチを提案する。
- 参考スコア(独自算出の注目度): 10.232750419662585
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a modular approach to \emph{reinforcement learning} (RL) in
environments consisting of simpler components evolving in parallel. A
monolithic view of such modular environments may be prohibitively large to
learn, or may require unrealizable communication between the components in the
form of a centralized controller. Our proposed approach is based on the
assume-guarantee paradigm where the optimal control for the individual
components is synthesized in isolation by making \emph{assumptions} about the
behaviors of neighboring components, and providing \emph{guarantees} about
their own behavior. We express these \emph{assume-guarantee contracts} as
regular languages and provide automatic translations to scalar rewards to be
used in RL. By combining local probabilities of satisfaction for each
component, we provide a lower bound on the probability of satisfaction of the
complete system. By solving a Markov game for each component, RL can produce a
controller for each component that maximizes this lower bound. The controller
utilizes the information it receives through communication, observations, and
any knowledge of a coarse model of other agents. We experimentally demonstrate
the efficiency of the proposed approach on a variety of case studies.
- Abstract(参考訳): 本稿では, 並列に進化する単純なコンポーネントからなる環境における<emph{reinforcement learning} (RL) に対するモジュラーアプローチを提案する。
このようなモジュール化された環境のモノリシックなビューは、学習を禁じるほど大きく、あるいは集中型コントローラの形式でコンポーネント間の通信が実現不可能な場合があります。
提案手法は,各成分の最適制御を個別に合成し,隣接成分の挙動をemph{assumptions} とし,その挙動をemph{guarantee} に提供することで,各成分の最適制御を独立的に行う前提グアラントパラダイムに基づいている。
我々は、これらの \emph{asume-guarantee contracts} を正規言語として表現し、rlで使用するスカラー報酬の自動翻訳を提供する。
各成分に対する満足度の局所確率を組み合わせることで、完備システムの満足度の低い境界を与える。
各コンポーネントのマルコフゲームを解決することで、RLはこの下界を最大化する各コンポーネントのコントローラを生成することができる。
コントローラは、通信、観察、その他のエージェントの粗いモデルに関する知識を通じて受信する情報を利用する。
我々は,提案手法の有効性を様々なケーススタディで実験的に実証する。
関連論文リスト
- Closed-form merging of parameter-efficient modules for Federated Continual Learning [9.940242741914748]
一度に1つのLoRA行列をトレーニングする交代最適化戦略であるLoRMを導入する。
これにより、未知の変数を個別に解くことができ、ユニークな解を見つけることができる。
本手法は,さまざまなFCILシナリオにおける最先端性能を示す。
論文 参考訳(メタデータ) (2024-10-23T15:30:13Z) - Partially Observable Multi-Agent Reinforcement Learning with Information Sharing [33.145861021414184]
部分的に観察可能なゲーム(POSG)の一般的な枠組みにおける証明可能なマルチエージェント強化学習(RL)について検討する。
我々は,エージェント間での情報共有の可能性,経験的マルチエージェントRLにおける一般的な実践,コミュニケーションを伴うマルチエージェント制御システムの標準モデルを活用することを提唱する。
論文 参考訳(メタデータ) (2023-08-16T23:42:03Z) - Maximize to Explore: One Objective Function Fusing Estimation, Planning,
and Exploration [87.53543137162488]
我々はtextttMEX というオンライン強化学習(オンラインRL)フレームワークを提案する。
textttMEXは、自動的に探索エクスプロイトのバランスをとりながら、見積もりと計画コンポーネントを統合する。
様々な MuJoCo 環境では,ベースラインを安定的なマージンで上回り,十分な報酬を得られる。
論文 参考訳(メタデータ) (2023-05-29T17:25:26Z) - Model-based Dynamic Shielding for Safe and Efficient Multi-Agent
Reinforcement Learning [7.103977648997475]
MARL(Multi-Agent Reinforcement Learning)は、報酬を最大化するが、学習と展開フェーズにおいて安全保証を持たないポリシーを発見する。
MARLアルゴリズム設計をサポートするモデルベース動的シールド(MBDS)。
論文 参考訳(メタデータ) (2023-04-13T06:08:10Z) - Robust Control for Dynamical Systems With Non-Gaussian Noise via Formal
Abstractions [59.605246463200736]
雑音分布の明示的な表現に依存しない新しい制御器合成法を提案する。
まず、連続制御系を有限状態モデルに抽象化し、離散状態間の確率的遷移によってノイズを捕捉する。
我々は最先端の検証技術を用いてマルコフ決定プロセスの間隔を保証し、これらの保証が元の制御システムに受け継がれるコントローラを演算する。
論文 参考訳(メタデータ) (2023-01-04T10:40:30Z) - Actor-Critic based Improper Reinforcement Learning [61.430513757337486]
我々は,未知のマルコフ決定プロセスに対して,学習者に100万ドルのベースコントローラを付与する不適切な強化学習環境を考える。
本稿では,(1)ポリシーグラディエントに基づくアプローチ,(2)単純なアクター・クリティカル・スキームとNatural Actor-Criticスキームを切り替えるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-19T05:55:02Z) - Shared Independent Component Analysis for Multi-Subject Neuroimaging [107.29179765643042]
本稿では,ShICA (Shared Independent Component Analysis) を導入し,各ビューを加法ガウス雑音によって汚染された共有独立成分の線形変換としてモデル化する。
このモデルは、成分がガウス的でないか、あるいはノイズ分散に十分な多様性がある場合、同定可能であることを示す。
我々は,fMRIおよびMEGデータセットの実証的証拠として,ShICAが代替品よりも正確な成分推定を行うことを示す。
論文 参考訳(メタデータ) (2021-10-26T08:54:41Z) - Learning Multi-Objective Curricula for Deep Reinforcement Learning [55.27879754113767]
深部強化学習(DRL)のサンプル効率と最終性能を向上させるために,各種自動カリキュラム学習(ACL)手法が提案されている。
本稿では,多目的だがコヒーレントなカリキュラムを作成するための統合された自動カリキュラム学習フレームワークを提案する。
既存の手設計のカリキュラムパラダイムに加えて,抽象カリキュラムを学習するためのフレキシブルなメモリ機構を設計する。
論文 参考訳(メタデータ) (2021-10-06T19:30:25Z) - Composable Learning with Sparse Kernel Representations [110.19179439773578]
再生カーネルヒルベルト空間におけるスパース非パラメトリック制御系を学習するための強化学習アルゴリズムを提案する。
正規化アドバンテージ関数を通じてステートアクション関数の構造を付与することにより、このアプローチのサンプル複雑さを改善します。
2次元環境下を走行しながらレーザースキャナーを搭載したロボットの複数シミュレーションにおける障害物回避政策の学習に関するアルゴリズムの性能を実証する。
論文 参考訳(メタデータ) (2021-03-26T13:58:23Z) - Collision-Free Flocking with a Dynamic Squad of Fixed-Wing UAVs Using
Deep Reinforcement Learning [2.555094847583209]
深層強化学習(DRL)による分散型リーダ・フォロワリング制御問題に対処する。
我々は,すべてのフォロワーに対して共有制御ポリシーを学習するための新しい強化学習アルゴリズムCACER-IIを提案する。
その結果、可変長系状態を固定長埋め込みベクトルに符号化することができ、学習されたDRLポリシーをフォロワーの数や順序と独立にすることができる。
論文 参考訳(メタデータ) (2021-01-20T11:23:35Z) - Integrating Distributed Architectures in Highly Modular RL Libraries [4.297070083645049]
ほとんどの人気のある強化学習ライブラリは、高度にモジュール化されたエージェントの構成性を主張している。
本稿では、RLエージェントを独立した再利用可能なコンポーネントによって異なるスケールで定義できる汎用的アプローチを提案する。
論文 参考訳(メタデータ) (2020-07-06T10:22:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。