論文の概要: REPTILE: A Proactive Real-Time Deep Reinforcement Learning Self-adaptive
Framework
- arxiv url: http://arxiv.org/abs/2203.14686v1
- Date: Mon, 28 Mar 2022 12:38:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-30 00:32:05.548104
- Title: REPTILE: A Proactive Real-Time Deep Reinforcement Learning Self-adaptive
Framework
- Title(参考訳): reptile: 積極的なリアルタイム深層強化学習自己適応フレームワーク
- Authors: Flavio Corradini, Miichele Loreti, Marco Piangerelli and Giacomo
Rocchetti
- Abstract要約: 動作環境の変化に応じて動作を適応できるソフトウェアシステムの開発を支援するための一般的なフレームワークが提案されている。
提案されたアプローチはREPTILEと呼ばれ、完全にプロアクティブな方法で動作し、イベントに反応するためにDeep Reinforcement Learningベースのエージェントに依存する。
本フレームワークでは、コンテキスト/環境に関するものと、物理的なアーキテクチャそのものに関するものとの2つのタイプのノベルティを考慮に入れている。
このフレームワークは、その発生前にこれらの新規性を予測し、環境の時間変化モデルを抽出し、適切なマルコフ決定プロセスを使用してリアルタイム設定に対処する。
- 参考スコア(独自算出の注目度): 0.6335848702857039
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work a general framework is proposed to support the development of
software systems that are able to adapt their behaviour according to the
operating environment changes. The proposed approach, named REPTILE, works in a
complete proactive manner and relies on Deep Reinforcement Learning-based
agents to react to events, referred as novelties, that can affect the expected
behaviour of the system. In our framework, two types of novelties are taken
into account: those related to the context/environment and those related to the
physical architecture itself. The framework, predicting those novelties before
their occurrence, extracts time-changing models of the environment and uses a
suitable Markov Decision Process to deal with the real-time setting. Moreover,
the architecture of our RL agent evolves based on the possible actions that can
be taken.
- Abstract(参考訳): 本研究では,運用環境の変化に応じて動作に適応できるソフトウェアシステムの開発を支援するための汎用フレームワークを提案する。
提案したアプローチはREPTILEと呼ばれ、完全にプロアクティブな方法で動作し、システムの期待される振る舞いに影響を与える可能性のあるイベントに反応する深層強化学習ベースのエージェントに依存している。
私たちのフレームワークでは、コンテキスト/環境に関連するものと、物理アーキテクチャ自体に関連するものという2つの新しさが考慮されています。
このフレームワークは、発生前にこれらの新規性を予測し、環境の時間変化モデルを抽出し、リアルタイム設定に適切なマルコフ決定プロセスを使用する。
さらに、我々のRLエージェントのアーキテクチャは、可能なアクションに基づいて進化する。
関連論文リスト
- Epistemic Exploration for Generalizable Planning and Learning in
Non-Stationary Settings [25.167564281116032]
本稿では,非定常環境における継続計画とモデル学習のための新しいアプローチを提案する。
提案したフレームワークは、エージェントの現在の知識状態のギャップをモデル化し、焦点を絞った調査を行うためにそれらを使用する。
いくつかのベンチマーク領域での実証的な評価は、このアプローチがサンプルの複雑さの観点からプランニングとRLベースラインを著しく上回っていることを示している。
論文 参考訳(メタデータ) (2024-02-13T00:50:06Z) - HAZARD Challenge: Embodied Decision Making in Dynamically Changing
Environments [93.94020724735199]
HAZARDは、火災、洪水、風などの3つの予期せぬ災害シナリオで構成されている。
このベンチマークにより、さまざまなパイプラインで自律エージェントの意思決定能力を評価することができる。
論文 参考訳(メタデータ) (2024-01-23T18:59:43Z) - RE-MOVE: An Adaptive Policy Design for Robotic Navigation Tasks in
Dynamic Environments via Language-Based Feedback [56.219221064727016]
継続的制御ロボットナビゲーションタスクのための強化学習ベースのポリシーは、リアルタイムデプロイメント中に環境の変化に適応できないことが多い。
本稿では,RE-MOVEと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-03-14T04:20:59Z) - Build generally reusable agent-environment interaction models [28.577502598559988]
本稿では,モデルの事前学習の問題に対処し,ダウンストリームタスク学習のためのバックボーンを一般に再利用する。
本稿では,様々なタスクをカバーしたエージェントの膨大な経験から,ドメイン不変な後継特徴を学習してエージェント環境相互作用モデルを構築し,それらを行動プロトタイプに識別する手法を提案する。
本研究では,事前学習した組立構造に基づく下流タスク学習が課題目標,環境力学,センサのモダリティの未確認変化を処理できる予備的な結果を提供する。
論文 参考訳(メタデータ) (2022-11-13T07:33:14Z) - A Modular Framework for Reinforcement Learning Optimal Execution [68.8204255655161]
我々は、最適貿易実行問題への強化学習の適用のためのモジュラーフレームワークを開発する。
このフレームワークは、異なるシミュレーション設定の実装を容易にするために、柔軟性を念頭に設計されている。
論文 参考訳(メタデータ) (2022-08-11T09:40:42Z) - Pessimism meets VCG: Learning Dynamic Mechanism Design via Offline
Reinforcement Learning [114.36124979578896]
オフライン強化学習アルゴリズムを用いて動的メカニズムを設計する。
我々のアルゴリズムは悲観主義の原理に基づいており、オフラインデータセットのカバレッジについて軽度な仮定しか必要としない。
論文 参考訳(メタデータ) (2022-05-05T05:44:26Z) - Embracing AWKWARD! Real-time Adjustment of Reactive Planning Using
Social Norms [2.610470075814367]
AWKWARDエージェントは、社会的役割要件に合わせて、計画をリアルタイムで再構成することができる。
OperAとBODは、社会的役割の進化のためのエージェントプランをリアルタイムで調整することができる。
論文 参考訳(メタデータ) (2022-04-22T15:02:08Z) - NovGrid: A Flexible Grid World for Evaluating Agent Response to Novelty [8.705624336757461]
我々はMiniGrid上に構築されたノベルティ生成フレームワークであるNovGridを紹介する。
コアであるNovGridとともに、オントロジーと整合した模範的なノベルティを提供し、ノベルティテンプレートとしてインスタンス化する。
本稿では,新しい適応型機械学習技術の評価のために,フレームワークに組み込まれた指標について述べる。
論文 参考訳(メタデータ) (2022-03-23T01:06:04Z) - Policy Architectures for Compositional Generalization in Control [71.61675703776628]
本稿では,タスクにおけるエンティティベースの構成構造をモデル化するためのフレームワークを提案する。
私たちのポリシーは柔軟で、アクションプリミティブを必要とせずにエンドツーエンドでトレーニングできます。
論文 参考訳(メタデータ) (2022-03-10T06:44:24Z) - Fast and Slow Learning of Recurrent Independent Mechanisms [80.38910637873066]
本稿では,エージェントが必要とする知識の断片と報酬関数が定常的であり,タスク間で再利用可能なトレーニングフレームワークを提案する。
注意機構は、どのモジュールを現在のタスクに適応できるかを動的に選択する。
提案方式のモジュール的側面のメタラーニングは,強化学習装置の高速化に大きく寄与することがわかった。
論文 参考訳(メタデータ) (2021-05-18T17:50:32Z) - Reinforcement Learning with Algorithms from Probabilistic Structure
Estimation [9.37335587960084]
強化学習アルゴリズムは未知の環境で最適な決定を学習することを目的としている。
エージェントのアクションが環境に影響を及ぼすかどうかは、当初から不明である。
どのRLアルゴリズムが最も適しているかを決定することはしばしば不可能です。
論文 参考訳(メタデータ) (2021-03-15T09:51:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。