Fugu-MT 論文翻訳(概要): REPTILE: A Proactive Real-Time Deep Reinforcement Learning Self-adaptive Framework

論文の概要: REPTILE: A Proactive Real-Time Deep Reinforcement Learning Self-adaptive Framework

arxiv url: http://arxiv.org/abs/2203.14686v1
Date: Mon, 28 Mar 2022 12:38:08 GMT
ステータス: 翻訳完了
システム内更新日: 2022-03-30 00:32:05.548104
Title: REPTILE: A Proactive Real-Time Deep Reinforcement Learning Self-adaptive Framework
Title（参考訳）: reptile: 積極的なリアルタイム深層強化学習自己適応フレームワーク
Authors: Flavio Corradini, Miichele Loreti, Marco Piangerelli and Giacomo Rocchetti
Abstract要約: 動作環境の変化に応じて動作を適応できるソフトウェアシステムの開発を支援するための一般的なフレームワークが提案されている。提案されたアプローチはREPTILEと呼ばれ、完全にプロアクティブな方法で動作し、イベントに反応するためにDeep Reinforcement Learningベースのエージェントに依存する。本フレームワークでは、コンテキスト/環境に関するものと、物理的なアーキテクチャそのものに関するものとの2つのタイプのノベルティを考慮に入れている。このフレームワークは、その発生前にこれらの新規性を予測し、環境の時間変化モデルを抽出し、適切なマルコフ決定プロセスを使用してリアルタイム設定に対処する。
参考スコア（独自算出の注目度）: 0.6335848702857039
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this work a general framework is proposed to support the development of software systems that are able to adapt their behaviour according to the operating environment changes. The proposed approach, named REPTILE, works in a complete proactive manner and relies on Deep Reinforcement Learning-based agents to react to events, referred as novelties, that can affect the expected behaviour of the system. In our framework, two types of novelties are taken into account: those related to the context/environment and those related to the physical architecture itself. The framework, predicting those novelties before their occurrence, extracts time-changing models of the environment and uses a suitable Markov Decision Process to deal with the real-time setting. Moreover, the architecture of our RL agent evolves based on the possible actions that can be taken.
Abstract（参考訳）: 本研究では,運用環境の変化に応じて動作に適応できるソフトウェアシステムの開発を支援するための汎用フレームワークを提案する。提案したアプローチはREPTILEと呼ばれ、完全にプロアクティブな方法で動作し、システムの期待される振る舞いに影響を与える可能性のあるイベントに反応する深層強化学習ベースのエージェントに依存している。私たちのフレームワークでは、コンテキスト/環境に関連するものと、物理アーキテクチャ自体に関連するものという2つの新しさが考慮されています。このフレームワークは、発生前にこれらの新規性を予測し、環境の時間変化モデルを抽出し、リアルタイム設定に適切なマルコフ決定プロセスを使用する。さらに、我々のRLエージェントのアーキテクチャは、可能なアクションに基づいて進化する。

関連論文リスト

Active Causal Structure Learning with Latent Variables: Towards Learning to Detour in Autonomous Robots [49.1574468325115]
人工知能(AGI)エージェントとロボットは、絶えず変化する環境やタスクに対処できなければならない。我々は,潜伏変数(ACSLWL)を用いた能動的因果構造学習がAGIエージェントやロボット構築に必要な要素であると主張している。
論文参考訳（メタデータ） (2024-10-28T10:21:26Z)
PRACT: Optimizing Principled Reasoning and Acting of LLM Agent [96.10771520261596]
本稿では、軌道データから行動原理を学習し、強制するための新しい手法である、原則推論と行為(PRAct)フレームワークを紹介する。我々は,行動原理を特定のタスク要求に適応させるため,新しい最適化フレームワークであるリフレクティブ原則最適化(RPO)を提案する。 4つの環境にまたがる実験の結果、PRActエージェントは、RPOフレームワークを活用し、効果的に学習し、パフォーマンスを高めるためにアクション原則を適用します。
論文参考訳（メタデータ） (2024-10-24T08:21:51Z)
Demonstrating the Continual Learning Capabilities and Practical Application of Discrete-Time Active Inference [0.0]
アクティブ推論は、エージェントが環境とどのように相互作用するかを理解するための数学的フレームワークである。本稿では,個別の時間環境で動作するエージェントのための連続学習フレームワークを提案する。我々は、エージェントがモデルを再学習し、効率的に洗練する能力を示し、金融や医療といった複雑な分野に適合する。
論文参考訳（メタデータ） (2024-09-30T21:18:46Z)
Hierarchical Reinforcement Learning for Temporal Abstraction of Listwise Recommendation [51.06031200728449]
我々はmccHRLと呼ばれる新しいフレームワークを提案し、リストワイドレコメンデーションにおける時間的抽象化のレベルを異なるものにする。階層的な枠組みの中では、ハイレベルエージェントがユーザ知覚の進化を研究し、低レベルエージェントがアイテム選択ポリシーを作成している。その結果,本手法による性能改善は,いくつかのよく知られたベースラインと比較して有意な結果が得られた。
論文参考訳（メタデータ） (2024-09-11T17:01:06Z)
I Know How: Combining Prior Policies to Solve New Tasks [17.214443593424498]
マルチタスク強化学習は、継続的に進化し、新しいシナリオに適応できるエージェントを開発することを目的としている。新しいタスクごとにスクラッチから学ぶことは、実行可能な、あるいは持続可能な選択肢ではない。我々は、共通の形式を提供する新しいフレームワーク、I Know Howを提案する。
論文参考訳（メタデータ） (2024-06-14T08:44:51Z)
Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文参考訳（メタデータ） (2024-02-09T07:45:26Z)
HAZARD Challenge: Embodied Decision Making in Dynamically Changing Environments [93.94020724735199]
HAZARDは、火災、洪水、風などの3つの予期せぬ災害シナリオで構成されている。このベンチマークにより、さまざまなパイプラインで自律エージェントの意思決定能力を評価することができる。
論文参考訳（メタデータ） (2024-01-23T18:59:43Z)
Novelty Accommodating Multi-Agent Planning in High Fidelity Simulated Open World [7.821603097781892]
我々は、予期せぬ現象、すなわちテクストノベルティが環境中に現れるときに生じる課題に対処する。環境への新規性の導入は、プランナーの内部モデルに不正確な結果をもたらす可能性がある。本稿では,同時動作と外部スケジューリングをサポートするための汎用AIエージェントフレームワークを提案する。
論文参考訳（メタデータ） (2023-06-22T03:44:04Z)
Build generally reusable agent-environment interaction models [28.577502598559988]
本稿では,モデルの事前学習の問題に対処し,ダウンストリームタスク学習のためのバックボーンを一般に再利用する。本稿では,様々なタスクをカバーしたエージェントの膨大な経験から,ドメイン不変な後継特徴を学習してエージェント環境相互作用モデルを構築し,それらを行動プロトタイプに識別する手法を提案する。本研究では,事前学習した組立構造に基づく下流タスク学習が課題目標,環境力学,センサのモダリティの未確認変化を処理できる予備的な結果を提供する。
論文参考訳（メタデータ） (2022-11-13T07:33:14Z)
Embracing AWKWARD! Real-time Adjustment of Reactive Planning Using Social Norms [2.610470075814367]
AWKWARDエージェントは、社会的役割要件に合わせて、計画をリアルタイムで再構成することができる。 OperAとBODは、社会的役割の進化のためのエージェントプランをリアルタイムで調整することができる。
論文参考訳（メタデータ） (2022-04-22T15:02:08Z)
NovGrid: A Flexible Grid World for Evaluating Agent Response to Novelty [8.705624336757461]
我々はMiniGrid上に構築されたノベルティ生成フレームワークであるNovGridを紹介する。コアであるNovGridとともに、オントロジーと整合した模範的なノベルティを提供し、ノベルティテンプレートとしてインスタンス化する。本稿では,新しい適応型機械学習技術の評価のために,フレームワークに組み込まれた指標について述べる。
論文参考訳（メタデータ） (2022-03-23T01:06:04Z)
Fast and Slow Learning of Recurrent Independent Mechanisms [80.38910637873066]
本稿では,エージェントが必要とする知識の断片と報酬関数が定常的であり,タスク間で再利用可能なトレーニングフレームワークを提案する。注意機構は、どのモジュールを現在のタスクに適応できるかを動的に選択する。提案方式のモジュール的側面のメタラーニングは,強化学習装置の高速化に大きく寄与することがわかった。
論文参考訳（メタデータ） (2021-05-18T17:50:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。