論文の概要: Reinforcement Learning Agent Training with Goals for Real World Tasks
- arxiv url: http://arxiv.org/abs/2107.10390v1
- Date: Wed, 21 Jul 2021 23:21:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-23 12:55:40.564455
- Title: Reinforcement Learning Agent Training with Goals for Real World Tasks
- Title(参考訳): 実世界の課題を目標とした強化学習エージェントトレーニング
- Authors: Xuan Zhao and Marcos Campos
- Abstract要約: 強化学習(RL)は、様々な制御、最適化、シーケンシャルな意思決定タスクを解決するための有望なアプローチである。
複雑な制御および最適化タスクのための仕様言語(Inkling Goal Specification)を提案する。
提案手法は現実世界のタスクを多種多様なタスクで指定するのに非常に容易であることを示す実験のセットを含む。
- 参考スコア(独自算出の注目度): 3.747737951407512
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Reinforcement Learning (RL) is a promising approach for solving various
control, optimization, and sequential decision making tasks. However, designing
reward functions for complex tasks (e.g., with multiple objectives and safety
constraints) can be challenging for most users and usually requires multiple
expensive trials (reward function hacking). In this paper we propose a
specification language (Inkling Goal Specification) for complex control and
optimization tasks, which is very close to natural language and allows a
practitioner to focus on problem specification instead of reward function
hacking. The core elements of our framework are: (i) mapping the high level
language to a predicate temporal logic tailored to control and optimization
tasks, (ii) a novel automaton-guided dense reward generation that can be used
to drive RL algorithms, and (iii) a set of performance metrics to assess the
behavior of the system. We include a set of experiments showing that the
proposed method provides great ease of use to specify a wide range of real
world tasks; and that the reward generated is able to drive the policy training
to achieve the specified goal.
- Abstract(参考訳): 強化学習(RL)は、様々な制御、最適化、シーケンシャルな意思決定タスクを解決するための有望なアプローチである。
しかし、複雑なタスク(例えば、複数の目的と安全性の制約がある)に対する報酬関数の設計は、ほとんどのユーザにとって困難であり、通常、複数の高価なトライアル(リワード関数ハッキング)を必要とする。
本稿では,複雑な制御タスクと最適化タスクのための仕様言語(Inkling Goal Specification)を提案する。
フレームワークの中核となる要素は、(i)高レベル言語を制御および最適化タスクに適した述語時間論理にマッピングすること、(ii)RLアルゴリズムの駆動に使用できる新しいオートマトン誘導密度の報酬生成を行うこと、(iii)システムの動作を評価するためのパフォーマンス指標のセットであることである。
提案手法が幅広い実世界のタスクを特定するのに非常に便利であることを示す実験のセットと、生成された報酬が、特定の目標を達成するためのポリシートレーニングを駆動できることを示す実験を含む。
関連論文リスト
- Stage-Wise Reward Shaping for Acrobatic Robots: A Constrained Multi-Objective Reinforcement Learning Approach [12.132416927711036]
本稿では,直感的戦略による報酬形成プロセスの簡略化を目的としたRL手法を提案する。
制約付き多目的RL(CMORL)フレームワークにおいて,複数の報酬関数とコスト関数を定義する。
逐次的な複雑な動きを含むタスクに対しては、タスクを異なるステージに分割し、各ステージに対する複数の報酬とコストを定義します。
論文 参考訳(メタデータ) (2024-09-24T05:25:24Z) - Proximal Curriculum with Task Correlations for Deep Reinforcement Learning [25.10619062353793]
エージェントの最終性能を複雑なタスクに対する目標分布として測定するコンテキストマルチタスク設定におけるカリキュラム設計について検討する。
本稿では,タスク相関を利用してエージェントの学習を目標分布に向けて進めながら,エージェントにとって難しくないタスクを選択する必要性を効果的にバランスさせる新しいカリキュラムProCuRL-Targetを提案する。
論文 参考訳(メタデータ) (2024-05-03T21:07:54Z) - RL-GPT: Integrating Reinforcement Learning and Code-as-policy [82.1804241891039]
本稿では,低速エージェントと高速エージェントからなる2レベル階層型フレームワークRL-GPTを提案する。
遅いエージェントはコーディングに適したアクションを分析し、速いエージェントはコーディングタスクを実行する。
この分解は、各エージェントが特定のタスクに効果的に集中し、パイプライン内で非常に効率的なことを証明します。
論文 参考訳(メタデータ) (2024-02-29T16:07:22Z) - Sample Efficient Reinforcement Learning by Automatically Learning to
Compose Subtasks [3.1594865504808944]
サブタスクを表すラベルのセットを与えられた場合、サンプル効率のために報酬関数を自動的に構成するRLアルゴリズムを提案する。
我々は,様々なスパース・リワード環境におけるアルゴリズムの評価を行った。
論文 参考訳(メタデータ) (2024-01-25T15:06:40Z) - Reinforcement Learning with Success Induced Task Prioritization [68.8204255655161]
本稿では,自動カリキュラム学習のためのフレームワークであるSuccess induced Task Prioritization (SITP)を紹介する。
アルゴリズムはエージェントに最速の学習を提供するタスクの順序を選択する。
我々は,SITPが他のカリキュラム設計手法と一致するか,あるいは上回っていることを実証する。
論文 参考訳(メタデータ) (2022-12-30T12:32:43Z) - Discrete Factorial Representations as an Abstraction for Goal
Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。
分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文 参考訳(メタデータ) (2022-11-01T03:31:43Z) - Planning to Practice: Efficient Online Fine-Tuning by Composing Goals in
Latent Space [76.46113138484947]
汎用ロボットは、現実世界の非構造環境において困難なタスクを完了するために、多様な行動レパートリーを必要とする。
この問題に対処するため、目標条件強化学習は、コマンド上の幅広いタスクの目標に到達可能なポリシーを取得することを目的としている。
本研究では,長期的課題に対する目標条件付き政策を実践的に訓練する手法であるPlanning to Practiceを提案する。
論文 参考訳(メタデータ) (2022-05-17T06:58:17Z) - A Composable Specification Language for Reinforcement Learning Tasks [23.08652058034537]
本稿では,複雑な制御タスクを特定するための言語と,言語仕様を報酬関数にコンパイルし,報酬形成を自動的に行うアルゴリズムを提案する。
我々は、SPECTRLと呼ばれるツールにアプローチを実装し、最先端のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-08-21T03:40:57Z) - Automatic Curriculum Learning through Value Disagreement [95.19299356298876]
新しい未解決タスクを継続的に解決することが、多様な行動を学ぶための鍵です。
エージェントが複数の目標を達成する必要があるマルチタスク領域では、トレーニング目標の選択はサンプル効率に大きな影響を与える可能性がある。
そこで我々は,エージェントが解決すべき目標のための自動カリキュラムを作成することを提案する。
提案手法は,13のマルチゴールロボットタスクと5つのナビゲーションタスクにまたがって評価し,現在の最先端手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2020-06-17T03:58:25Z) - Certified Reinforcement Learning with Logic Guidance [78.2286146954051]
線形時間論理(LTL)を用いて未知の連続状態/動作マルコフ決定過程(MDP)のゴールを定式化できるモデルフリーなRLアルゴリズムを提案する。
このアルゴリズムは、トレースが仕様を最大確率で満たす制御ポリシーを合成することが保証される。
論文 参考訳(メタデータ) (2019-02-02T20:09:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。