Fugu-MT 論文翻訳(概要): Sample Efficient Reinforcement Learning by Automatically Learning to Compose Subtasks

論文の概要: Sample Efficient Reinforcement Learning by Automatically Learning to Compose Subtasks

arxiv url: http://arxiv.org/abs/2401.14226v1
Date: Thu, 25 Jan 2024 15:06:40 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-26 14:20:54.839380
Title: Sample Efficient Reinforcement Learning by Automatically Learning to Compose Subtasks
Title（参考訳）: サブタスクの自動学習によるサンプル効率的な強化学習
Authors: Shuai Han, Mehdi Dastani, Shihan Wang
Abstract要約: サブタスクを表すラベルのセットを与えられた場合、サンプル効率のために報酬関数を自動的に構成するRLアルゴリズムを提案する。我々は,様々なスパース・リワード環境におけるアルゴリズムの評価を行った。
参考スコア（独自算出の注目度）: 3.1594865504808944
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Improving sample efficiency is central to Reinforcement Learning (RL), especially in environments where the rewards are sparse. Some recent approaches have proposed to specify reward functions as manually designed or learned reward structures whose integrations in the RL algorithms are claimed to significantly improve the learning efficiency. Manually designed reward structures can suffer from inaccuracy and existing automatically learning methods are often computationally intractable for complex tasks. The integration of inaccurate or partial reward structures in RL algorithms fail to learn optimal policies. In this work, we propose an RL algorithm that can automatically structure the reward function for sample efficiency, given a set of labels that signify subtasks. Given such minimal knowledge about the task, we train a high-level policy that selects optimal sub-tasks in each state together with a low-level policy that efficiently learns to complete each sub-task. We evaluate our algorithm in a variety of sparse-reward environments. The experiment results show that our approach significantly outperforms the state-of-art baselines as the difficulty of the task increases.
Abstract（参考訳）: サンプル効率の向上は、特に報酬が不足している環境において、強化学習(rl)の中心である。近年のいくつかのアプローチでは、RLアルゴリズムへの統合が学習効率を大幅に向上させると主張される報酬関数を手作業で設計または学習した報酬構造として指定する手法が提案されている。手動で設計された報酬構造は不正確さに苦しめられ、既存の自動学習法は複雑なタスクでは計算が難しいことが多い。 RLアルゴリズムにおける不正確なあるいは部分的な報酬構造の統合は、最適なポリシーを学習できない。本研究では,サブタスクを表わすラベルの集合を考えると,サンプル効率のために報酬関数を自動的に構成できるRLアルゴリズムを提案する。このようなタスクに関する最小限の知識を前提として、各状態における最適なサブタスクを選択する高レベルポリシーと、各サブタスクの完了を効率的に学習する低レベルポリシーを訓練する。我々はこのアルゴリズムを様々なスパースワード環境において評価する。実験の結果,タスクの難易度が増大するにつれて,本手法は最先端のベースラインを著しく上回ることがわかった。

関連論文リスト

TreeLoRA: Efficient Continual Learning via Layer-Wise LoRAs Guided by a Hierarchical Gradient-Similarity Tree [52.44403214958304]
本稿では階層的な勾配の類似性を利用して階層型アダプタを構築する新しい手法であるTreeLoRAを紹介する。タスク類似度推定の計算負担を軽減するために,より低い信頼度境界に基づくアルゴリズムを開発するために,バンド手法を用いる。視覚変換器 (ViTs) と大規模言語モデル (LLMs) の両方を用いた実験により, 提案手法の有効性と有効性を示す。
論文参考訳（メタデータ） (2025-06-12T05:25:35Z)
Knowledge capture, adaptation and composition (KCAC): A framework for cross-task curriculum learning in robotic manipulation [6.683222869973898]
強化学習(Reinforcement Learning, RL)は、ロボット操作において顕著な可能性を示しているが、サンプルの非効率性や解釈可能性の欠如において課題に直面している。本稿では,クロスタスクのカリキュラム学習を通じてRLに知識伝達を統合するための知識キャプチャ,適応,構成フレームワークを提案する。その結果,従来のRL法に比べてタスク成功率を10%向上させながら,トレーニング時間の40%削減を実現した。
論文参考訳（メタデータ） (2025-05-15T17:30:29Z)
Adaptive Reward Design for Reinforcement Learning in Complex Robotic Tasks [2.3031174164121127]
本稿では,RLエージェントにインセンティブを与える報酬関数群を提案する。学習過程における報酬関数を動的に更新する適応型報酬生成手法を開発した。様々なRLに基づくロボットタスクの実験結果から,提案手法が様々なRLアルゴリズムと互換性があることが示されている。
論文参考訳（メタデータ） (2024-12-14T18:04:18Z)
Guiding Multi-agent Multi-task Reinforcement Learning by a Hierarchical Framework with Logical Reward Shaping [16.5526277899717]
本研究の目的は,論理報酬形成を伴う多エージェント協調アルゴリズムを設計することである。 Minecraftのような環境下で様々な種類のタスクで実験が行われてきた。
論文参考訳（メタデータ） (2024-11-02T09:03:23Z)
Reward-Machine-Guided, Self-Paced Reinforcement Learning [30.42334205249944]
報奨機による自己評価強化学習アルゴリズムを開発した。提案アルゴリズムは,既存のベースラインが意味のある進歩を達成できない場合でも,最適な動作を確実に達成する。また、カリキュラムの長さを減らし、カリキュラム生成プロセスのばらつきを最大4分の1まで減らします。
論文参考訳（メタデータ） (2023-05-25T22:13:37Z)
Human-Inspired Framework to Accelerate Reinforcement Learning [1.6317061277457001]
強化学習(Reinforcement Learning, RL)は、データサイエンスの意思決定において重要であるが、サンプルの不効率に悩まされている。本稿では,RLアルゴリズムのサンプル効率を向上させるための,人間に触発された新しいフレームワークを提案する。
論文参考訳（メタデータ） (2023-02-28T13:15:04Z)
Reinforcement Learning with Success Induced Task Prioritization [68.8204255655161]
本稿では,自動カリキュラム学習のためのフレームワークであるSuccess induced Task Prioritization (SITP)を紹介する。アルゴリズムはエージェントに最速の学習を提供するタスクの順序を選択する。我々は,SITPが他のカリキュラム設計手法と一致するか,あるいは上回っていることを実証する。
論文参考訳（メタデータ） (2022-12-30T12:32:43Z)
CLUTR: Curriculum Learning via Unsupervised Task Representation Learning [130.79246770546413]
CLUTRは、タスク表現とカリキュラム学習を2段階最適化に分離する、新しいカリキュラム学習アルゴリズムである。 CLUTRは、CarRacingとナビゲーション環境における一般化とサンプル効率の観点から、原則的かつ一般的なUED手法であるPAIREDよりも優れていることを示す。
論文参考訳（メタデータ） (2022-10-19T01:45:29Z)
Learning Action Translator for Meta Reinforcement Learning on Sparse-Reward Tasks [56.63855534940827]
本研究は,訓練作業中の行動伝達子を学習するための,新たな客観的機能を導入する。理論的には、転送されたポリシーとアクショントランスレータの値が、ソースポリシーの値に近似可能であることを検証する。本稿では,アクショントランスレータとコンテキストベースメタRLアルゴリズムを組み合わせることで,データ収集の効率化と,メタトレーニング時の効率的な探索を提案する。
論文参考訳（メタデータ） (2022-07-19T04:58:06Z)
The Information Geometry of Unsupervised Reinforcement Learning [133.20816939521941]
教師なしスキル発見(英語: Unsupervised skill discovery)とは、報酬関数にアクセスせずに一連のポリシーを学ぶアルゴリズムのクラスである。教師なしのスキル発見アルゴリズムは、あらゆる報酬関数に最適なスキルを学習しないことを示す。
論文参考訳（メタデータ） (2021-10-06T13:08:36Z)
MURAL: Meta-Learning Uncertainty-Aware Rewards for Outcome-Driven Reinforcement Learning [65.52675802289775]
本研究では,不確かさを意識した分類器が,強化学習の難しさを解消できることを示す。正規化最大度(NML)分布の計算法を提案する。得られたアルゴリズムは、カウントベースの探索法と、報酬関数を学習するための先行アルゴリズムの両方に多くの興味深い関係を持つことを示す。
論文参考訳（メタデータ） (2021-07-15T08:19:57Z)
Model-based Adversarial Meta-Reinforcement Learning [38.28304764312512]
モデルに基づく対向メタ強化学習(AdMRL)を提案する。 AdMRLは、タスクファミリ内のすべてのタスク間の最悪の部分最適化ギャップを最小限にすることを目的としている。本手法をいくつかの連続制御ベンチマークで評価し,全てのタスクに対して最悪の性能を示す。
論文参考訳（メタデータ） (2020-06-16T02:21:49Z)
Meta Reinforcement Learning with Autonomous Inference of Subtask Dependencies [57.27944046925876]
本稿では,タスクがサブタスクグラフによって特徴づけられるような,新しい数発のRL問題を提案し,対処する。メタ政治を直接学習する代わりに、Subtask Graph Inferenceを使ったメタラーナーを開発した。実験の結果,2つのグリッドワールド領域とStarCraft II環境において,提案手法が潜在タスクパラメータを正確に推定できることが確認された。
論文参考訳（メタデータ） (2020-01-01T17:34:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。