Fugu-MT 論文翻訳(概要): World Models Increase Autonomy in Reinforcement Learning

論文の概要: World Models Increase Autonomy in Reinforcement Learning

arxiv url: http://arxiv.org/abs/2408.09807v1
Date: Mon, 19 Aug 2024 08:56:00 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-20 17:04:37.415000
Title: World Models Increase Autonomy in Reinforcement Learning
Title（参考訳）: 強化学習における世界モデルによる自律性向上
Authors: Zhao Yang, Thomas M. Moerland, Mike Preuss, Edward S. Hu,
Abstract要約: 強化学習(Reinforcement Learning, RL)は、知的エージェントを訓練するための魅力的なパラダイムである。 MoReFreeエージェントは、リセット不要タスクを処理するために、探索とポリシー学習という2つの重要なメカニズムを適用する。環境報酬やデモンストレーションへのアクセスなしに、様々なリセットのないタスクに対して優れたデータ効率を示す。
参考スコア（独自算出の注目度）: 6.518292716316059
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Reinforcement learning (RL) is an appealing paradigm for training intelligent agents, enabling policy acquisition from the agent's own autonomously acquired experience. However, the training process of RL is far from automatic, requiring extensive human effort to reset the agent and environments. To tackle the challenging reset-free setting, we first demonstrate the superiority of model-based (MB) RL methods in such setting, showing that a straightforward adaptation of MBRL can outperform all the prior state-of-the-art methods while requiring less supervision. We then identify limitations inherent to this direct extension and propose a solution called model-based reset-free (MoReFree) agent, which further enhances the performance. MoReFree adapts two key mechanisms, exploration and policy learning, to handle reset-free tasks by prioritizing task-relevant states. It exhibits superior data-efficiency across various reset-free tasks without access to environmental reward or demonstrations while significantly outperforming privileged baselines that require supervision. Our findings suggest model-based methods hold significant promise for reducing human effort in RL. Website: https://sites.google.com/view/morefree
Abstract（参考訳）: 強化学習(Reinforcement Learning, RL)は、知的エージェントを訓練するための魅力的なパラダイムであり、エージェント自身が自律的に獲得した経験からポリシーの取得を可能にする。しかし、RLのトレーニングプロセスは自動的ではなく、エージェントと環境をリセットするために広範囲の人的努力を必要とする。この課題に対処するために、まずモデルベース(MB)RL手法の優位性を示す。次に、この直接拡張に固有の制限を特定し、モデルベースリセットフリー(MoReFree)エージェントと呼ばれるソリューションを提案し、パフォーマンスをさらに向上させる。 MoReFreeは2つの重要なメカニズム、探索とポリシー学習を適用し、タスク関連状態を優先順位付けすることでリセット不要なタスクを処理する。環境報酬やデモンストレーションにアクセスできることなく、様々なリセットのないタスクに対して優れたデータ効率を示し、監督を必要とする特権ベースラインを大幅に上回っている。以上より,RLにおける人的労力を減らすためのモデルベース手法が有望であることが示唆された。 Webサイト: https://sites.google.com/view/morefree

関連論文リスト

Improving Large Language Models via Fine-grained Reinforcement Learning with Minimum Editing Constraint [104.53687944498155]
強化学習(RL)は、大規模言語モデル(LLM)の訓練に広く用いられている。本稿では,報酬モデルとして生成モデルを組み込んだRL法 RLMEC を提案する。生成報酬モデルに基づいて、トレーニングのためのトークンレベルRL目標と、RLプロセスの安定化のための模倣ベース正規化を設計する。
論文参考訳（メタデータ） (2024-01-11T17:58:41Z)
Imitation Bootstrapped Reinforcement Learning [31.916571349600684]
模擬ブートストラップ強化学習(IBRL)はサンプル効率強化学習のための新しいフレームワークである。 IBRLを6つのシミュレーションと3つの実世界のタスクで評価した。
論文参考訳（メタデータ） (2023-11-03T19:03:20Z)
SALMON: Self-Alignment with Instructable Reward Models [80.83323636730341]
本稿では,基本言語モデルと人間の監督を最小限に整合させる新しいアプローチ,すなわちSALMONを提案する。私たちはDromedary-2という名のAIアシスタントを開発しており、コンテキスト内学習には6つの例と31の人間定義原則しかありません。
論文参考訳（メタデータ） (2023-10-09T17:56:53Z)
Direct Preference Optimization: Your Language Model is Secretly a Reward Model [119.65409513119963]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。 DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文参考訳（メタデータ） (2023-05-29T17:57:46Z)
When Learning Is Out of Reach, Reset: Generalization in Autonomous Visuomotor Reinforcement Learning [10.469509984098705]
エピソードトレーニング(英: Episodic training)とは、エージェントの環境が成功や失敗の度にリセットされ、強化学習(RL)エージェントを訓練する際のデファクトスタンダードである。この研究では、視覚エージェントを構築しながら、リセットを完全に排除するのではなく、最小限にしたいと考えています。提案手法は, 先行のエピソード, リセットフリー, リセット最小化アプローチよりも高い成功率を達成することができる。
論文参考訳（メタデータ） (2023-03-30T17:59:26Z)
Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文参考訳（メタデータ） (2022-09-24T14:22:29Z)
URLB: Unsupervised Reinforcement Learning Benchmark [82.36060735454647]
教師なし強化学習ベンチマーク(URLB)を紹介する。 URLBは2つのフェーズで構成されている。評価のために3つのドメインから12の連続制御タスクを提供し、8つの主要な教師なしRLメソッドに対してオープンソースコードを提供する。
論文参考訳（メタデータ） (2021-10-28T15:07:01Z)
Multitask Adaptation by Retrospective Exploration with Learned World Models [77.34726150561087]
本稿では,タスク非依存ストレージから取得したMBRLエージェントのトレーニングサンプルを提供するRAMaというメタ学習型アドレッシングモデルを提案する。このモデルは、期待されるエージェントのパフォーマンスを最大化するために、ストレージから事前のタスクを解く有望な軌道を選択することで訓練される。
論文参考訳（メタデータ） (2021-10-25T20:02:57Z)
Persistent Reinforcement Learning via Subgoal Curricula [114.83989499740193]
VaPRL(Value-accelerated Persistent Reinforcement Learning)は、初期状態のカリキュラムを生成する。 VaPRLは、エピソード強化学習と比較して、3桁の精度で必要な介入を減らす。
論文参考訳（メタデータ） (2021-07-27T16:39:45Z)
Residual Reinforcement Learning from Demonstrations [51.56457466788513]
報酬信号の最大化のために,従来のフィードバックコントローラからの制御動作を適用することで,ロボット作業の課題を解決する手段として,残留強化学習(Residual reinforcement learning, RL)が提案されている。視覚的インプットから学習するための残差定式化を拡張し,実演を用いて報酬をスパースする。 6-DoFのUR5アームと28-DoFのデキスタラスハンドのシミュレーション操作に関する実験的評価は、デモからの残留RLが、行動クローニングやRL微調整よりも柔軟に、見えない環境条件に一般化できることを実証している。
論文参考訳（メタデータ） (2021-06-15T11:16:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。