論文の概要: Unsupervised Zero-Shot Reinforcement Learning via Functional Reward
Encodings
- arxiv url: http://arxiv.org/abs/2402.17135v1
- Date: Tue, 27 Feb 2024 01:59:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 17:59:54.443929
- Title: Unsupervised Zero-Shot Reinforcement Learning via Functional Reward
Encodings
- Title(参考訳): 機能報酬エンコーディングによる教師なしゼロショット強化学習
- Authors: Kevin Frans, Seohong Park, Pieter Abbeel, Sergey Levine
- Abstract要約: 本稿では、このゼロショットRL問題に対する汎用的でスケーラブルな解として、関数型報酬符号化(FRE)を提案する。
我々の主な考え方は、任意のタスクの関数表現を、状態逆サンプルを符号化することで学習することである。
多様なランダムな非教師付き報酬関数で訓練されたFREエージェントが、新しいタスクを解くために一般化できることを実証的に示す。
- 参考スコア(独自算出の注目度): 107.1837163643886
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Can we pre-train a generalist agent from a large amount of unlabeled offline
trajectories such that it can be immediately adapted to any new downstream
tasks in a zero-shot manner? In this work, we present a functional reward
encoding (FRE) as a general, scalable solution to this zero-shot RL problem.
Our main idea is to learn functional representations of any arbitrary tasks by
encoding their state-reward samples using a transformer-based variational
auto-encoder. This functional encoding not only enables the pre-training of an
agent from a wide diversity of general unsupervised reward functions, but also
provides a way to solve any new downstream tasks in a zero-shot manner, given a
small number of reward-annotated samples. We empirically show that FRE agents
trained on diverse random unsupervised reward functions can generalize to solve
novel tasks in a range of simulated robotic benchmarks, often outperforming
previous zero-shot RL and offline RL methods. Code for this project is provided
at: https://github.com/kvfrans/fre
- Abstract(参考訳): 大量の未ラベルのオフライン軌道からジェネラリストエージェントを事前訓練して、即座に新しい下流タスクにゼロショットで適応できるだろうか?
本稿では,このゼロショットRL問題に対する汎用かつスケーラブルな解として,関数型報酬符号化(FRE)を提案する。
変換器をベースとした変分自動エンコーダを用いて状態回帰サンプルを符号化することで任意のタスクの関数表現を学習する。
この機能的エンコーディングは、エージェントを広範囲の一般教師なし報酬関数から事前訓練するだけでなく、少数の報酬注釈サンプルが与えられた場合、新たな下流タスクをゼロショットで解決する手段も提供する。
様々な無作為無防備報酬関数で訓練されたfreエージェントは、従来のゼロショットrlおよびオフラインrl法を上回って、様々なシミュレーションロボットベンチマークで新しいタスクを一般化できることを実証的に示す。
このプロジェクトのコードは以下の通りである。
関連論文リスト
- Foundation Policies with Hilbert Representations [54.44869979017766]
ラベルなしオフラインデータから一般ポリシーを事前学習するための教師なしフレームワークを提案する。
我々の重要な洞察は、基盤となる環境の時間的構造を保存する構造的表現を学習することである。
実験の結果、教師なしのポリシーは、ゴール条件付きおよび一般のRLタスクをゼロショットで解決できることがわかった。
論文 参考訳(メタデータ) (2024-02-23T19:09:10Z) - RL-VLM-F: Reinforcement Learning from Vision Language Foundation Model Feedback [24.759613248409167]
リワードエンジニアリングは、強化学習研究における長年の課題である。
エージェントが新しいタスクを学習するための報酬関数を自動生成するRL-VLM-Fを提案する。
我々は、RL-VLM-Fが、様々な領域にまたがる効果的な報酬とポリシーを効果的に生成できることを実証した。
論文 参考訳(メタデータ) (2024-02-06T04:06:06Z) - Improving Large Language Models via Fine-grained Reinforcement Learning with Minimum Editing Constraint [104.53687944498155]
強化学習(RL)は、大規模言語モデル(LLM)の訓練に広く用いられている。
本稿では,報酬モデルとして生成モデルを組み込んだRL法 RLMEC を提案する。
生成報酬モデルに基づいて、トレーニングのためのトークンレベルRL目標と、RLプロセスの安定化のための模倣ベース正規化を設計する。
論文 参考訳(メタデータ) (2024-01-11T17:58:41Z) - REBEL: A Regularization-Based Solution for Reward Overoptimization in Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数とユーザの意図、価値観、社会的規範の相違は、現実世界で破滅的なものになる可能性がある。
人間の嗜好から報酬関数を学習することで、このミスアライメント作業を軽減するための現在の方法。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - A Multiplicative Value Function for Safe and Efficient Reinforcement
Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。
安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。
安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文 参考訳(メタデータ) (2023-03-07T18:29:15Z) - Does Zero-Shot Reinforcement Learning Exist? [11.741744003560095]
ゼロショットRLエージェント(ゼロショットRL agent)は、任意のRLタスクを、追加の計画や学習なしで即座に解決できるエージェントである。
これは報酬中心のRLパラダイムから"制御可能な"エージェントへのシフトを表している。
近似ゼロショットRLの戦略は、後続特徴(SF)や前方表現(FB)を用いて提案されている。
論文 参考訳(メタデータ) (2022-09-29T16:54:05Z) - Operator Deep Q-Learning: Zero-Shot Reward Transferring in Reinforcement
Learning [20.12564350629561]
強化学習(Reinforcement Learning, RL)は近年, 様々な分野で大きな成功を収めている。
標準RLアルゴリズムは単一の報酬関数にのみ適用でき、すぐに見つからない報酬関数に適応できない。
我々は、報酬関数から値関数にマップする演算子を直接近似できる強化学習の一般的な演算子視点を提唱する。
論文 参考訳(メタデータ) (2022-01-01T19:52:38Z) - Generalized Hindsight for Reinforcement Learning [154.0545226284078]
1つのタスクを解決しようとするときに収集された低リワードデータは、そのタスクを解決するための信号をほとんど、あるいは全く提供しない、と我々は主張する。
本稿では,動作を適切なタスクで再現するための近似逆強化学習手法であるGeneralized Hindsightを提案する。
論文 参考訳(メタデータ) (2020-02-26T18:57:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。