論文の概要: Language Reward Modulation for Pretraining Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2308.12270v1
- Date: Wed, 23 Aug 2023 17:37:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-24 13:16:21.128938
- Title: Language Reward Modulation for Pretraining Reinforcement Learning
- Title(参考訳): 強化学習の事前学習のための言語リワード変調
- Authors: Ademi Adeniji, Amber Xie, Carmelo Sferrazza, Younggyo Seo, Stephen
James, Pieter Abbeel
- Abstract要約: 本稿では,強化学習のための事前学習信号としてLRFの機能を活用することを提案する。
我々の VLM プレトレーニングアプローチは,従来の LRF の使い方とは違い,ロボット操作タスクにおけるサンプル効率の学習を温めることができる。
- 参考スコア(独自算出の注目度): 61.76572261146311
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Using learned reward functions (LRFs) as a means to solve sparse-reward
reinforcement learning (RL) tasks has yielded some steady progress in
task-complexity through the years. In this work, we question whether today's
LRFs are best-suited as a direct replacement for task rewards. Instead, we
propose leveraging the capabilities of LRFs as a pretraining signal for RL.
Concretely, we propose $\textbf{LA}$nguage Reward $\textbf{M}$odulated
$\textbf{P}$retraining (LAMP) which leverages the zero-shot capabilities of
Vision-Language Models (VLMs) as a $\textit{pretraining}$ utility for RL as
opposed to a downstream task reward. LAMP uses a frozen, pretrained VLM to
scalably generate noisy, albeit shaped exploration rewards by computing the
contrastive alignment between a highly diverse collection of language
instructions and the image observations of an agent in its pretraining
environment. LAMP optimizes these rewards in conjunction with standard
novelty-seeking exploration rewards with reinforcement learning to acquire a
language-conditioned, pretrained policy. Our VLM pretraining approach, which is
a departure from previous attempts to use LRFs, can warmstart sample-efficient
learning on robot manipulation tasks in RLBench.
- Abstract(参考訳): スパース・リワード強化学習(RL)課題を解決する手段として学習報酬関数(LRF)を用いることで、長年にわたりタスク複雑度は着実に進歩してきた。
本研究では,現在のLRFがタスク報酬の直接代用として最適かどうかを問う。
代わりに、RLの事前学習信号としてLRFの機能を活用することを提案する。
具体的には、VLM(Vision-Language Models)のゼロショット機能を、ダウンストリームタスク報酬ではなく、RLのユーティリティとして活用する、$\textbf{LA}$nguage Reward $\textbf{M}$odulated $\textbf{P}$retraining (LAMP)を提案する。
LAMPは、凍結した事前訓練されたVLMを使用して、非常に多様な言語命令の集合と、その事前訓練環境におけるエージェントのイメージ観察との間のコントラストアライメントを計算することによって、ノイズの多い形状の探索報酬を生成する。
LAMPはこれらの報酬を、標準的な新規探索報酬と強化学習と組み合わせて最適化し、言語条件付き事前訓練されたポリシーを取得する。
これまでのlrf使用の試みから脱却したvlmプリトレーニングアプローチは,rlbenchにおけるロボット操作タスクにおけるサンプル効率の高い学習を温めることができる。
関連論文リスト
- How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Code as Reward: Empowering Reinforcement Learning with VLMs [37.862999288331906]
本稿では,事前学習した視覚言語モデルから高密度報酬関数を生成するために,Code as Reward (VLM-CaR) というフレームワークを提案する。
VLM-CaRは、VLMを直接クエリする際の計算負担を大幅に削減する。
このアプローチによって生成される高密度な報酬は、様々な離散的かつ連続的な環境において非常に正確であることを示す。
論文 参考訳(メタデータ) (2024-02-07T11:27:45Z) - RL-VLM-F: Reinforcement Learning from Vision Language Foundation Model
Feedback [26.001201897655115]
リワードエンジニアリングは、強化学習研究における長年の課題である。
エージェントが新しいタスクを学習するための報酬関数を自動生成するRL-VLM-Fを提案する。
我々は、RL-VLM-Fが、様々な領域にまたがる効果的な報酬とポリシーを効果的に生成できることを実証した。
論文 参考訳(メタデータ) (2024-02-06T04:06:06Z) - Improving Large Language Models via Fine-grained Reinforcement Learning
with Minimum Editing Constraint [109.77895659878442]
強化学習(RL)は、大規模言語モデルの訓練に広く用いられている。
生成モデルを報酬モデルとして組み込んだ新しいRL法 textbfRLMEC を提案する。
生成報酬モデルに基づいて、トレーニングのためのトークンレベルRL目標と、RLプロセスの安定化のための模倣ベース正規化を設計する。
論文 参考訳(メタデータ) (2024-01-11T17:58:41Z) - REBEL: A Regularization-Based Solution for Reward Overoptimization in
Reinforcement Learning from Human Feedback [61.54791065013767]
人間のフィードバック(RRLHF)からのロボット強化学習による報酬正規化のためのサンプル効率向上アルゴリズムREBELを提案する。
PEBBLEやPEBBLE+SURFのような最先端の手法と比較して,REBELは試料効率を最大70%向上し,十分な報酬率が得られることを示した。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Beyond Training Objectives: Interpreting Reward Model Divergence in
Large Language Models [8.15890412446096]
人間のフィードバックからの強化学習によって微調整された大規模言語モデル(LLM)は、より広くデプロイされている。
我々は、高退化世代をもたらすLLMに起こる変化を指すために、$textitImplicit Reward Model$ (IRM) という用語を造った。
論文 参考訳(メタデータ) (2023-10-12T09:36:03Z) - LaGR-SEQ: Language-Guided Reinforcement Learning with Sample-Efficient
Querying [71.86163159193327]
大規模言語モデル(LLM)は、最近、テキストを介してコンテキスト対応の応答を提供するという、印象的な能力を実証した。
この能力は、パターン補完に関連するシーケンシャルな意思決定タスクにおいて、妥当なソリューションを予測するために使われる可能性がある。
第一強化学習(RL)エージェントによって部分的に完了したタスクに対する解を提案するために,LLMのこの予測能力を利用するLaGRを紹介した。
論文 参考訳(メタデータ) (2023-08-21T02:07:35Z) - Text Generation with Efficient (Soft) Q-Learning [91.47743595382758]
強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。
ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を導入する。
雑音/負の例から学習し、敵攻撃、即時生成など、幅広いタスクにアプローチを適用する。
論文 参考訳(メタデータ) (2021-06-14T18:48:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。