Fugu-MT 論文翻訳(概要): Leveraging Sub-Optimal Data for Human-in-the-Loop Reinforcement Learning

論文の概要: Leveraging Sub-Optimal Data for Human-in-the-Loop Reinforcement Learning

arxiv url: http://arxiv.org/abs/2405.00746v1
Date: Tue, 30 Apr 2024 18:58:33 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-03 20:52:21.442837
Title: Leveraging Sub-Optimal Data for Human-in-the-Loop Reinforcement Learning
Title（参考訳）: ループ強化学習のためのサブ最適データの活用
Authors: Calarina Muslimani, Matthew E. Taylor,
Abstract要約: サブ最適データ事前学習(Sub-Optimal Data Pre-training, SDP)は、HitL RLアルゴリズムを改善するために、報酬のないサブ最適データを活用するアプローチである。我々はSDPが最先端のHitL RLアルゴリズムによる競合性能を大幅に向上または達成できることを示す。
参考スコア（独自算出の注目度）: 7.07264650720021
License: http://creativecommons.org/licenses/by/4.0/
Abstract: To create useful reinforcement learning (RL) agents, step zero is to design a suitable reward function that captures the nuances of the task. However, reward engineering can be a difficult and time-consuming process. Instead, human-in-the-loop (HitL) RL allows agents to learn reward functions from human feedback. Despite recent successes, many of the HitL RL methods still require numerous human interactions to learn successful reward functions. To improve the feedback efficiency of HitL RL methods (i.e., require less feedback), this paper introduces Sub-optimal Data Pre-training, SDP, an approach that leverages reward-free, sub-optimal data to improve scalar- and preference-based HitL RL algorithms. In SDP, we start by pseudo-labeling all low-quality data with rewards of zero. Through this process, we obtain free reward labels to pre-train our reward model. This pre-training phase provides the reward model a head start in learning, whereby it can identify that low-quality transitions should have a low reward, all without any actual feedback. Through extensive experiments with a simulated teacher, we demonstrate that SDP can significantly improve or achieve competitive performance with state-of-the-art (SOTA) HitL RL algorithms across nine robotic manipulation and locomotion tasks.
Abstract（参考訳）: 有用な強化学習(RL)エージェントを作成するために、ステップゼロはタスクのニュアンスをキャプチャする適切な報酬関数を設計する。しかし、報酬エンジニアリングは困難で時間を要するプロセスです。代わりに、HitL(Human-in-the-loop) RLは、エージェントが人間のフィードバックから報酬関数を学習できるようにする。近年の成功にもかかわらず、HitL RL法の多くは報酬関数を学習するために多くの人間の相互作用を必要とする。本稿では,HitL RL手法のフィードバック効率を改善するために,SDP(Sub-Optimal Data Pre-Training)を提案する。 SDPでは、ゼロの報酬ですべての低品質データを擬似ラベル付けすることから始めます。このプロセスを通じて、報酬モデルを事前訓練するための無料の報酬ラベルを得る。この事前学習フェーズは、報酬モデルに学習の出発点を与え、低品質の移行が、実際のフィードバックなしに、低い報酬を持つべきであることを識別する。シミュレーション教師による広範囲な実験を通じて,9つのロボット操作および移動タスクに対して,SDPが最先端(SOTA)HitL RLアルゴリズムによる競争性能を大幅に向上または達成できることを実証した。

関連論文リスト

Enhancing Rating-Based Reinforcement Learning to Effectively Leverage Feedback from Large Vision-Language Models [22.10168313140081]
本稿では,AIフィードバックから報酬関数を学習する評価に基づく強化学習手法ERL-VLMを紹介する。 ERL-VLMは、個々の軌道の絶対評価のために大きな視覚言語モデルをクエリし、より表現力のあるフィードバックを可能にする。 ERL-VLM は既存の VLM ベースの報酬生成手法よりも大幅に優れていることを示す。
論文参考訳（メタデータ） (2025-06-15T12:05:08Z)
RED: Unleashing Token-Level Rewards from Holistic Feedback via Reward Redistribution [50.171320156632866]
人間のフィードバックからの強化学習は、大きな言語モデルを人間の好みに合わせるための有望なアプローチを提供する。現在の報酬モデルはシークエンス・ツー・ワンモデルとして動作し、単一、スパース、遅延報酬を全出力シーケンスに割り当てる。よりきめ細かなトークンレベルの指導手法をRLトレーニングに提案する。
論文参考訳（メタデータ） (2024-11-13T02:45:21Z)
Dual Active Learning for Reinforcement Learning from Human Feedback [13.732678966515781]
人間からのフィードバックからの強化学習(RLHF)は、大きな言語モデルと人間の好みを合わせるために広く応用されている。人間のフィードバックは高価で時間を要するため、人間の教師がラベルを付けるための高品質な会話データを集めることが不可欠である。本稿では、オフライン強化学習(RL)を用いてアライメント問題を定式化する。
論文参考訳（メタデータ） (2024-10-03T14:09:58Z)
Efficient Preference-based Reinforcement Learning via Aligned Experience Estimation [37.36913210031282]
評価に基づく強化学習(PbRL)は、報酬工学を使わずにトレーニングエージェントに優れた能力を示す。ラベルの平滑化とポリシー正則化を併用した効率的なPbRL法であるSEERを提案する。
論文参考訳（メタデータ） (2024-05-29T01:49:20Z)
Getting More Juice Out of the SFT Data: Reward Learning from Human Demonstration Improves SFT for LLM Alignment [65.15914284008973]
我々は、報酬モデルと政策モデルを同時に構築するために、逆強化学習(IRL)技術を活用することを提案する。提案アルゴリズムはIRL問題の定常解に収束することを示す。その結果,アライメントプロセス全体を通じて報酬学習を活用することは有益であることが示唆された。
論文参考訳（メタデータ） (2024-05-28T07:11:05Z)
Iterative Data Smoothing: Mitigating Reward Overfitting and Overoptimization in RLHF [79.98542868281471]
強化学習(Reinforcement Learning from Human Feedback, RLHF)は、言語モデルを人間中心の値と密接に整合させる手法である。学習した報奨モデルに対して過度に最適化すると、最終的には真の目的が損なわれることが観察された。本稿では、これらの問題を考察し、「Iterative Data Smoothing」(IDS)と呼ばれる改良された報酬学習アルゴリズムの設計に理論的知見を活用する。
論文参考訳（メタデータ） (2024-01-29T17:43:42Z)
Improving Large Language Models via Fine-grained Reinforcement Learning with Minimum Editing Constraint [104.53687944498155]
強化学習(RL)は、大規模言語モデル(LLM)の訓練に広く用いられている。本稿では,報酬モデルとして生成モデルを組み込んだRL法 RLMEC を提案する。生成報酬モデルに基づいて、トレーニングのためのトークンレベルRL目標と、RLプロセスの安定化のための模倣ベース正規化を設計する。
論文参考訳（メタデータ） (2024-01-11T17:58:41Z)
REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文参考訳（メタデータ） (2023-12-22T04:56:37Z)
Contrastive Preference Learning: Learning from Human Feedback without RL [71.77024922527642]
本稿では、報酬関数を学習せずに好みから最適なポリシーを学習するアルゴリズムであるContrastive Preference Learning (CPL)を紹介する。 CPLは完全に非政治的であり、単純なコントラスト目的のみを使用し、任意のMDPに適用できる。
論文参考訳（メタデータ） (2023-10-20T16:37:56Z)
Data Driven Reward Initialization for Preference based Reinforcement Learning [20.13307800821161]
選好に基づく強化学習(PbRL)法は、ループ内の人間からの2進フィードバック(HiL)をクエリされた軌道対上で利用し、報酬モデルを学ぶ。実験のランダムな種に敏感な報酬モデルにおける高い変動性の問題について検討する。
論文参考訳（メタデータ） (2023-02-17T07:07:07Z)
Few-Shot Preference Learning for Human-in-the-Loop RL [13.773589150740898]
メタラーニングの成功に触発された我々は、先行タスクデータに対する嗜好モデルを事前訓練し、少数のクエリだけで新しいタスクに迅速に適応する。メタワールドにおける操作ポリシーのトレーニングに必要なオンラインフィードバックの量を20$times$に削減し,実際のフランカ・パンダロボット上での手法の有効性を実証する。
論文参考訳（メタデータ） (2022-12-06T23:12:26Z)
Teacher Forcing Recovers Reward Functions for Text Generation [21.186397113834506]
本稿では,教師の強制力で訓練されたモデルから直接,ステップワイズ報酬関数を導出するタスク依存型手法を提案する。また、並列でないデータセットに対するRLトレーニングを誘導報酬関数で安定化するための簡単な修正も提案する。
論文参考訳（メタデータ） (2022-10-17T02:48:58Z)
Basis for Intentions: Efficient Inverse Reinforcement Learning using Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文参考訳（メタデータ） (2022-08-09T17:29:49Z)
Reward Uncertainty for Exploration in Preference-based Reinforcement Learning [88.34958680436552]
好みに基づく強化学習アルゴリズムを対象とした探索手法を提案する。我々の基本的な考え方は、学習した報酬に基づいて、斬新さを測定することによって、本質的な報酬を設計することである。実験により、学習報酬の不確実性からの探索ボーナスは、好みに基づくRLアルゴリズムのフィードバック効率とサンプル効率の両方を改善することが示された。
論文参考訳（メタデータ） (2022-05-24T23:22:10Z)
PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文参考訳（メタデータ） (2021-06-09T14:10:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。