Fugu-MT 論文翻訳(概要): Rewards Encoding Environment Dynamics Improves Preference-based Reinforcement Learning

論文の概要: Rewards Encoding Environment Dynamics Improves Preference-based Reinforcement Learning

arxiv url: http://arxiv.org/abs/2211.06527v1
Date: Sat, 12 Nov 2022 00:34:41 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-15 16:55:08.190137
Title: Rewards Encoding Environment Dynamics Improves Preference-based Reinforcement Learning
Title（参考訳）: Rewards Encoding Environment Dynamicsは参照型強化学習を改善する
Authors: Katherine Metcalf and Miguel Sarabia and Barry-John Theobald
Abstract要約: 本研究では、報酬関数(REED)の符号化環境ダイナミクスにより、最先端の嗜好に基づくRLフレームワークに必要な選好ラベルの数を劇的に減らすことを示す。一部のドメインでは、REEDベースの報酬関数は、基礎的真理報酬に基づいて訓練されたポリシーより優れたポリシーをもたらす。
参考スコア（独自算出の注目度）: 4.969254618158096
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Preference-based reinforcement learning (RL) algorithms help avoid the pitfalls of hand-crafted reward functions by distilling them from human preference feedback, but they remain impractical due to the burdensome number of labels required from the human, even for relatively simple tasks. In this work, we demonstrate that encoding environment dynamics in the reward function (REED) dramatically reduces the number of preference labels required in state-of-the-art preference-based RL frameworks. We hypothesize that REED-based methods better partition the state-action space and facilitate generalization to state-action pairs not included in the preference dataset. REED iterates between encoding environment dynamics in a state-action representation via a self-supervised temporal consistency task, and bootstrapping the preference-based reward function from the state-action representation. Whereas prior approaches train only on the preference-labelled trajectory pairs, REED exposes the state-action representation to all transitions experienced during policy training. We explore the benefits of REED within the PrefPPO [1] and PEBBLE [2] preference learning frameworks and demonstrate improvements across experimental conditions to both the speed of policy learning and the final policy performance. For example, on quadruped-walk and walker-walk with 50 preference labels, REED-based reward functions recover 83% and 66% of ground truth reward policy performance and without REED only 38\% and 21\% are recovered. For some domains, REED-based reward functions result in policies that outperform policies trained on the ground truth reward.
Abstract（参考訳）: 嗜好に基づく強化学習(RL)アルゴリズムは、人間の嗜好フィードバックからそれらを蒸留することで、手作りの報酬関数の落とし穴を避けるのに役立つが、比較的単純な作業であっても、人間に必要なラベルが多すぎるため、それらは実用的ではない。本研究では、報酬関数(REED)における環境ダイナミクスの符号化により、最先端の嗜好に基づくRLフレームワークに必要な選好ラベルの数が劇的に減少することを示す。我々は、REEDに基づく手法が状態-作用空間を分割し、優先データセットに含まれない状態-作用ペアへの一般化を容易にすることを仮定する。 REEDは、自己監督された時間的整合性タスクを通じて状態-作用表現の符号化環境ダイナミクスと、状態-作用表現から優先度に基づく報酬関数をブートストラップするの間を反復する。事前のアプローチでは、優先ラベル付きトラジェクトリペアのみをトレーニングするが、REEDはポリシートレーニング中に経験したすべての遷移に対して状態-アクション表現を公開する。本稿では, PrefPPO [1] と PEBBLE [2] の嗜好学習フレームワークにおける REED の利点を考察し,政策学習の速度と最終的な政策性能の両方に対する実験条件の改善を実証する。例えば、50の選好ラベルを持つ四足歩行や歩行では、REEDベースの報酬関数は、真理報酬政策の83%と66%を回復し、REEDなしでは38\%と21\%しか回復しない。一部のドメインでは、REEDベースの報酬関数は、基礎的真理報酬に基づいて訓練されたポリシーより優れたポリシーをもたらす。

関連論文リスト

FDPP: Fine-tune Diffusion Policy with Human Preference [57.44575105114056]
人間の嗜好を考慮した微調整拡散政策は、嗜好に基づく学習を通して報酬関数を学習する。この報酬は、訓練済みの政策を強化学習で微調整するために使われる。実験により、FDPPは性能を損なうことなく、効果的にポリシーの動作をカスタマイズできることが示されている。
論文参考訳（メタデータ） (2025-01-14T17:15:27Z)
PRACT: Optimizing Principled Reasoning and Acting of LLM Agent [96.10771520261596]
本稿では、軌道データから行動原理を学習し、強制するための新しい手法である、原則推論と行為(PRAct)フレームワークを紹介する。我々は,行動原理を特定のタスク要求に適応させるため,新しい最適化フレームワークであるリフレクティブ原則最適化(RPO)を提案する。 4つの環境にまたがる実験の結果、PRActエージェントは、RPOフレームワークを活用し、効果的に学習し、パフォーマンスを高めるためにアクション原則を適用します。
論文参考訳（メタデータ） (2024-10-24T08:21:51Z)
Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [56.24431208419858]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。そこで本稿では,品質スコアに優先ペアを条件付け,報酬を加算したデータセットを構築する,効果的なデータレバーベリング手法を提案する。
論文参考訳（メタデータ） (2024-10-10T16:01:51Z)
Rethinking Adversarial Inverse Reinforcement Learning: From the Angles of Policy Imitation and Transferable Reward Recovery [1.1394969272703013]
逆逆強化学習(AIRL)は、包括的で伝達可能なタスク記述を提供するための基礎的なアプローチとして機能する。本稿では,AIRLの再検討を行う。その結果,AIRLは特定の条件に関わらず,高い確率で効果的な転送を行うために報酬をアンタングルすることができることがわかった。
論文参考訳（メタデータ） (2024-10-10T06:21:32Z)
WARP: On the Benefits of Weight Averaged Rewarded Policies [66.95013068137115]
ウェイトアベレード・リワード・ポリシー(WARP)という新しいアライメント戦略を導入する。 WARPは重量空間のポリシーを3つの異なる段階でマージする。 GEMMAポリシによる実験では、WARPが品質とアライメントを改善し、他のオープンソースLLMよりも優れています。
論文参考訳（メタデータ） (2024-06-24T16:24:34Z)
Improving Reward-Conditioned Policies for Multi-Armed Bandits using Normalized Weight Functions [8.90692770076582]
最近提案された報酬条件付き政策(RCP)は、強化学習において魅力的な代替手段を提供する。従来の手法と比較して,RCPは収束が遅く,収束時に期待される報酬が劣っていることを示す。我々は、この手法を一般化された余分化と呼び、その利点は、低い報酬に条件付けられた政策に対する負の重み付けが、結果の政策をそれらとより区別することができることである。
論文参考訳（メタデータ） (2024-06-16T03:43:55Z)
REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文参考訳（メタデータ） (2024-04-25T17:20:45Z)
Hindsight PRIORs for Reward Learning from Human Preferences [3.4990427823966828]
嗜好に基づく強化学習(PbRL)では、政策行動に対する嗜好フィードバックから報酬を学習することで報酬関数を手渡す必要がなくなる。 PbRLへの現在のアプローチは、行動のどの部分が優先に最も寄与しているかを決定することに固有の信用割当問題に対処しない。我々は、世界モデルを用いて軌道内の状態重要度を近似し、報酬を国家重要度に比例するように誘導する信用割当戦略(Hindsight PRIOR)を導入する。
論文参考訳（メタデータ） (2024-04-12T21:59:42Z)
REBEL: A Regularization-Based Solution for Reward Overoptimization in Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数とユーザの意図、価値観、社会的規範の相違は、現実世界で破滅的なものになる可能性がある。人間の嗜好から報酬関数を学習することで、このミスアライメント作業を軽減するための現在の方法。本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文参考訳（メタデータ） (2023-12-22T04:56:37Z)
Uncertainty-Aware Instance Reweighting for Off-Policy Learning [63.31923483172859]
本研究では,不確実性を考慮した逆確率スコア推定器 (UIPS) を提案する。実世界の3つのレコメンデーションデータセットを用いた実験結果から,提案したUIPS推定器の有効サンプル効率が示された。
論文参考訳（メタデータ） (2023-03-11T11:42:26Z)
DIRECT: Learning from Sparse and Shifting Rewards using Discriminative Reward Co-Training [13.866486498822228]
深層強化学習アルゴリズムの拡張として,差別的報酬協調学習を提案する。差別者ネットワークは、現在の政策によって生成されたトラジェクトリと、以前の政策によって生成された有益なトラジェクトリとを区別するポリシーとを同時に訓練する。 DIRECTはスパース・アンド・シフト・リワード環境において最先端のアルゴリズムより優れていることを示す。
論文参考訳（メタデータ） (2023-01-18T10:42:00Z)
A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。 D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文参考訳（メタデータ） (2022-02-19T20:22:04Z)
Variance Reduction based Experience Replay for Policy Optimization [3.0790370651488983]
Variance Reduction Experience Replay (VRER) は、政策勾配推定を改善するために、関連するサンプルを選択的に再利用するためのフレームワークである。 VRERは、VRERによるポリシーグラディエントとして知られる、効率的な非政治学習アルゴリズムの基盤となる。
論文参考訳（メタデータ） (2021-10-17T19:28:45Z)
Self-Supervised Online Reward Shaping in Sparse-Reward Environments [36.01839934355542]
自己監督型オンライン報酬形成を行う新しい強化学習フレームワークを提案する。提案するフレームワークは、ポリシーの更新と報酬関数の推測を交互に行う。いくつかのスパースワード環境における実験結果は、提案アルゴリズムが最先端のベースラインよりもはるかにサンプル効率が高いことを示している。
論文参考訳（メタデータ） (2021-03-08T03:28:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。