Fugu-MT 論文翻訳(概要): RIME: Robust Preference-based Reinforcement Learning with Noisy Preferences

論文の概要: RIME: Robust Preference-based Reinforcement Learning with Noisy Preferences

arxiv url: http://arxiv.org/abs/2402.17257v2
Date: Tue, 12 Mar 2024 04:48:46 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-14 00:34:57.845658
Title: RIME: Robust Preference-based Reinforcement Learning with Noisy Preferences
Title（参考訳）: RIME:雑音を考慮したロバスト推論に基づく強化学習
Authors: Jie Cheng, Gang Xiong, Xingyuan Dai, Qinghai Miao, Yisheng Lv, Fei-Yue Wang
Abstract要約: 嗜好に基づく強化学習(PbRL)は、報酬信号として人間の嗜好を活用することにより、報酬工学の必要性を回避する。現在のPbRLアルゴリズムは、ドメインエキスパートからの高品質なフィードバックを過度に頼っているため、堅牢性が欠如している。雑音の選好から効果的な報酬学習のための頑健なPbRLアルゴリズムであるRIMEを提案する。
参考スコア（独自算出の注目度）: 24.80998892481408
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Preference-based Reinforcement Learning (PbRL) avoids the need for reward engineering by harnessing human preferences as the reward signal. However, current PbRL algorithms over-reliance on high-quality feedback from domain experts, which results in a lack of robustness. In this paper, we present RIME, a robust PbRL algorithm for effective reward learning from noisy preferences. Our method incorporates a sample selection-based discriminator to dynamically filter denoised preferences for robust training. To mitigate the accumulated error caused by incorrect selection, we propose to warm start the reward model, which additionally bridges the performance gap during transition from pre-training to online training in PbRL. Our experiments on robotic manipulation and locomotion tasks demonstrate that RIME significantly enhances the robustness of the current state-of-the-art PbRL method. Ablation studies further demonstrate that the warm start is crucial for both robustness and feedback-efficiency in limited-feedback cases.
Abstract（参考訳）: 嗜好に基づく強化学習(PbRL)は、報酬信号として人間の嗜好を活用することにより、報酬工学の必要性を回避する。しかし、現在のPbRLアルゴリズムは、ドメインエキスパートからの高品質なフィードバックを過度に頼っているため、堅牢性が欠如している。本稿では,雑音の選好から効果的な報酬学習のための頑健なPbRLアルゴリズムであるRIMEを提案する。提案手法は,ロバストトレーニングのための選別選好を動的にフィルタするために,サンプル選択に基づく判別器を組み込んだ。誤選択による累積誤差を軽減するため,pbrlにおける事前トレーニングからオンライントレーニングへの移行時のパフォーマンスギャップを橋渡しし,報酬モデルのウォームスタートを提案する。ロボット操作とロコモーションタスクに関する実験により,現在のpbrl法のロバスト性が大幅に向上することを示した。アブレーション研究は、限られたフィードバックの場合の堅牢性とフィードバック効率の両方に温かいスタートが不可欠であることを示した。

関連論文リスト

Similarity as Reward Alignment: Robust and Versatile Preference-based Reinforcement Learning [6.621247723203913]
Reward Alignment(SARA)との類似性は、ノイズの多いラベルに耐性を持ち、多様なフィードバックフォーマットやトレーニングパラダイムに適応可能な、単純なコントラストのフレームワークである。 SARAは好みのサンプルの潜伏表現を学び、学習した潜伏者との類似性として報酬を計算する。連続制御オフラインRLベンチマークのベースラインと比較して高い性能を示す。
論文参考訳（メタデータ） (2025-06-14T15:01:59Z)
Active RLHF via Best Policy Learning from Trajectory Preference Feedback [15.799929216215672]
嗜好型強化学習(PbRL)における最良政策識別の問題に対処する。本稿では,Top-Two Thompson Smplingにヒントを得た新しいアルゴリズムであるPosterior Smpling for Preference Learning(mathsfPSPL$)を提案する。
論文参考訳（メタデータ） (2025-01-31T03:55:10Z)
Listwise Reward Estimation for Offline Preference-based Reinforcement Learning [20.151932308777553]
リストワイズ・リワード推定(LiRE)は、オフラインの推論に基づく強化学習(PbRL)のための新しいアプローチである。 LiRE は Ranked List of Trajectories (RLT) を構築することで既存の PbRL メソッドに基づいている。実験では,フィードバック数やフィードバックノイズに関して,緩やかなフィードバック予算や頑健さを享受しながらも,LiREの優位性を実証した。
論文参考訳（メタデータ） (2024-08-08T03:18:42Z)
Efficient Preference-based Reinforcement Learning via Aligned Experience Estimation [37.36913210031282]
評価に基づく強化学習(PbRL)は、報酬工学を使わずにトレーニングエージェントに優れた能力を示す。ラベルの平滑化とポリシー正則化を併用した効率的なPbRL法であるSEERを提案する。
論文参考訳（メタデータ） (2024-05-29T01:49:20Z)
REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文参考訳（メタデータ） (2023-12-22T04:56:37Z)
Contrastive Preference Learning: Learning from Human Feedback without RL [71.77024922527642]
本稿では、報酬関数を学習せずに好みから最適なポリシーを学習するアルゴリズムであるContrastive Preference Learning (CPL)を紹介する。 CPLは完全に非政治的であり、単純なコントラスト目的のみを使用し、任意のMDPに適用できる。
論文参考訳（メタデータ） (2023-10-20T16:37:56Z)
Direct Preference Optimization: Your Language Model is Secretly a Reward Model [119.65409513119963]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。 DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文参考訳（メタデータ） (2023-05-29T17:57:46Z)
Direct Preference-based Policy Optimization without Reward Modeling [25.230992130108767]
嗜好に基づく強化学習(PbRL)は、RLエージェントが嗜好から学習できるアプローチである。報酬モデリングを必要とせずに好みから直接学習するPbRLアルゴリズムを提案する。提案アルゴリズムは,地味な報奨情報を用いて学習するオフラインRL手法を超越することを示す。
論文参考訳（メタデータ） (2023-01-30T12:51:13Z)
Reinforcement Learning from Diverse Human Preferences [68.4294547285359]
本稿では,人選好ラベルをクラウドソーシングし,多様な嗜好から学習する手法を開発した。提案手法はDMcontrolとMeta-worldの様々なタスクでテストされる。多様なフィードバックから学ぶと、既存の好みベースのRLアルゴリズムよりも一貫性があり、大幅に改善されている。
論文参考訳（メタデータ） (2023-01-27T15:18:54Z)
Reward Uncertainty for Exploration in Preference-based Reinforcement Learning [88.34958680436552]
好みに基づく強化学習アルゴリズムを対象とした探索手法を提案する。我々の基本的な考え方は、学習した報酬に基づいて、斬新さを測定することによって、本質的な報酬を設計することである。実験により、学習報酬の不確実性からの探索ボーナスは、好みに基づくRLアルゴリズムのフィードバック効率とサンプル効率の両方を改善することが示された。
論文参考訳（メタデータ） (2022-05-24T23:22:10Z)
B-Pref: Benchmarking Preference-Based Reinforcement Learning [84.41494283081326]
我々は、好みベースのRL用に特別に設計されたベンチマークであるB-Prefを紹介する。このようなベンチマークにおける重要な課題は、候補アルゴリズムをすばやく評価する機能を提供することだ。 B-Prefは、幅広い不合理性を持つ教師をシミュレートすることでこれを緩和する。
論文参考訳（メタデータ） (2021-11-04T17:32:06Z)
Preference-based Reinforcement Learning with Finite-Time Guarantees [76.88632321436472]
嗜好に基づく強化学習(PbRL)は、従来の強化学習における報酬価値を代替し、目標とする目的に対する人間の意見をよりよく提示する。応用の有望な結果にもかかわらず、PbRLの理論的理解はまだ初期段階にある。一般PbRL問題に対する最初の有限時間解析を提案する。
論文参考訳（メタデータ） (2020-06-16T03:52:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。