論文の概要: Exploiting Unlabeled Data for Feedback Efficient Human Preference based
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2302.08738v1
- Date: Fri, 17 Feb 2023 07:18:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-20 15:29:34.901728
- Title: Exploiting Unlabeled Data for Feedback Efficient Human Preference based
Reinforcement Learning
- Title(参考訳): 非ラベルデータを活用した人間選好に基づく強化学習
- Authors: Mudit Verma, Siddhant Bhambri, Subbarao Kambhampati
- Abstract要約: 本研究では,エージェントが収集した未ラベル軌道について2つの観察を行い,それに対応する2つの損失関数を提案する。
提案手法を1つのドメイン移動と1つのロボット操作タスクで検証し,最先端のベースラインPEBBLEと比較した。
- 参考スコア(独自算出の注目度): 17.042179951736262
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Preference Based Reinforcement Learning has shown much promise for utilizing
human binary feedback on queried trajectory pairs to recover the underlying
reward model of the Human in the Loop (HiL). While works have attempted to
better utilize the queries made to the human, in this work we make two
observations about the unlabeled trajectories collected by the agent and
propose two corresponding loss functions that ensure participation of unlabeled
trajectories in the reward learning process, and structure the embedding space
of the reward model such that it reflects the structure of state space with
respect to action distances. We validate the proposed method on one locomotion
domain and one robotic manipulation task and compare with the state-of-the-art
baseline PEBBLE. We further present an ablation of the proposed loss components
across both the domains and find that not only each of the loss components
perform better than the baseline, but the synergic combination of the two has
much better reward recovery and human feedback sample efficiency.
- Abstract(参考訳): 選好に基づく強化学習は、ループ内における人間の報酬モデル(hil)を回復するために、クエリされた軌道ペアに対して人間のバイナリフィードバックを活用することに多くの期待を示している。
本研究は,人間に対する問合せをより効果的に利用しようとする試みであるが,本研究では,エージェントが収集したラベルなしのトラジェクタについて2つの観察を行い,報酬学習プロセスにおけるラベルなしのトラジェクタの関与を確実にする2つの対応する損失関数を提案し,アクション距離に関する状態空間の構造を反映するように報酬モデルの埋め込み空間を構成する。
提案手法を1つのロコモーションドメインと1つのロボット操作タスクで検証し,最新のベースラインpebbleと比較した。
さらに,提案する損失成分を両領域にまたがってアブレーションし,各損失成分がベースラインよりも優れた性能を示すだけでなく,両者の交感神経結合により,報酬回復と人的フィードバックサンプル効率が向上することを示す。
関連論文リスト
- Efficient Diffusion as Low Light Enhancer [63.789138528062225]
RATR(Reflectance-Aware Trajectory Refinement)は、イメージの反射成分を用いて教師の軌跡を洗練するための、シンプルで効果的なモジュールである。
textbfReDDiT (textbfDistilled textbfTrajectory) は低照度画像強調(LLIE)に適した効率的で柔軟な蒸留フレームワークである。
論文 参考訳(メタデータ) (2024-10-16T08:07:18Z) - Learning Recommender Systems with Soft Target: A Decoupled Perspective [49.83787742587449]
そこで本研究では,ソフトラベルを活用することで,目的を2つの側面として捉えるために,分離されたソフトラベル最適化フレームワークを提案する。
本稿では,ラベル伝搬アルゴリズムをモデル化したソフトラベル生成アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-09T04:20:15Z) - Improving Reinforcement Learning from Human Feedback Using Contrastive Rewards [26.40009657912622]
人間のフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)を人間の好みに合わせるために使われる主流パラダイムである。
しかし、既存のRLHFは、様々な情報源からのノイズに対して脆弱で敏感な正確で情報的な報酬モデルに大きく依存している。
本研究では,報酬に対するペナルティ項を導入することで,報酬モデルの有効性を向上する。
論文 参考訳(メタデータ) (2024-03-12T14:51:57Z) - Distance-rank Aware Sequential Reward Learning for Inverse Reinforcement
Learning with Sub-optimal Demonstrations [25.536792010283566]
逆強化学習(IRL)は、専門家による実験結果に基づいて、基礎となる報酬関数を明示的に推論することを目的としている。
本稿では,DRASRL(Distance-rank Aware Sequential Reward Learning)フレームワークを紹介する。
本フレームワークは,従来のSOTA手法よりも大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2023-10-13T02:38:35Z) - A State Augmentation based approach to Reinforcement Learning from Human
Preferences [20.13307800821161]
優先に基づく強化学習は、クエリされたトラジェクトリペアのバイナリフィードバックを利用することで、この問題を解決しようとする。
本稿では,エージェントの報酬モデルが堅牢である状態拡張手法を提案する。
論文 参考訳(メタデータ) (2023-02-17T07:10:50Z) - Data Driven Reward Initialization for Preference based Reinforcement
Learning [20.13307800821161]
選好に基づく強化学習(PbRL)法は、ループ内の人間からの2進フィードバック(HiL)をクエリされた軌道対上で利用し、報酬モデルを学ぶ。
実験のランダムな種に敏感な報酬モデルにおける高い変動性の問題について検討する。
論文 参考訳(メタデータ) (2023-02-17T07:07:07Z) - ReAct: Temporal Action Detection with Relational Queries [84.76646044604055]
本研究は,アクションクエリを備えたエンコーダ・デコーダフレームワークを用いて,時間的行動検出(TAD)の進展を図ることを目的とする。
まず,デコーダ内の関係注意機構を提案し,その関係に基づいてクエリ間の関心を誘導する。
最後に、高品質なクエリを区別するために、推論時に各アクションクエリのローカライズ品質を予測することを提案する。
論文 参考訳(メタデータ) (2022-07-14T17:46:37Z) - Reward Uncertainty for Exploration in Preference-based Reinforcement
Learning [88.34958680436552]
好みに基づく強化学習アルゴリズムを対象とした探索手法を提案する。
我々の基本的な考え方は、学習した報酬に基づいて、斬新さを測定することによって、本質的な報酬を設計することである。
実験により、学習報酬の不確実性からの探索ボーナスは、好みに基づくRLアルゴリズムのフィードバック効率とサンプル効率の両方を改善することが示された。
論文 参考訳(メタデータ) (2022-05-24T23:22:10Z) - SURF: Semi-supervised Reward Learning with Data Augmentation for
Feedback-efficient Preference-based Reinforcement Learning [168.89470249446023]
我々は、大量のラベルなしサンプルとデータ拡張を利用する半教師付き報酬学習フレームワークSURFを提案する。
報奨学習にラベルのないサンプルを活用するために,選好予測器の信頼性に基づいてラベルのないサンプルの擬似ラベルを推定する。
本実験は, ロボット操作作業における嗜好に基づく手法のフィードバック効率を有意に向上させることを実証した。
論文 参考訳(メタデータ) (2022-03-18T16:50:38Z) - A Unified Framework of Surrogate Loss by Refactoring and Interpolation [65.60014616444623]
勾配勾配を有する深層ネットワークのトレーニングにおいて,サロゲート損失を発生させる統一フレームワークUniLossを導入する。
3つのタスクと4つのデータセットに対するUniLossの有効性を検証する。
論文 参考訳(メタデータ) (2020-07-27T21:16:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。