論文の概要: SURF: Semi-supervised Reward Learning with Data Augmentation for
Feedback-efficient Preference-based Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2203.10050v1
- Date: Fri, 18 Mar 2022 16:50:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-21 13:51:49.498549
- Title: SURF: Semi-supervised Reward Learning with Data Augmentation for
Feedback-efficient Preference-based Reinforcement Learning
- Title(参考訳): SURF:フィードバック効率に基づく強化学習のためのデータ強化による半教師付きリワード学習
- Authors: Jongjin Park, Younggyo Seo, Jinwoo Shin, Honglak Lee, Pieter Abbeel,
Kimin Lee
- Abstract要約: 我々は、大量のラベルなしサンプルとデータ拡張を利用する半教師付き報酬学習フレームワークSURFを提案する。
報奨学習にラベルのないサンプルを活用するために,選好予測器の信頼性に基づいてラベルのないサンプルの擬似ラベルを推定する。
本実験は, ロボット操作作業における嗜好に基づく手法のフィードバック効率を有意に向上させることを実証した。
- 参考スコア(独自算出の注目度): 168.89470249446023
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Preference-based reinforcement learning (RL) has shown potential for teaching
agents to perform the target tasks without a costly, pre-defined reward
function by learning the reward with a supervisor's preference between the two
agent behaviors. However, preference-based learning often requires a large
amount of human feedback, making it difficult to apply this approach to various
applications. This data-efficiency problem, on the other hand, has been
typically addressed by using unlabeled samples or data augmentation techniques
in the context of supervised learning. Motivated by the recent success of these
approaches, we present SURF, a semi-supervised reward learning framework that
utilizes a large amount of unlabeled samples with data augmentation. In order
to leverage unlabeled samples for reward learning, we infer pseudo-labels of
the unlabeled samples based on the confidence of the preference predictor. To
further improve the label-efficiency of reward learning, we introduce a new
data augmentation that temporally crops consecutive subsequences from the
original behaviors. Our experiments demonstrate that our approach significantly
improves the feedback-efficiency of the state-of-the-art preference-based
method on a variety of locomotion and robotic manipulation tasks.
- Abstract(参考訳): 選好に基づく強化学習(rl)は,エージェントの2つの行動間の選好によって報酬を学習することで,費用のかかる事前定義された報酬機能なしに目標課題を遂行する可能性を示した。
しかし、好みに基づく学習は、しばしば大量の人間のフィードバックを必要とするため、このアプローチを様々なアプリケーションに適用することは困難である。
このデータ効率問題は、典型的には教師あり学習の文脈において、ラベルのないサンプルやデータ拡張技術を用いて対処されてきた。
これらの手法の最近の成功に触発されたSURFは、データ拡張を伴う大量の未ラベルサンプルを利用する半教師付き報酬学習フレームワークである。
報酬学習にラベルなしサンプルを活用するために,好み予測者の信頼度に基づいてラベルなしサンプルの擬似ラベルを推測する。
報奨学習のラベル効率をさらに高めるため,従来の行動から時系列的に時系列を抽出する新たなデータ拡張を導入する。
本実験は, ロボット操作作業における最先端の嗜好に基づく手法のフィードバック効率を大幅に向上することを示す。
関連論文リスト
- Intent-Enhanced Data Augmentation for Sequential Recommendation [20.639934432829325]
逐次レコメンデーション(textbfIESRec)のためのインテント強化データ拡張手法を提案する。
IESRecは、インテント・セグメンテーションの挿入を通じて、ユーザの行動シーケンスに基づいて、正と負のサンプルを構築する。
生成した正および負のサンプルは、対比損失関数を構築するために使用され、自己教師付きトレーニングを通じて推奨性能を高める。
論文 参考訳(メタデータ) (2024-10-11T07:23:45Z) - Active Learning to Guide Labeling Efforts for Question Difficulty Estimation [1.0514231683620516]
トランスフォーマーベースのニューラルネットワークは、主に教師なしの手法ではなく、教師なし学習における独立した研究によって、最先端のパフォーマンスを達成する。
この研究は、教師付きヒューマン・イン・ザ・ループアプローチであるQDEのアクティブ・ラーニングを探求することで、研究ギャップを埋める。
PowerVarianceの取得によるアクティブな学習は、トレーニングデータの10%だけをラベル付けした後、完全に教師されたモデルに近いパフォーマンスを達成することを示す実験である。
論文 参考訳(メタデータ) (2024-09-14T02:02:42Z) - Efficient Preference-based Reinforcement Learning via Aligned Experience Estimation [37.36913210031282]
評価に基づく強化学習(PbRL)は、報酬工学を使わずにトレーニングエージェントに優れた能力を示す。
ラベルの平滑化とポリシー正則化を併用した効率的なPbRL法であるSEERを提案する。
論文 参考訳(メタデータ) (2024-05-29T01:49:20Z) - Temporal Output Discrepancy for Loss Estimation-based Active Learning [65.93767110342502]
ラベルのないサンプルが高損失を伴っていると信じられている場合に,データアノテーションのオラクルに問い合わせる,新しいディープラーニングアプローチを提案する。
本手法は,画像分類やセマンティックセグメンテーションタスクにおける最先端の能動学習手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-12-20T19:29:37Z) - Responsible Active Learning via Human-in-the-loop Peer Study [88.01358655203441]
我々は,データプライバシを同時に保持し,モデルの安定性を向上させるために,Pear Study Learning (PSL) と呼ばれる責任あるアクティブラーニング手法を提案する。
まず,クラウドサイドのタスク学習者(教師)から未学習データを分離する。
トレーニング中、タスク学習者は軽量なアクティブ学習者に指示し、アクティブサンプリング基準に対するフィードバックを提供する。
論文 参考訳(メタデータ) (2022-11-24T13:18:27Z) - ALLSH: Active Learning Guided by Local Sensitivity and Hardness [98.61023158378407]
本稿では,局所感度と硬度認識獲得機能を備えたラベル付きサンプルの検索を提案する。
本手法は,様々な分類タスクにおいてよく用いられるアクティブラーニング戦略よりも一貫した利得が得られる。
論文 参考訳(メタデータ) (2022-05-10T15:39:11Z) - CCLF: A Contrastive-Curiosity-Driven Learning Framework for
Sample-Efficient Reinforcement Learning [56.20123080771364]
我々は、強化学習のためのモデルに依存しないコントラスト駆動学習フレームワーク(CCLF)を開発した。
CCLFは、サンプルの重要性を完全に活用し、自己管理的な学習効率を向上させる。
このアプローチをDeepMind Control Suite、Atari、MiniGridベンチマークで評価する。
論文 参考訳(メタデータ) (2022-05-02T14:42:05Z) - Squeezing Backbone Feature Distributions to the Max for Efficient
Few-Shot Learning [3.1153758106426603]
ラベル付きサンプルの少ない使用によって生じる不確実性のため、ほとんどショット分類が難しい問題である。
本稿では,特徴ベクトルをガウス分布に近づけるように処理するトランスファーベース手法を提案する。
また,学習中に未学習のサンプルが利用可能となる多段階的数ショット学習では,達成された性能をさらに向上させる最適なトランスポートインスピレーションアルゴリズムも導入する。
論文 参考訳(メタデータ) (2021-10-18T16:29:17Z) - Ask-n-Learn: Active Learning via Reliable Gradient Representations for
Image Classification [29.43017692274488]
深い予測モデルは、ラベル付きトレーニングデータという形で人間の監督に依存する。
Ask-n-Learnは,各アルゴリズムで推定されたペスドラベルを用いて得られる勾配埋め込みに基づく能動的学習手法である。
論文 参考訳(メタデータ) (2020-09-30T05:19:56Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。