論文の概要: STRAPPER: Preference-based Reinforcement Learning via Self-training
Augmentation and Peer Regularization
- arxiv url: http://arxiv.org/abs/2307.09692v1
- Date: Wed, 19 Jul 2023 00:31:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-20 15:45:35.249557
- Title: STRAPPER: Preference-based Reinforcement Learning via Self-training
Augmentation and Peer Regularization
- Title(参考訳): STRAPPER:自己学習とピア正規化による優先型強化学習
- Authors: Yachen Kang, Li He, Jinxin Liu, Zifeng Zhuang, Donglin Wang
- Abstract要約: 優先に基づく強化学習(PbRL)は、複雑な報酬関数を2進的な人間の好みで学習することを約束する。
本稿では,不定形ラベルを記憶した報酬モデルをペナルティ化し,自信ある予測を得る自己学習手法を提案する。
- 参考スコア(独自算出の注目度): 18.811470043767713
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Preference-based reinforcement learning (PbRL) promises to learn a complex
reward function with binary human preference. However, such human-in-the-loop
formulation requires considerable human effort to assign preference labels to
segment pairs, hindering its large-scale applications. Recent approache has
tried to reuse unlabeled segments, which implicitly elucidates the distribution
of segments and thereby alleviates the human effort. And consistency
regularization is further considered to improve the performance of
semi-supervised learning. However, we notice that, unlike general
classification tasks, in PbRL there exits a unique phenomenon that we defined
as similarity trap in this paper. Intuitively, human can have diametrically
opposite preferredness for similar segment pairs, but such similarity may trap
consistency regularization fail in PbRL. Due to the existence of similarity
trap, such consistency regularization improperly enhances the consistency
possiblity of the model's predictions between segment pairs, and thus reduces
the confidence in reward learning, since the augmented distribution does not
match with the original one in PbRL. To overcome such issue, we present a
self-training method along with our proposed peer regularization, which
penalizes the reward model memorizing uninformative labels and acquires
confident predictions. Empirically, we demonstrate that our approach is capable
of learning well a variety of locomotion and robotic manipulation behaviors
using different semi-supervised alternatives and peer regularization.
- Abstract(参考訳): 優先に基づく強化学習(PbRL)は、複雑な報酬関数の学習を約束する。
しかし、このようなヒューマン・イン・ザ・ループの定式化は、セグメントペアに優先ラベルを割り当てるためにかなりの人間の努力を必要とし、大規模な応用を妨げる。
最近のアプローチでは、ラベルのないセグメントを再利用しようと試みており、セグメントの分布を暗黙的に解明し、それによって人間の努力を軽減している。
さらに, 整合性正規化は, 半教師付き学習の性能を向上させると考えられる。
しかし、一般的な分類タスクとは異なり、PbRLでは類似性トラップとして定義したユニークな現象を排除している。
直感的には、人間は類似したセグメントペアに対して対数的に反対の傾向を持つことができるが、そのような類似性はPbRLにおける一貫性の規則化を阻害する可能性がある。
このような一貫性正規化は、類似性トラップの存在により、セグメントペア間のモデルの予測の一貫性を不適切に向上させ、pbrlにおける拡張分布が元の分布と一致しないため、報酬学習の信頼性を低下させる。
このような課題を克服するために,提案するピア正規化とともに自己学習手法を提案する。
実験により,提案手法は,異なる半教師付き選択肢とピア正規化を用いて,様々なロコモーションやロボット操作の動作を十分に学習できることを実証する。
関連論文リスト
- Rethinking Classifier Re-Training in Long-Tailed Recognition: A Simple
Logits Retargeting Approach [102.0769560460338]
我々は,クラスごとのサンプル数に関する事前知識を必要とせず,シンプルなロジットアプローチ(LORT)を開発した。
提案手法は,CIFAR100-LT, ImageNet-LT, iNaturalist 2018など,様々な不均衡データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-01T03:27:08Z) - Time-series Generation by Contrastive Imitation [87.51882102248395]
モーメントマッチングの目的によってモチベーションされ、複合的エラーを軽減し、局所的(しかし前方的な)遷移ポリシーを最適化する。
推論において、学習されたポリシーは反復的なサンプリングのジェネレータとして機能し、学習されたエネルギーはサンプルの品質を評価するための軌道レベル尺度として機能する。
論文 参考訳(メタデータ) (2023-11-02T16:45:25Z) - Supervised Contrastive Learning with Heterogeneous Similarity for
Distribution Shifts [3.7819322027528113]
本稿では,教師付きコントラスト学習を用いた新たな正規化手法を提案する。
サブポピュレーションシフトや領域一般化などの分布シフトをエミュレートするベンチマークデータセットの実験は,提案手法の利点を実証している。
論文 参考訳(メタデータ) (2023-04-07T01:45:09Z) - Neighbour Consistency Guided Pseudo-Label Refinement for Unsupervised
Person Re-Identification [80.98291772215154]
教師なしの人物再識別(ReID)は、アノテーションを使わずに人物検索のための識別的アイデンティティの特徴を学習することを目的としている。
近年の進歩はクラスタリングに基づく擬似ラベルを活用することで実現されている。
本稿では, Pseudo Label Refinement フレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-30T09:39:57Z) - Extending Momentum Contrast with Cross Similarity Consistency
Regularization [5.085461418671174]
モーメントエンコーダユニットの遺産に基づく自己教師型表現学習手法であるExtended Momentum ContrastをMoCoファミリー構成で提案する。
交差一貫性規則の下では、任意の一対のイメージ(正あるいは負)に関連付けられた意味表現は、それらの相似性を維持するべきであると論じる。
我々は、標準のImagenet-1K線形ヘッド分類ベンチマークで競合性能を報告した。
論文 参考訳(メタデータ) (2022-06-07T20:06:56Z) - Contrastive Learning for Fair Representations [50.95604482330149]
訓練された分類モデルは、意図せずバイアスのある表現や予測につながる可能性がある。
対戦訓練のような既存の分類モデルのデバイアス化手法は、訓練に高価であり、最適化が困難であることが多い。
比較学習を取り入れたバイアス軽減手法を提案し、同じクラスラベルを共有するインスタンスに類似した表現を推奨する。
論文 参考訳(メタデータ) (2021-09-22T10:47:51Z) - Semi-supervised Contrastive Learning with Similarity Co-calibration [72.38187308270135]
SsCL(Semi-supervised Contrastive Learning)と呼ばれる新しいトレーニング戦略を提案する。
ssclは、自己教師付き学習におけるよく知られたコントラスト損失と、半教師付き学習におけるクロスエントロピー損失を組み合わせる。
SsCLはより差別的な表現を生じさせ,ショット学習に有益であることを示す。
論文 参考訳(メタデータ) (2021-05-16T09:13:56Z) - Causally-motivated Shortcut Removal Using Auxiliary Labels [63.686580185674195]
このようなリスク不変予測器の学習に重要な課題はショートカット学習である。
この課題に対処するために、フレキシブルで因果的なアプローチを提案する。
この因果的動機付けされた正規化スキームが堅牢な予測子を生み出すことを理論的および実証的に示す。
論文 参考訳(メタデータ) (2021-05-13T16:58:45Z) - A Contraction Approach to Model-based Reinforcement Learning [11.701145942745274]
本研究では, 累積報酬の誤差を縮尺法を用いて解析する。
分岐ロールアウトは、このエラーを減らすことができることを証明します。
本稿では,GAN型学習は,識別器が十分に訓練されている場合に,行動クローンよりも有利であることを示す。
論文 参考訳(メタデータ) (2020-09-18T02:03:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。