論文の概要: S-EPOA: Overcoming the Indistinguishability of Segments with Skill-Driven Preference-Based Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2408.12130v2
- Date: Thu, 23 Jan 2025 13:52:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-24 19:43:35.203997
- Title: S-EPOA: Overcoming the Indistinguishability of Segments with Skill-Driven Preference-Based Reinforcement Learning
- Title(参考訳): S-EPOA: スキル駆動型推論型強化学習によるセグメントの識別不可能性克服
- Authors: Ni Mu, Yao Luan, Yiqin Yang, Qing-shan Jia,
- Abstract要約: 嗜好に基づく強化学習(PbRL)は、直接報酬信号として人間の嗜好を使用する。
従来のPbRL法は、しばしば、学習プロセスを妨げるセグメントの不明瞭さによって制約される。
本稿では,S-EPOA(Skill-Enhanced Preference Optimization Algorithm)を紹介する。
- 参考スコア(独自算出の注目度): 7.8063180607224165
- License:
- Abstract: Preference-based reinforcement learning (PbRL) stands out by utilizing human preferences as a direct reward signal, eliminating the need for intricate reward engineering. However, despite its potential, traditional PbRL methods are often constrained by the indistinguishability of segments, which impedes the learning process. In this paper, we introduce Skill-Enhanced Preference Optimization Algorithm (S-EPOA), which addresses the segment indistinguishability issue by integrating skill mechanisms into the preference learning framework. Specifically, we first conduct the unsupervised pretraining to learn useful skills. Then, we propose a novel query selection mechanism to balance the information gain and distinguishability over the learned skill space. Experimental results on a range of tasks, including robotic manipulation and locomotion, demonstrate that S-EPOA significantly outperforms conventional PbRL methods in terms of both robustness and learning efficiency. The results highlight the effectiveness of skill-driven learning in overcoming the challenges posed by segment indistinguishability.
- Abstract(参考訳): 嗜好に基づく強化学習(PbRL)は、人間の嗜好を直接報酬信号として利用し、複雑な報酬工学の必要性をなくすことで際立っている。
しかし、その可能性にもかかわらず、従来のPbRL法は、学習過程を妨げるセグメントの不明瞭さによって制約されることが多い。
本稿では,S-EPOA(Skill-Enhanced Preference Optimization Algorithm)を提案する。
具体的には、まず教師なしプレトレーニングを行い、有用なスキルを学ぶ。
そこで本研究では,学習スキル空間における情報獲得と識別可能性のバランスをとるために,新しいクエリ選択機構を提案する。
S-EPOAは、ロボット操作や移動を含む様々なタスクの実験結果から、ロバスト性および学習効率の両面で従来のPbRL法よりも優れていたことが示されている。
その結果,セグメンテーションの不明瞭さによる課題を克服する上で,スキル駆動型学習の有効性が浮き彫りになった。
関連論文リスト
- Skill-Enhanced Reinforcement Learning Acceleration from Demonstrations [23.15178050525514]
本稿では,Skill-enhanced Reinforcement Learning Acceleration (SeRLA) と呼ばれる2段階の手法を提案する。
SeRLAは、スキルレベルの正正負の学習モデルを導入し、有用なスキル事前知識を抽出する。
次に、スキルベースのソフトアクター批判アルゴリズムをデプロイし、下流のオンラインRLステージで取得した知識を活用する。
論文 参考訳(メタデータ) (2024-12-09T04:58:14Z) - Employing Layerwised Unsupervised Learning to Lessen Data and Loss Requirements in Forward-Forward Algorithms [1.0514231683620516]
Forward-Forwardアルゴリズムは、フォワードパスのみを通してディープラーニングモデルを訓練する。
バックプロパゲーションを置き換えるために,教師なしフォワードアルゴリズムを提案する。
安定した学習を導き、さまざまなデータセットやタスクで汎用的な利用を可能にします。
論文 参考訳(メタデータ) (2024-04-23T01:49:12Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Augmenting Unsupervised Reinforcement Learning with Self-Reference [63.68018737038331]
人間は、新しいタスクを学ぶ際に、過去の経験を明確に表現する能力を持っている。
本稿では,歴史情報を活用するためのアドオンモジュールとして,自己参照(SR)アプローチを提案する。
提案手法は,非教師付き強化学習ベンチマークにおけるIQM(Interquartile Mean)性能と最適ギャップ削減の両面から,最先端の成果を実現する。
論文 参考訳(メタデータ) (2023-11-16T09:07:34Z) - Hierarchical Deep Counterfactual Regret Minimization [53.86223883060367]
本稿では,大規模な状態空間や深部ゲームツリーを含むタスクにおいて,学習効率を向上させる革新的な手法であるDeep CFRの最初の階層バージョンを紹介する。
HDCFRのこれまでの研究よりも顕著な利点は、事前に定義された(人間的な)専門知識による学習の促進と、同様のタスクに移行可能なスキルの獲得を促進する能力である。
論文 参考訳(メタデータ) (2023-05-27T02:05:41Z) - Reinforcement Learning from Diverse Human Preferences [68.4294547285359]
本稿では,人選好ラベルをクラウドソーシングし,多様な嗜好から学習する手法を開発した。
提案手法はDMcontrolとMeta-worldの様々なタスクでテストされる。
多様なフィードバックから学ぶと、既存の好みベースのRLアルゴリズムよりも一貫性があり、大幅に改善されている。
論文 参考訳(メタデータ) (2023-01-27T15:18:54Z) - Reward Uncertainty for Exploration in Preference-based Reinforcement
Learning [88.34958680436552]
好みに基づく強化学習アルゴリズムを対象とした探索手法を提案する。
我々の基本的な考え方は、学習した報酬に基づいて、斬新さを測定することによって、本質的な報酬を設計することである。
実験により、学習報酬の不確実性からの探索ボーナスは、好みに基づくRLアルゴリズムのフィードバック効率とサンプル効率の両方を改善することが示された。
論文 参考訳(メタデータ) (2022-05-24T23:22:10Z) - Self-Imitation Advantage Learning [43.8107780378031]
自己模倣学習は、期待以上のリターンのアクションを奨励する強化学習方法です。
本稿では,ベルマン最適性演算子を改変したオフポリシーRLの自己模倣学習の新たな一般化を提案する。
論文 参考訳(メタデータ) (2020-12-22T13:21:50Z) - Recall and Learn: Fine-tuning Deep Pretrained Language Models with Less
Forgetting [66.45372974713189]
本稿では,マルチタスク学習の概念を取り入れたリコール・アンド・ラーニング機構を提案し,事前学習タスクと下流タスクを共同で学習する。
実験により,本手法はGLUEベンチマークの最先端性能を実現することが示された。
我々はオープンソースのRecAdamを提供し、提案されたメカニズムをAdamに統合し、NLPコミュニティを施設化する。
論文 参考訳(メタデータ) (2020-04-27T08:59:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。