論文の概要: S-EPOA: Overcoming the Indistinguishability of Segments with Skill-Driven Preference-Based Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2408.12130v2
- Date: Thu, 23 Jan 2025 13:52:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-24 19:43:35.203997
- Title: S-EPOA: Overcoming the Indistinguishability of Segments with Skill-Driven Preference-Based Reinforcement Learning
- Title(参考訳): S-EPOA: スキル駆動型推論型強化学習によるセグメントの識別不可能性克服
- Authors: Ni Mu, Yao Luan, Yiqin Yang, Qing-shan Jia,
- Abstract要約: 嗜好に基づく強化学習(PbRL)は、直接報酬信号として人間の嗜好を使用する。
従来のPbRL法は、しばしば、学習プロセスを妨げるセグメントの不明瞭さによって制約される。
本稿では,S-EPOA(Skill-Enhanced Preference Optimization Algorithm)を紹介する。
- 参考スコア(独自算出の注目度): 7.8063180607224165
- License:
- Abstract: Preference-based reinforcement learning (PbRL) stands out by utilizing human preferences as a direct reward signal, eliminating the need for intricate reward engineering. However, despite its potential, traditional PbRL methods are often constrained by the indistinguishability of segments, which impedes the learning process. In this paper, we introduce Skill-Enhanced Preference Optimization Algorithm (S-EPOA), which addresses the segment indistinguishability issue by integrating skill mechanisms into the preference learning framework. Specifically, we first conduct the unsupervised pretraining to learn useful skills. Then, we propose a novel query selection mechanism to balance the information gain and distinguishability over the learned skill space. Experimental results on a range of tasks, including robotic manipulation and locomotion, demonstrate that S-EPOA significantly outperforms conventional PbRL methods in terms of both robustness and learning efficiency. The results highlight the effectiveness of skill-driven learning in overcoming the challenges posed by segment indistinguishability.
- Abstract(参考訳): 嗜好に基づく強化学習(PbRL)は、人間の嗜好を直接報酬信号として利用し、複雑な報酬工学の必要性をなくすことで際立っている。
しかし、その可能性にもかかわらず、従来のPbRL法は、学習過程を妨げるセグメントの不明瞭さによって制約されることが多い。
本稿では,S-EPOA(Skill-Enhanced Preference Optimization Algorithm)を提案する。
具体的には、まず教師なしプレトレーニングを行い、有用なスキルを学ぶ。
そこで本研究では,学習スキル空間における情報獲得と識別可能性のバランスをとるために,新しいクエリ選択機構を提案する。
S-EPOAは、ロボット操作や移動を含む様々なタスクの実験結果から、ロバスト性および学習効率の両面で従来のPbRL法よりも優れていたことが示されている。
その結果,セグメンテーションの不明瞭さによる課題を克服する上で,スキル駆動型学習の有効性が浮き彫りになった。
関連論文リスト
- KBAlign: Efficient Self Adaptation on Specific Knowledge Bases [75.78948575957081]
大規模言語モデル(LLM)は通常、知識材料を瞬時に活用するために、検索強化世代に依存している。
本稿では,知識ベースを含む下流タスクへの効率的な適応を目的としたKBAlignを提案する。
提案手法は,Q&Aペアやリビジョン提案などの自己注釈付きデータを用いて反復学習を行い,モデルが知識内容を効率的に把握できるようにする。
論文 参考訳(メタデータ) (2024-11-22T08:21:03Z) - Employing Layerwised Unsupervised Learning to Lessen Data and Loss Requirements in Forward-Forward Algorithms [1.0514231683620516]
Forward-Forwardアルゴリズムは、フォワードパスのみを通してディープラーニングモデルを訓練する。
バックプロパゲーションを置き換えるために,教師なしフォワードアルゴリズムを提案する。
安定した学習を導き、さまざまなデータセットやタスクで汎用的な利用を可能にします。
論文 参考訳(メタデータ) (2024-04-23T01:49:12Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Reinforcement Learning from Diverse Human Preferences [68.4294547285359]
本稿では,人選好ラベルをクラウドソーシングし,多様な嗜好から学習する手法を開発した。
提案手法はDMcontrolとMeta-worldの様々なタスクでテストされる。
多様なフィードバックから学ぶと、既存の好みベースのRLアルゴリズムよりも一貫性があり、大幅に改善されている。
論文 参考訳(メタデータ) (2023-01-27T15:18:54Z) - Reward Uncertainty for Exploration in Preference-based Reinforcement
Learning [88.34958680436552]
好みに基づく強化学習アルゴリズムを対象とした探索手法を提案する。
我々の基本的な考え方は、学習した報酬に基づいて、斬新さを測定することによって、本質的な報酬を設計することである。
実験により、学習報酬の不確実性からの探索ボーナスは、好みに基づくRLアルゴリズムのフィードバック効率とサンプル効率の両方を改善することが示された。
論文 参考訳(メタデータ) (2022-05-24T23:22:10Z) - Rethinking Learning Dynamics in RL using Adversarial Networks [79.56118674435844]
本稿では,スキル埋め込み空間を通じてパラメータ化された,密接に関連するスキルの強化学習のための学習機構を提案する。
本研究の主な貢献は、エントロピー規則化政策勾配定式化の助けを借りて、強化学習のための敵の訓練体制を定式化することである。
論文 参考訳(メタデータ) (2022-01-27T19:51:09Z) - Prioritized Experience-based Reinforcement Learning with Human Guidance:
Methdology and Application to Autonomous Driving [2.5895890901896124]
強化学習は、最適化と制御問題を解決するために、巧妙な定義と卓越した計算努力を必要とする。
本稿では,人間指導に基づく総合的な強化学習フレームワークを構築した。
強化学習アルゴリズムの効率性と性能を高めるために,人間の指導に適応する新たな優先体験再生機構を提案する。
論文 参考訳(メタデータ) (2021-09-26T07:19:26Z) - Self-Imitation Advantage Learning [43.8107780378031]
自己模倣学習は、期待以上のリターンのアクションを奨励する強化学習方法です。
本稿では,ベルマン最適性演算子を改変したオフポリシーRLの自己模倣学習の新たな一般化を提案する。
論文 参考訳(メタデータ) (2020-12-22T13:21:50Z) - Recall and Learn: Fine-tuning Deep Pretrained Language Models with Less
Forgetting [66.45372974713189]
本稿では,マルチタスク学習の概念を取り入れたリコール・アンド・ラーニング機構を提案し,事前学習タスクと下流タスクを共同で学習する。
実験により,本手法はGLUEベンチマークの最先端性能を実現することが示された。
我々はオープンソースのRecAdamを提供し、提案されたメカニズムをAdamに統合し、NLPコミュニティを施設化する。
論文 参考訳(メタデータ) (2020-04-27T08:59:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。