論文の概要: S-EPOA: Overcoming the Indivisibility of Annotations with Skill-Driven Preference-Based Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2408.12130v1
- Date: Thu, 22 Aug 2024 04:54:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-08-23 15:03:23.120752
- Title: S-EPOA: Overcoming the Indivisibility of Annotations with Skill-Driven Preference-Based Reinforcement Learning
- Title(参考訳): S-EPOA: スキル駆動型推論に基づく強化学習によるアノテーションの識別可能性の克服
- Authors: Ni Mu, Yao Luan, Yiqin Yang, Qing-shan Jia,
- Abstract要約: 嗜好に基づく強化学習(PbRL)は、直接報酬信号として人間の嗜好を使用する。
従来のPbRLメソッドは、しばしば、学習プロセスを妨げるアノテーションの多様化によって制約される。
- 参考スコア(独自算出の注目度): 7.8063180607224165
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Preference-based reinforcement learning (PbRL) stands out by utilizing human preferences as a direct reward signal, eliminating the need for intricate reward engineering. However, despite its potential, traditional PbRL methods are often constrained by the indivisibility of annotations, which impedes the learning process. In this paper, we introduce a groundbreaking approach, Skill-Enhanced Preference Optimization Algorithm~(S-EPOA), which addresses the annotation indivisibility issue by integrating skill mechanisms into the preference learning framework. Specifically, we first conduct the unsupervised pretraining to learn useful skills. Then, we propose a novel query selection mechanism to balance the information gain and discriminability over the learned skill space. Experimental results on a range of tasks, including robotic manipulation and locomotion, demonstrate that S-EPOA significantly outperforms conventional PbRL methods in terms of both robustness and learning efficiency. The results highlight the effectiveness of skill-driven learning in overcoming the challenges posed by annotation indivisibility.
- Abstract(参考訳): 嗜好に基づく強化学習(PbRL)は、人間の嗜好を直接報酬信号として利用し、複雑な報酬工学の必要性をなくすことで際立っている。
しかし、その可能性にもかかわらず、従来のPbRL法は、しばしばアノテーションの識別性によって制約され、学習過程を阻害する。
本稿では,S-EPOA(Skill-Enhanced Preference Optimization Algorithm, S-EPOA)を提案する。
具体的には、まず教師なしプレトレーニングを行い、有用なスキルを学ぶ。
そこで本研究では,学習スキル空間上での情報獲得と識別可能性のバランスをとるために,新しいクエリ選択機構を提案する。
S-EPOAは、ロボット操作や移動を含む様々なタスクの実験結果から、ロバスト性および学習効率の両面で従来のPbRL法よりも優れていたことが示されている。
その結果,アノテーションの多様性がもたらす課題を克服する上で,スキル駆動型学習の有効性が浮き彫りになった。
関連論文リスト
- Skill-Enhanced Reinforcement Learning Acceleration from Demonstrations [23.15178050525514]
本稿では,Skill-enhanced Reinforcement Learning Acceleration (SeRLA) と呼ばれる2段階の手法を提案する。
SeRLAは、スキルレベルの正正負の学習モデルを導入し、有用なスキル事前知識を抽出する。
次に、スキルベースのソフトアクター批判アルゴリズムをデプロイし、下流のオンラインRLステージで取得した知識を活用する。
論文 参考訳(メタデータ) (2024-12-09T04:58:14Z) - KBAlign: Efficient Self Adaptation on Specific Knowledge Bases [75.78948575957081]
大規模言語モデル(LLM)は通常、知識材料を瞬時に活用するために、検索強化世代に依存している。
本稿では,知識ベースを含む下流タスクへの効率的な適応を目的としたKBAlignを提案する。
提案手法は,Q&Aペアやリビジョン提案などの自己注釈付きデータを用いて反復学習を行い,モデルが知識内容を効率的に把握できるようにする。
論文 参考訳(メタデータ) (2024-11-22T08:21:03Z) - Learn while Unlearn: An Iterative Unlearning Framework for Generative Language Models [52.03511469562013]
3つのコアコンポーネントで構成されるICU(Iterative Contrastive Unlearning)フレームワークを紹介する。
知識未学習誘導モジュールは、未学習の損失を使用して、特定の知識を除去するためにターゲットとする。
Contrastive Learning Enhancementモジュールは、純粋な未学習の目標に対してモデルの表現力を保持する。
イテレーティブ・アンラーニング・リファインメントモジュールは、進行中の評価と更新を通じて、アンラーニングプロセスを動的に調整する。
論文 参考訳(メタデータ) (2024-07-25T07:09:35Z) - Employing Layerwised Unsupervised Learning to Lessen Data and Loss Requirements in Forward-Forward Algorithms [1.0514231683620516]
Forward-Forwardアルゴリズムは、フォワードパスのみを通してディープラーニングモデルを訓練する。
バックプロパゲーションを置き換えるために,教師なしフォワードアルゴリズムを提案する。
安定した学習を導き、さまざまなデータセットやタスクで汎用的な利用を可能にします。
論文 参考訳(メタデータ) (2024-04-23T01:49:12Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Augmenting Unsupervised Reinforcement Learning with Self-Reference [63.68018737038331]
人間は、新しいタスクを学ぶ際に、過去の経験を明確に表現する能力を持っている。
本稿では,歴史情報を活用するためのアドオンモジュールとして,自己参照(SR)アプローチを提案する。
提案手法は,非教師付き強化学習ベンチマークにおけるIQM(Interquartile Mean)性能と最適ギャップ削減の両面から,最先端の成果を実現する。
論文 参考訳(メタデータ) (2023-11-16T09:07:34Z) - Reinforcement Learning from Diverse Human Preferences [68.4294547285359]
本稿では,人選好ラベルをクラウドソーシングし,多様な嗜好から学習する手法を開発した。
提案手法はDMcontrolとMeta-worldの様々なタスクでテストされる。
多様なフィードバックから学ぶと、既存の好みベースのRLアルゴリズムよりも一貫性があり、大幅に改善されている。
論文 参考訳(メタデータ) (2023-01-27T15:18:54Z) - Reward Uncertainty for Exploration in Preference-based Reinforcement
Learning [88.34958680436552]
好みに基づく強化学習アルゴリズムを対象とした探索手法を提案する。
我々の基本的な考え方は、学習した報酬に基づいて、斬新さを測定することによって、本質的な報酬を設計することである。
実験により、学習報酬の不確実性からの探索ボーナスは、好みに基づくRLアルゴリズムのフィードバック効率とサンプル効率の両方を改善することが示された。
論文 参考訳(メタデータ) (2022-05-24T23:22:10Z) - Rethinking Learning Dynamics in RL using Adversarial Networks [79.56118674435844]
本稿では,スキル埋め込み空間を通じてパラメータ化された,密接に関連するスキルの強化学習のための学習機構を提案する。
本研究の主な貢献は、エントロピー規則化政策勾配定式化の助けを借りて、強化学習のための敵の訓練体制を定式化することである。
論文 参考訳(メタデータ) (2022-01-27T19:51:09Z) - Prioritized Experience-based Reinforcement Learning with Human Guidance:
Methdology and Application to Autonomous Driving [2.5895890901896124]
強化学習は、最適化と制御問題を解決するために、巧妙な定義と卓越した計算努力を必要とする。
本稿では,人間指導に基づく総合的な強化学習フレームワークを構築した。
強化学習アルゴリズムの効率性と性能を高めるために,人間の指導に適応する新たな優先体験再生機構を提案する。
論文 参考訳(メタデータ) (2021-09-26T07:19:26Z) - Self-Imitation Advantage Learning [43.8107780378031]
自己模倣学習は、期待以上のリターンのアクションを奨励する強化学習方法です。
本稿では,ベルマン最適性演算子を改変したオフポリシーRLの自己模倣学習の新たな一般化を提案する。
論文 参考訳(メタデータ) (2020-12-22T13:21:50Z) - Recall and Learn: Fine-tuning Deep Pretrained Language Models with Less
Forgetting [66.45372974713189]
本稿では,マルチタスク学習の概念を取り入れたリコール・アンド・ラーニング機構を提案し,事前学習タスクと下流タスクを共同で学習する。
実験により,本手法はGLUEベンチマークの最先端性能を実現することが示された。
我々はオープンソースのRecAdamを提供し、提案されたメカニズムをAdamに統合し、NLPコミュニティを施設化する。
論文 参考訳(メタデータ) (2020-04-27T08:59:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。