論文の概要: Efficient Two-Phase Offline Deep Reinforcement Learning from Preference
Feedback
- arxiv url: http://arxiv.org/abs/2401.00330v1
- Date: Sat, 30 Dec 2023 21:37:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-03 17:54:46.561055
- Title: Efficient Two-Phase Offline Deep Reinforcement Learning from Preference
Feedback
- Title(参考訳): 選好フィードバックによる2相オフライン深層強化学習の効率化
- Authors: Yinglun Xu, Gagandeep Singh
- Abstract要約: オフラインPBRL設定における二相学習の適用には課題がある。
本稿では,アクションクリッピングによる行動規則化下での2段階の学習手法を提案する。
本手法は,第2学習段階における状態行動を無視して,より高い学習効率を実現する。
- 参考スコア(独自算出の注目度): 5.683832910692926
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we consider the offline preference-based reinforcement learning
problem. We focus on the two-phase learning approach that is prevalent in
previous reinforcement learning from human preference works. We find a
challenge in applying two-phase learning in the offline PBRL setting that the
learned utility model can be too hard for the learning agent to optimize during
the second learning phase. To overcome the challenge, we propose a two-phasing
learning approach under behavior regularization through action clipping. The
insight is that the state-actions which are poorly covered by the dataset can
only provide limited information and increase the complexity of the problem in
the second learning phase. Our method ignores such state-actions during the
second learning phase to achieve higher learning efficiency. We empirically
verify that our method has high learning efficiency on a variety of datasets in
robotic control environments.
- Abstract(参考訳): 本研究では,オフライン・プレファレンスに基づく強化学習問題を考える。
我々は、人間の嗜好から以前の強化学習でよく見られる2相学習アプローチに焦点を当てる。
オフラインpbrl設定に2段階学習を適用すると,学習ユーティリティモデルが難しすぎるため,学習エージェントが2段階学習時に最適化することが困難になる。
この課題を克服するために,アクションクリッピングによる行動規則化下での2段階学習手法を提案する。
その見識は、データセットでカバーされていない状態アクションは、限られた情報しか提供せず、第2の学習フェーズで問題の複雑さが増すことである。
本手法は,第2学習段階における状態行動を無視して高い学習効率を実現する。
我々は,ロボット制御環境における各種データセットの学習効率を実証的に検証した。
関連論文リスト
- Towards Robust Knowledge Unlearning: An Adversarial Framework for Assessing and Improving Unlearning Robustness in Large Language Models [19.015202590038996]
我々は、未学習モデルを攻撃する動的かつ自動化されたフレームワークであるDynamic Unlearning Attack (DUA)を設計する。
学習過程の堅牢性を効果的に向上する普遍的な枠組みであるLatent Adrial Unlearning (LAU)を提案する。
LAUは学習効率を53.5%以上改善し、近隣の知識の11.6%以下に減らし、モデルの一般的な能力にはほとんど影響を与えないことを示した。
論文 参考訳(メタデータ) (2024-08-20T09:36:04Z) - Imitation Game: A Model-based and Imitation Learning Deep Reinforcement Learning Hybrid [39.58317527488534]
本稿では,モデルに基づくDeep Reinforcement Learningと模倣学習を組み合わせたハイブリッドエージェントアーキテクチャへの取り組みについて述べる。
本稿では,モデルに基づくDeep Reinforcement Learningと模倣学習を組み合わせたハイブリッドエージェントアーキテクチャへの取り組みについて述べる。
論文 参考訳(メタデータ) (2024-04-02T09:55:30Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Efficient Performance Bounds for Primal-Dual Reinforcement Learning from
Demonstrations [1.0609815608017066]
本稿では,コスト関数の不明な大規模マルコフ決定プロセスについて考察し,限られた専門家による実証から政策を学習する問題に対処する。
既存の逆強化学習法には強力な理論的保証があるが、計算上は高価である。
ラグランジアン双対性を利用して理論と実践のギャップを埋める新しい双線型サドルポイントフレームワークを導入する。
論文 参考訳(メタデータ) (2021-12-28T05:47:24Z) - Rethinking Supervised Learning and Reinforcement Learning in
Task-Oriented Dialogue Systems [58.724629408229205]
本稿では、従来の教師あり学習とシミュレータなしの逆学習法を用いて、最先端のRL法に匹敵する性能を実現する方法を示す。
我々の主な目的は、教師あり学習で強化学習に勝ることではなく、タスク指向対話システムの最適化における強化学習と教師あり学習の役割を再考する価値を示すことである。
論文 参考訳(メタデータ) (2020-09-21T12:04:18Z) - Bridging the Imitation Gap by Adaptive Insubordination [88.35564081175642]
教官が特権情報にアクセスして意思決定を行う場合、この情報は模倣学習中に疎外されることを示す。
本稿では,このギャップに対処するため,適応的不規則化(ADVISOR)を提案する。
ADVISORは、トレーニング中の模倣と報酬に基づく強化学習損失を動的に重み付け、模倣と探索をオンザフライで切り替えることを可能にする。
論文 参考訳(メタデータ) (2020-07-23T17:59:57Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z) - Online Constrained Model-based Reinforcement Learning [13.362455603441552]
主要な要件は、限られた時間とリソース予算内に留まりながら、継続的な状態とアクションスペースを扱う能力である。
本稿では,ガウス過程回帰と回帰水平制御を組み合わせたモデルに基づくアプローチを提案する。
本研究では,自動走行作業におけるオンライン学習のメリットを実証する。
論文 参考訳(メタデータ) (2020-04-07T15:51:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。