Fugu-MT 論文翻訳(概要): Efficient Two-Phase Offline Deep Reinforcement Learning from Preference Feedback

論文の概要: Efficient Two-Phase Offline Deep Reinforcement Learning from Preference Feedback

arxiv url: http://arxiv.org/abs/2401.00330v1
Date: Sat, 30 Dec 2023 21:37:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-03 17:54:46.561055
Title: Efficient Two-Phase Offline Deep Reinforcement Learning from Preference Feedback
Title（参考訳）: 選好フィードバックによる2相オフライン深層強化学習の効率化
Authors: Yinglun Xu, Gagandeep Singh
Abstract要約: オフラインPBRL設定における二相学習の適用には課題がある。本稿では,アクションクリッピングによる行動規則化下での2段階の学習手法を提案する。本手法は,第2学習段階における状態行動を無視して,より高い学習効率を実現する。
参考スコア（独自算出の注目度）: 5.683832910692926
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this work, we consider the offline preference-based reinforcement learning problem. We focus on the two-phase learning approach that is prevalent in previous reinforcement learning from human preference works. We find a challenge in applying two-phase learning in the offline PBRL setting that the learned utility model can be too hard for the learning agent to optimize during the second learning phase. To overcome the challenge, we propose a two-phasing learning approach under behavior regularization through action clipping. The insight is that the state-actions which are poorly covered by the dataset can only provide limited information and increase the complexity of the problem in the second learning phase. Our method ignores such state-actions during the second learning phase to achieve higher learning efficiency. We empirically verify that our method has high learning efficiency on a variety of datasets in robotic control environments.
Abstract（参考訳）: 本研究では,オフライン・プレファレンスに基づく強化学習問題を考える。我々は、人間の嗜好から以前の強化学習でよく見られる2相学習アプローチに焦点を当てる。オフラインpbrl設定に2段階学習を適用すると,学習ユーティリティモデルが難しすぎるため,学習エージェントが2段階学習時に最適化することが困難になる。この課題を克服するために,アクションクリッピングによる行動規則化下での2段階学習手法を提案する。その見識は、データセットでカバーされていない状態アクションは、限られた情報しか提供せず、第2の学習フェーズで問題の複雑さが増すことである。本手法は,第2学習段階における状態行動を無視して高い学習効率を実現する。我々は,ロボット制御環境における各種データセットの学習効率を実証的に検証した。

関連論文リスト

Online inductive learning from answer sets for efficient reinforcement learning exploration [52.03682298194168]
エージェントポリシーの近似を説明可能な近似を表す論理規則の集合を学習するために,帰納的な解集合プログラムの学習を利用する。次に、学習ルールに基づいて回答セット推論を行い、次のバッチで学習エージェントの探索をガイドします。本手法は,初回トレーニングにおいても,エージェントが達成した割引リターンを著しく向上させる。
論文参考訳（メタデータ） (2025-01-13T16:13:22Z)
Towards Robust Knowledge Unlearning: An Adversarial Framework for Assessing and Improving Unlearning Robustness in Large Language Models [19.015202590038996]
我々は、未学習モデルを攻撃する動的かつ自動化されたフレームワークであるDynamic Unlearning Attack (DUA)を設計する。学習過程の堅牢性を効果的に向上する普遍的な枠組みであるLatent Adrial Unlearning (LAU)を提案する。 LAUは学習効率を53.5%以上改善し、近隣の知識の11.6%以下に減らし、モデルの一般的な能力にはほとんど影響を与えないことを示した。
論文参考訳（メタデータ） (2024-08-20T09:36:04Z)
Imitation Game: A Model-based and Imitation Learning Deep Reinforcement Learning Hybrid [39.58317527488534]
本稿では,モデルに基づくDeep Reinforcement Learningと模倣学習を組み合わせたハイブリッドエージェントアーキテクチャへの取り組みについて述べる。本稿では,モデルに基づくDeep Reinforcement Learningと模倣学習を組み合わせたハイブリッドエージェントアーキテクチャへの取り組みについて述べる。
論文参考訳（メタデータ） (2024-04-02T09:55:30Z)
RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文参考訳（メタデータ） (2023-11-21T21:05:21Z)
Action-Quantized Offline Reinforcement Learning for Robotic Skill Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。本稿では,アクション量子化のための適応型スキームを提案する。 IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文参考訳（メタデータ） (2023-10-18T06:07:10Z)
Efficient Performance Bounds for Primal-Dual Reinforcement Learning from Demonstrations [1.0609815608017066]
本稿では,コスト関数の不明な大規模マルコフ決定プロセスについて考察し,限られた専門家による実証から政策を学習する問題に対処する。既存の逆強化学習法には強力な理論的保証があるが、計算上は高価である。ラグランジアン双対性を利用して理論と実践のギャップを埋める新しい双線型サドルポイントフレームワークを導入する。
論文参考訳（メタデータ） (2021-12-28T05:47:24Z)
Rethinking Supervised Learning and Reinforcement Learning in Task-Oriented Dialogue Systems [58.724629408229205]
本稿では、従来の教師あり学習とシミュレータなしの逆学習法を用いて、最先端のRL法に匹敵する性能を実現する方法を示す。我々の主な目的は、教師あり学習で強化学習に勝ることではなく、タスク指向対話システムの最適化における強化学習と教師あり学習の役割を再考する価値を示すことである。
論文参考訳（メタデータ） (2020-09-21T12:04:18Z)
Bridging the Imitation Gap by Adaptive Insubordination [88.35564081175642]
教官が特権情報にアクセスして意思決定を行う場合、この情報は模倣学習中に疎外されることを示す。本稿では,このギャップに対処するため,適応的不規則化(ADVISOR)を提案する。 ADVISORは、トレーニング中の模倣と報酬に基づく強化学習損失を動的に重み付け、模倣と探索をオンザフライで切り替えることを可能にする。
論文参考訳（メタデータ） (2020-07-23T17:59:57Z)
SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。 SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文参考訳（メタデータ） (2020-07-09T17:08:44Z)
Online Constrained Model-based Reinforcement Learning [13.362455603441552]
主要な要件は、限られた時間とリソース予算内に留まりながら、継続的な状態とアクションスペースを扱う能力である。本稿では,ガウス過程回帰と回帰水平制御を組み合わせたモデルに基づくアプローチを提案する。本研究では,自動走行作業におけるオンライン学習のメリットを実証する。
論文参考訳（メタデータ） (2020-04-07T15:51:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。