論文の概要: Residual Q-Learning: Offline and Online Policy Customization without
Value
- arxiv url: http://arxiv.org/abs/2306.09526v3
- Date: Mon, 15 Jan 2024 04:37:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 02:34:59.695392
- Title: Residual Q-Learning: Offline and Online Policy Customization without
Value
- Title(参考訳): 残留q-learning: 価値のないオフラインおよびオンラインポリシのカスタマイズ
- Authors: Chenran Li, Chen Tang, Haruki Nishimura, Jean Mercat, Masayoshi
Tomizuka, Wei Zhan
- Abstract要約: イミテーション・ラーニング(Imitation Learning, IL)は、実演から模倣行動を学ぶためのフレームワークである。
政策カスタマイズと呼ばれる新しい問題設定を定式化する。
本稿では,従来の政策を活かして定式化MDPを解くための新しいフレームワークであるResidual Q-learningを提案する。
- 参考スコア(独自算出の注目度): 53.47311900133564
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Imitation Learning (IL) is a widely used framework for learning imitative
behavior from demonstrations. It is especially appealing for solving complex
real-world tasks where handcrafting reward function is difficult, or when the
goal is to mimic human expert behavior. However, the learned imitative policy
can only follow the behavior in the demonstration. When applying the imitative
policy, we may need to customize the policy behavior to meet different
requirements coming from diverse downstream tasks. Meanwhile, we still want the
customized policy to maintain its imitative nature. To this end, we formulate a
new problem setting called policy customization. It defines the learning task
as training a policy that inherits the characteristics of the prior policy
while satisfying some additional requirements imposed by a target downstream
task. We propose a novel and principled approach to interpret and determine the
trade-off between the two task objectives. Specifically, we formulate the
customization problem as a Markov Decision Process (MDP) with a reward function
that combines 1) the inherent reward of the demonstration; and 2) the add-on
reward specified by the downstream task. We propose a novel framework, Residual
Q-learning, which can solve the formulated MDP by leveraging the prior policy
without knowing the inherent reward or value function of the prior policy. We
derive a family of residual Q-learning algorithms that can realize offline and
online policy customization, and show that the proposed algorithms can
effectively accomplish policy customization tasks in various environments. Demo
videos and code are available on our website:
https://sites.google.com/view/residualq-learning.
- Abstract(参考訳): 模倣学習(il)は、デモンストレーションから模倣行動を学ぶために広く使われているフレームワークである。
特に、手作り報酬関数の難しさや、その目的が人間の専門家の行動の模倣であるような複雑な現実世界のタスクの解決に魅力がある。
しかし、学習した模倣政策は、デモンストレーションの行動のみに従うことができる。
模倣ポリシーを適用する場合、さまざまな下流タスクから来るさまざまな要件を満たすためにポリシーの振る舞いをカスタマイズする必要があるかもしれません。
一方、我々はカスタマイズされたポリシーが模倣性を維持することを望んでいる。
この目的のために、ポリシーカスタマイズと呼ばれる新しい問題設定を定式化する。
学習タスクは、目標下流タスクによって課される追加要件を満たしながら、事前ポリシーの特徴を継承するポリシーを訓練するものとして定義する。
本稿では,2つの課題目標間のトレードオフを解釈・決定するための,新しい原則的アプローチを提案する。
具体的には、カスタマイズ問題をマルコフ決定過程(MDP)と組み合わせた報酬関数として定式化する。
1) 実演の本来の報酬,及び
2) ダウンストリームタスクが指定するアドオン報酬。
本稿では,従来の政策に固有の報酬や価値関数を知らずに事前政策を活用することで,MDPの定式化を図り得る新しい枠組みであるResidual Q-learningを提案する。
オフラインおよびオンラインのポリシーカスタマイズを実現するための残留Q-ラーニングアルゴリズムのファミリーを考案し,提案アルゴリズムが様々な環境におけるポリシーカスタマイズタスクを効果的に実現できることを示す。
デモビデオとコードは、私たちのWebサイト(https://sites.google.com/view/residualq-learning)で公開されている。
関連論文リスト
- Online Policy Distillation with Decision-Attention [23.807761525617384]
政策蒸留(PD)は、深い強化学習タスクを改善する効果的な方法となっている。
同一環境から多様な知識を学習できる異なる政策間の知識伝達について検討する。
意思決定を伴うオンライン政策蒸留(OPD)を提案する。
論文 参考訳(メタデータ) (2024-06-08T14:40:53Z) - On the Value of Myopic Behavior in Policy Reuse [67.37788288093299]
未知のシナリオで学習戦略を活用することは、人間の知性の基本である。
本稿では,Selectivemyopic bEhavior Control(SMEC)というフレームワークを提案する。
SMECは、事前ポリシーの共有可能な短期的行動とタスクポリシーの長期的行動を適応的に集約し、協調的な決定につながる。
論文 参考訳(メタデータ) (2023-05-28T03:59:37Z) - Optimistic Linear Support and Successor Features as a Basis for Optimal
Policy Transfer [7.970144204429356]
我々は、SFが凸被覆集合を形成するポリシーの集合を学習するために、最適化線形サポートアルゴリズムのSFベースの拡張を導入する。
この集合におけるポリシは、一般化されたポリシー改善を通じて組み合わせて、新しい線形表現可能なタスクに対して最適な振る舞いを構築することができることを示す。
論文 参考訳(メタデータ) (2022-06-22T19:00:08Z) - Planning to Practice: Efficient Online Fine-Tuning by Composing Goals in
Latent Space [76.46113138484947]
汎用ロボットは、現実世界の非構造環境において困難なタスクを完了するために、多様な行動レパートリーを必要とする。
この問題に対処するため、目標条件強化学習は、コマンド上の幅広いタスクの目標に到達可能なポリシーを取得することを目的としている。
本研究では,長期的課題に対する目標条件付き政策を実践的に訓練する手法であるPlanning to Practiceを提案する。
論文 参考訳(メタデータ) (2022-05-17T06:58:17Z) - Constructing a Good Behavior Basis for Transfer using Generalized Policy
Updates [63.58053355357644]
そこで我々は,優れた政策集合を学習する問題を考察し,組み合わせることで,目に見えない多種多様な強化学習タスクを解くことができることを示した。
理論的には、独立したポリシーのセットと呼ぶ、特定の多様なポリシーのセットにアクセスできることによって、ハイレベルなパフォーマンスを即時に達成できることが示される。
論文 参考訳(メタデータ) (2021-12-30T12:20:46Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z) - Goal-Conditioned Reinforcement Learning with Imagined Subgoals [89.67840168694259]
我々は、複雑なタスクの学習を容易にするために、想像上のサブゴールをポリシー学習に組み込むことを提案する。
想像上のサブゴールは、政策と批判を同時に訓練する独立したハイレベルな政策によって予測される。
複雑なロボットナビゲーションと操作タスクに対する我々のアプローチを評価し、既存の手法よりも大きなマージンで優れていることを示す。
論文 参考訳(メタデータ) (2021-07-01T15:30:59Z) - Learn Goal-Conditioned Policy with Intrinsic Motivation for Deep
Reinforcement Learning [9.014110264448371]
目的条件付き政策(GPIM)という新しい教師なし学習手法を提案する。
GPIMは抽象レベルポリシーと目標条件ポリシーの両方を共同で学習する。
提案したGPIM法の有効性と効率性を示す様々なロボットタスクの実験。
論文 参考訳(メタデータ) (2021-04-11T16:26:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。