論文の概要: On the Value of Myopic Behavior in Policy Reuse
- arxiv url: http://arxiv.org/abs/2305.17623v1
- Date: Sun, 28 May 2023 03:59:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-30 17:45:35.085609
- Title: On the Value of Myopic Behavior in Policy Reuse
- Title(参考訳): 政策再利用における筋覚行動の価値について
- Authors: Kang Xu, Chenjia Bai, Shuang Qiu, Haoran He, Bin Zhao, Zhen Wang, Wei
Li, Xuelong Li
- Abstract要約: 未知のシナリオで学習戦略を活用することは、人間の知性の基本である。
本稿では,Selectivemyopic bEhavior Control(SMEC)というフレームワークを提案する。
SMECは、事前ポリシーの共有可能な短期的行動とタスクポリシーの長期的行動を適応的に集約し、協調的な決定につながる。
- 参考スコア(独自算出の注目度): 67.37788288093299
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Leveraging learned strategies in unfamiliar scenarios is fundamental to human
intelligence. In reinforcement learning, rationally reusing the policies
acquired from other tasks or human experts is critical for tackling problems
that are difficult to learn from scratch. In this work, we present a framework
called Selective Myopic bEhavior Control~(SMEC), which results from the insight
that the short-term behaviors of prior policies are sharable across tasks. By
evaluating the behaviors of prior policies via a hybrid value function
architecture, SMEC adaptively aggregates the sharable short-term behaviors of
prior policies and the long-term behaviors of the task policy, leading to
coordinated decisions. Empirical results on a collection of manipulation and
locomotion tasks demonstrate that SMEC outperforms existing methods, and
validate the ability of SMEC to leverage related prior policies.
- Abstract(参考訳): 未知のシナリオで学習戦略を活用することは、人間の知性の基本である。
強化学習では、他のタスクや人間の専門家から得られたポリシーを合理的に再利用することが、スクラッチから学ぶのが難しい問題に取り組む上で重要である。
本研究では,Selectivemyopic bEhavior Control~(SMEC)というフレームワークを提案する。
SMECは、ハイブリッドバリュー関数アーキテクチャによる事前ポリシーの動作を評価することにより、事前ポリシーの共有可能な短期的行動とタスクポリシーの長期的挙動を適応的に集約し、協調的な決定をもたらす。
操作と移動タスクのコレクションに関する実証的な結果は、SMECが既存の手法よりも優れており、SMECが関連する事前ポリシーを活用する能力を検証することを示している。
関連論文リスト
- Logarithmic Smoothing for Pessimistic Off-Policy Evaluation, Selection and Learning [7.085987593010675]
本研究は,文脈的包帯問題のオフライン定式化について検討する。
目標は、行動ポリシーの下で収集された過去のインタラクションを活用して、新しい、より優れたパフォーマンスのポリシーを評価し、選択し、学習することである。
重要度重み付けリスク推定器の幅広いクラスに対して,新しい完全経験的濃度境界を導入する。
論文 参考訳(メタデータ) (2024-05-23T09:07:27Z) - Offline Reinforcement Learning with On-Policy Q-Function Regularization [57.09073809901382]
ヒストリーデータセットと所望のポリシー間の分布シフトによって引き起こされる(潜在的に破滅的な)外挿誤差に対処する。
正規化により推定Q-関数を利用する2つのアルゴリズムを提案し、D4RLベンチマークに強い性能を示すことを示す。
論文 参考訳(メタデータ) (2023-07-25T21:38:08Z) - Fast Model-based Policy Search for Universal Policy Networks [45.44896435487879]
エージェントの振る舞いを新しい環境に適応させることは、物理学に基づく強化学習の主要な焦点の1つとなっている。
本稿では,以前に見つからなかった環境に移行した場合のポリシーの性能を推定する,ガウス過程に基づく事前学習手法を提案する。
本研究は,ベイズ最適化に基づく政策探索プロセスと先行して統合し,普遍的な政策ネットワークから最も適切な政策を識別する効率を向上させる。
論文 参考訳(メタデータ) (2022-02-11T18:08:02Z) - Privacy-Constrained Policies via Mutual Information Regularized Policy Gradients [54.98496284653234]
報酬を最大化しつつ、行動を通じて特定の機密状態変数の開示を最小限に抑えながら、報酬を最大化する政策を訓練する課題を考察する。
本稿では, 感性状態と行動の相互情報に基づく正則化器を導入することで, この問題を解決する。
プライバシ制約のあるポリシーを最適化するためのモデルベース推定器を開発した。
論文 参考訳(メタデータ) (2020-12-30T03:22:35Z) - Continuous Action Reinforcement Learning from a Mixture of Interpretable
Experts [35.80418547105711]
本稿では,複雑な関数近似を内部値予測に保持するポリシスキームを提案する。
この論文の主な技術的貢献は、この非微分不可能な状態選択手順によってもたらされた課題に対処することである。
論文 参考訳(メタデータ) (2020-06-10T16:02:08Z) - Learning Adaptive Exploration Strategies in Dynamic Environments Through
Informed Policy Regularization [100.72335252255989]
本研究では,動的環境に効果的に適応する探索探索探索戦略の課題について検討する。
本稿では,各タスクにおける報酬を最大化するために訓練された情報ポリシを用いて,RNNベースのポリシーのトレーニングを規則化する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-06T16:14:48Z) - Evolutionary Stochastic Policy Distillation [139.54121001226451]
本稿では,GCRS課題を解決するための進化的政策蒸留法(ESPD)を提案する。
ESPDは、政策蒸留(PD)技術により、ターゲットポリシーを一連の変種から学習することを可能にする
MuJoCo制御系に基づく実験により,提案手法の学習効率が向上した。
論文 参考訳(メタデータ) (2020-04-27T16:19:25Z) - Learning Goal-oriented Dialogue Policy with Opposite Agent Awareness [116.804536884437]
本稿では,目標指向対話における政策学習のための逆行動認識フレームワークを提案する。
我々は、その行動から相手エージェントの方針を推定し、この推定を用いてターゲットエージェントを対象ポリシーの一部として関連づけて改善する。
論文 参考訳(メタデータ) (2020-04-21T03:13:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。