論文の概要: Cross apprenticeship learning framework: Properties and solution
approaches
- arxiv url: http://arxiv.org/abs/2209.02424v1
- Date: Tue, 6 Sep 2022 11:45:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-07 15:43:32.416044
- Title: Cross apprenticeship learning framework: Properties and solution
approaches
- Title(参考訳): クロストレインシップ学習フレームワーク:特性とソリューションアプローチ
- Authors: Ashwin Aravind and Debasish Chatterjee and Ashish Cherukuri
- Abstract要約: この作業は、各環境に最適なポリシーを求めると同時に、すべてのポリシーが互いに近くにあることを保証する最適化問題から成り立っている。
問題は凸ではないので、凸外近似を提供する。
- 参考スコア(独自算出の注目度): 0.880899367147235
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Apprenticeship learning is a framework in which an agent learns a policy to
perform a given task in an environment using example trajectories provided by
an expert. In the real world, one might have access to expert trajectories in
different environments where the system dynamics is different while the
learning task is the same. For such scenarios, two types of learning objectives
can be defined. One where the learned policy performs very well in one specific
environment and another when it performs well across all environments. To
balance these two objectives in a principled way, our work presents the cross
apprenticeship learning (CAL) framework. This consists of an optimization
problem where an optimal policy for each environment is sought while ensuring
that all policies remain close to each other. This nearness is facilitated by
one tuning parameter in the optimization problem. We derive properties of the
optimizers of the problem as the tuning parameter varies. Since the problem is
nonconvex, we provide a convex outer approximation. Finally, we demonstrate the
attributes of our framework in the context of a navigation task in a windy
gridworld environment.
- Abstract(参考訳): 適応学習(英語: Apprenticeship learning)とは、エージェントが専門家によって提供される例軌跡を用いて、特定のタスクを実行するためのポリシーを学習するフレームワークである。
現実の世界では、学習タスクが同じである間、システムのダイナミクスが異なる異なる環境で専門家の軌跡にアクセスすることができるかもしれません。
このようなシナリオでは、2種類の学習目標が定義できる。
学習されたポリシーは、ある特定の環境において、そして別の環境において、すべての環境において、うまく機能する。
これら2つの目標を原則的にバランスさせるため、本研究はcross apprenticeship learning (cal)フレームワークを提案する。
これは、各環境に最適なポリシーを求めると同時に、すべてのポリシーが互いに近いままであることを保証する最適化問題からなる。
この近さは最適化問題において1つのチューニングパラメータによって促進される。
チューニングパラメータが変化するので,問題のオプティマイザの特性を導出する。
問題は非凸なので、凸外近似が得られる。
最後に,風の強いグリッドワールド環境におけるナビゲーションタスクのコンテキストにおけるフレームワークの属性を示す。
関連論文リスト
- Efficient Imitation Learning with Conservative World Models [54.52140201148341]
報酬機能のない専門家によるデモンストレーションから政策学習の課題に取り組む。
純粋な強化学習ではなく、微調整問題として模倣学習を再構成する。
論文 参考訳(メタデータ) (2024-05-21T20:53:18Z) - Intrinsically Motivated Hierarchical Policy Learning in Multi-objective
Markov Decision Processes [15.50007257943931]
本稿では,この制限に対処するために,本質的な2相強化学習法を提案する。
提案手法は, 動的ロボット環境において, 最先端の多目的強化法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-08-18T02:10:45Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - Multi-Task Off-Policy Learning from Bandit Feedback [54.96011624223482]
本稿では,階層型非政治最適化アルゴリズム (HierOPO) を提案する。
学習方針の準最適性にタスクごとのバウンダリを証明し、階層モデルを使用しないよりも明確な改善を示す。
我々の理論的および実証的な結果は、各タスクを個別に解くよりも、階層を使うことの明確な利点を示している。
論文 参考訳(メタデータ) (2022-12-09T08:26:27Z) - Environment Optimization for Multi-Agent Navigation [11.473177123332281]
本研究の目的は,システムレベルの最適化問題において,環境を決定変数として考えることである。
完全性を確保しつつ環境が変化しうる条件を, 形式的証明を通じて示す。
幅広い実装シナリオに対応するため、オンラインとオフラインの両方の最適化と、離散環境と連続環境の両方の表現を含む。
論文 参考訳(メタデータ) (2022-09-22T19:22:16Z) - Continual Predictive Learning from Videos [100.27176974654559]
本稿では,ビデオ予測の文脈において,新たな連続学習問題について検討する。
本稿では,連続予測学習(Continuousal predictive Learning, CPL)アプローチを提案する。
我々はRoboNetとKTHに基づく2つの新しいベンチマークを構築し、異なるタスクが異なる物理ロボット環境や人間の行動に対応するようにした。
論文 参考訳(メタデータ) (2022-04-12T08:32:26Z) - Unsupervised Reinforcement Learning in Multiple Environments [37.5349071806395]
複数の環境のクラスにおける教師なし強化学習の課題に対処する。
本稿では,クラス間のインタラクションを通じて導入対象を最適化するために,ポリシー勾配アルゴリズムである$alpha$MEPOLを提案する。
事前学習した探索戦略から,強化学習が大きなメリットがあることが示唆された。
論文 参考訳(メタデータ) (2021-12-16T09:54:37Z) - One Solution is Not All You Need: Few-Shot Extrapolation via Structured
MaxEnt RL [142.36621929739707]
課題を達成するために多様な行動を学ぶことは、様々な環境に一般化する行動を引き起こす可能性があることを示す。
トレーニング中の1つの環境でタスクの複数のソリューションを識別することにより、我々のアプローチは新たな状況に一般化できる。
論文 参考訳(メタデータ) (2020-10-27T17:41:57Z) - Learning Adaptive Exploration Strategies in Dynamic Environments Through
Informed Policy Regularization [100.72335252255989]
本研究では,動的環境に効果的に適応する探索探索探索戦略の課題について検討する。
本稿では,各タスクにおける報酬を最大化するために訓練された情報ポリシを用いて,RNNベースのポリシーのトレーニングを規則化する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-06T16:14:48Z) - Multi-Task Reinforcement Learning with Soft Modularization [25.724764855681137]
マルチタスク学習は強化学習において非常に難しい問題である。
この最適化問題を緩和するために,ポリシー表現に明示的なモジュール化手法を導入する。
提案手法は,強いベースライン上でのサンプリング効率と性能を,大きなマージンで向上することを示す。
論文 参考訳(メタデータ) (2020-03-30T17:47:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。