論文の概要: What makes useful auxiliary tasks in reinforcement learning:
investigating the effect of the target policy
- arxiv url: http://arxiv.org/abs/2204.00565v1
- Date: Fri, 1 Apr 2022 16:47:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-04 13:55:57.382167
- Title: What makes useful auxiliary tasks in reinforcement learning:
investigating the effect of the target policy
- Title(参考訳): 強化学習における補助的タスクの意義--目標政策の効果について
- Authors: Banafsheh Rafiee, Jun Jin, Jun Luo, Adam White
- Abstract要約: 一般値関数として定式化された補助的タスクの有用性に対する目標ポリシの効果について検討する。
欲張りの政策は、他の政策に比べて改善率が向上するのだろうか?
実験の結果,1)欲求政策の補助的課題は有用である傾向にあり,2)一様無作為政策を含むほとんどの政策は,基準よりも改善する傾向にあることがわかった。
- 参考スコア(独自算出の注目度): 12.89215489991155
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Auxiliary tasks have been argued to be useful for representation learning in
reinforcement learning. Although many auxiliary tasks have been empirically
shown to be effective for accelerating learning on the main task, it is not yet
clear what makes useful auxiliary tasks. Some of the most promising results are
on the pixel control, reward prediction, and the next state prediction
auxiliary tasks; however, the empirical results are mixed, showing substantial
improvements in some cases and marginal improvements in others. Careful
investigations of how auxiliary tasks help the learning of the main task is
necessary. In this paper, we take a step studying the effect of the target
policies on the usefulness of the auxiliary tasks formulated as general value
functions. General value functions consist of three core elements: 1) policy 2)
cumulant 3) continuation function. Our focus on the role of the target policy
of the auxiliary tasks is motivated by the fact that the target policy
determines the behavior about which the agent wants to make a prediction and
the state-action distribution that the agent is trained on, which further
affects the main task learning. Our study provides insights about questions
such as: Does a greedy policy result in bigger improvement gains compared to
other policies? Is it best to set the auxiliary task policy to be the same as
the main task policy? Does the choice of the target policy have a substantial
effect on the achieved performance gain or simple strategies for setting the
policy, such as using a uniformly random policy, work as well? Our empirical
results suggest that: 1) Auxiliary tasks with the greedy policy tend to be
useful. 2) Most policies, including a uniformly random policy, tend to improve
over the baseline. 3) Surprisingly, the main task policy tends to be less
useful compared to other policies.
- Abstract(参考訳): 補助タスクは強化学習における表現学習に有用であると論じられている。
多くの補助タスクがメインタスクの学習を加速するのに有効であることが実証的に示されているが、何が補助タスクに役に立つのかはまだ明らかではない。
最も有望な結果のいくつかはピクセル制御、報酬予測、そして次の状態予測補助タスクである。
補助的なタスクがメインタスクの学習にどのように役立つか、慎重な調査が必要である。
本稿では,汎用値関数として定式化された補助的タスクの有用性に対する目標ポリシの効果について検討する。
一般値関数は3つの中核要素から構成される。
1)政策
2)累積体
3)継続機能。
本研究は, エージェントが予測を行う行動と, エージェントが指導する状態-行動分布が, メインタスク学習にさらに影響を及ぼすという事実から, 補助タスクの目標方針の役割に焦点が当てられている。
欲張りの政策は、他の政策に比べて改善率が向上するのだろうか?
補助タスクポリシーをメインタスクポリシーと同じものにするのが最善か?
目標ポリシーの選択は、達成したパフォーマンス向上や、均一にランダムなポリシーを使用するなど、ポリシーを設定するための単純な戦略にも大きな影響を与えるだろうか?
私たちの経験的な結果は
1)欲求政策の補助的タスクは有用である傾向にある。
2)一様無作為政策を含むほとんどの政策は基準よりも改善する傾向にある。
3) 意外なことに、メインタスクポリシーは他のポリシーに比べて実用性が低い傾向にある。
関連論文リスト
- Active Fine-Tuning of Generalist Policies [54.65568433408307]
AMF(Active Multi-task Fine-tuning)を提案する。
我々は,AMFの性能保証を規則性仮定で導き,複雑・高次元環境における実験的有効性を示す。
論文 参考訳(メタデータ) (2024-10-07T13:26:36Z) - Policy composition in reinforcement learning via multi-objective policy
optimization [44.23907077052036]
教師の政策が学習のスピードアップ,特に報酬形成の欠如に有効であることを示す。
ヒューマノイド領域では、エージェントに教師の選択を制御する能力も備えている。
論文 参考訳(メタデータ) (2023-08-29T17:50:27Z) - Residual Q-Learning: Offline and Online Policy Customization without
Value [53.47311900133564]
イミテーション・ラーニング(Imitation Learning, IL)は、実演から模倣行動を学ぶためのフレームワークである。
政策カスタマイズと呼ばれる新しい問題設定を定式化する。
本稿では,従来の政策を活かして定式化MDPを解くための新しいフレームワークであるResidual Q-learningを提案する。
論文 参考訳(メタデータ) (2023-06-15T22:01:19Z) - Constructing a Good Behavior Basis for Transfer using Generalized Policy
Updates [63.58053355357644]
そこで我々は,優れた政策集合を学習する問題を考察し,組み合わせることで,目に見えない多種多様な強化学習タスクを解くことができることを示した。
理論的には、独立したポリシーのセットと呼ぶ、特定の多様なポリシーのセットにアクセスできることによって、ハイレベルなパフォーマンスを即時に達成できることが示される。
論文 参考訳(メタデータ) (2021-12-30T12:20:46Z) - Attaining Interpretability in Reinforcement Learning via Hierarchical
Primitive Composition [3.1078562713129765]
本稿では,従来の課題を階層構造に分解して軽減する階層型強化学習アルゴリズムを提案する。
提案手法は,6自由度マニピュレータを用いてピック・アンド・プレイス・タスクを解くことで,実際にどのように適用できるかを示す。
論文 参考訳(メタデータ) (2021-10-05T05:59:31Z) - Goal-Conditioned Reinforcement Learning with Imagined Subgoals [89.67840168694259]
我々は、複雑なタスクの学習を容易にするために、想像上のサブゴールをポリシー学習に組み込むことを提案する。
想像上のサブゴールは、政策と批判を同時に訓練する独立したハイレベルな政策によって予測される。
複雑なロボットナビゲーションと操作タスクに対する我々のアプローチを評価し、既存の手法よりも大きなマージンで優れていることを示す。
論文 参考訳(メタデータ) (2021-07-01T15:30:59Z) - DisCo RL: Distribution-Conditioned Reinforcement Learning for
General-Purpose Policies [116.12670064963625]
分散条件強化学習(DisCo RL)と呼ばれるオフポリシーアルゴリズムを開発し、コンテキストポリシーを効率的に学習します。
DisCo RLをさまざまなロボット操作タスクで評価し、新しい目標分布への一般化を必要とするタスクの以前の方法を大幅に上回っていることを発見しました。
論文 参考訳(メタデータ) (2021-04-23T16:51:58Z) - Coverage as a Principle for Discovering Transferable Behavior in
Reinforcement Learning [16.12658895065585]
私たちは、表現だけでは挑戦的な領域での効率的な転送には不十分であり、行動を通じて知識を伝達する方法を探ります。
事前訓練された政策の行動は、手作業(探索)の問題解決や、問題(探索)の解決に有用なデータ収集に利用することができる。
論文 参考訳(メタデータ) (2021-02-24T16:51:02Z) - Automatic Curriculum Learning through Value Disagreement [95.19299356298876]
新しい未解決タスクを継続的に解決することが、多様な行動を学ぶための鍵です。
エージェントが複数の目標を達成する必要があるマルチタスク領域では、トレーニング目標の選択はサンプル効率に大きな影響を与える可能性がある。
そこで我々は,エージェントが解決すべき目標のための自動カリキュラムを作成することを提案する。
提案手法は,13のマルチゴールロボットタスクと5つのナビゲーションタスクにまたがって評価し,現在の最先端手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2020-06-17T03:58:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。