論文の概要: Temporal Abstractions-Augmented Temporally Contrastive Learning: An
Alternative to the Laplacian in RL
- arxiv url: http://arxiv.org/abs/2203.11369v1
- Date: Mon, 21 Mar 2022 22:07:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-24 10:43:33.662234
- Title: Temporal Abstractions-Augmented Temporally Contrastive Learning: An
Alternative to the Laplacian in RL
- Title(参考訳): 時間的抽象化による時間的コントラスト学習:rlにおけるラプラシアンの代替
- Authors: Akram Erraqabi, Marlos C. Machado, Mingde Zhao, Sainbayar Sukhbaatar,
Alessandro Lazaric, Ludovic Denoyer, Yoshua Bengio
- Abstract要約: 強化学習において、ラプラシアングラフはタスク非依存の設定において貴重なツールであることが証明されている。
そこで本研究では,非一様優先度設定において,ラプラシアン表現の表現性および所望の性質を回復可能な代替手法を提案する。
非一様条件のラプラシアンの代替として成功し、連続的な制御環境に挑戦する。
- 参考スコア(独自算出の注目度): 140.12803111221206
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In reinforcement learning, the graph Laplacian has proved to be a valuable
tool in the task-agnostic setting, with applications ranging from skill
discovery to reward shaping. Recently, learning the Laplacian representation
has been framed as the optimization of a temporally-contrastive objective to
overcome its computational limitations in large (or continuous) state spaces.
However, this approach requires uniform access to all states in the state
space, overlooking the exploration problem that emerges during the
representation learning process. In this work, we propose an alternative method
that is able to recover, in a non-uniform-prior setting, the expressiveness and
the desired properties of the Laplacian representation. We do so by combining
the representation learning with a skill-based covering policy, which provides
a better training distribution to extend and refine the representation. We also
show that a simple augmentation of the representation objective with the
learned temporal abstractions improves dynamics-awareness and helps
exploration. We find that our method succeeds as an alternative to the
Laplacian in the non-uniform setting and scales to challenging continuous
control environments. Finally, even if our method is not optimized for skill
discovery, the learned skills can successfully solve difficult continuous
navigation tasks with sparse rewards, where standard skill discovery approaches
are no so effective.
- Abstract(参考訳): 強化学習において、グラフラプラシアンは、スキル発見から報酬形成まで、タスクに依存しない設定において貴重なツールであることが証明された。
近年、ラプラシアン表現の学習は、大きな(あるいは連続)状態空間における計算上の限界を克服するために、時間的連続目的の最適化として構成されている。
しかし、このアプローチは、表現学習プロセス中に生じる探索問題を見越して、状態空間の全ての状態に均一にアクセスする必要がある。
本研究では,非一様優先度設定において,ラプラシアン表現の表現性および所望の性質を回復可能な代替手法を提案する。
表現学習をスキルベースでカバーするポリシと組み合わせることで,表現の拡張と洗練のためのより良いトレーニングディストリビューションを提供します。
また,学習時間抽象化による表現目標の簡単な拡張により,ダイナミクス認識性が向上し,探索が促進されることを示した。
本手法は,非一様設定においてラプラシアンの代替として成功し,連続制御環境への挑戦にスケールできることがわかった。
最後に,本手法がスキル発見に最適化されていなくても,標準的なスキル発見アプローチがそれほど効果的ではないような,難易度の高い連続ナビゲーションタスクの解決に成功することができる。
関連論文リスト
- RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Discrete State-Action Abstraction via the Successor Representation [3.453310639983932]
抽象化(Abstraction)は、エージェントに潜伏空間の遷移に固有の報酬を与えるアプローチである。
私たちのアプローチは、基盤となる環境の離散的な抽象化を自動的に学習する最初のものです。
提案アルゴリズムであるDSAA(Disdisrete State-Action Abstraction)は,これらのオプションのトレーニングと,それを用いて環境のより効率的な探索を行う。
論文 参考訳(メタデータ) (2022-06-07T17:37:30Z) - Value Function Spaces: Skill-Centric State Abstractions for Long-Horizon
Reasoning [120.38381203153159]
強化学習は、複雑なタスクを効果的に実行するポリシーを訓練することができる。
長期のタスクでは、これらのメソッドのパフォーマンスは水平線とともに劣化し、しばしば推論と下層のスキルの構築を必要とします。
そこで我々は,各下層スキルに対応する値関数を用いて,そのような表現を生成するシンプルな手法として,値関数空間を提案する。
論文 参考訳(メタデータ) (2021-11-04T22:46:16Z) - Exploratory State Representation Learning [63.942632088208505]
本稿では,XSRL(eXploratory State Representation Learning)と呼ばれる新しい手法を提案する。
一方、コンパクトな状態表現と、その表現から不可解な情報を除去するために使用される状態遷移推定器を共同で学習する。
一方、逆モデルを継続的に訓練し、このモデルの予測誤差に$k$-stepの学習促進ボーナスを加え、発見ポリシーの目的を形成する。
論文 参考訳(メタデータ) (2021-09-28T10:11:07Z) - MURAL: Meta-Learning Uncertainty-Aware Rewards for Outcome-Driven
Reinforcement Learning [65.52675802289775]
本研究では,不確かさを意識した分類器が,強化学習の難しさを解消できることを示す。
正規化最大度(NML)分布の計算法を提案する。
得られたアルゴリズムは、カウントベースの探索法と、報酬関数を学習するための先行アルゴリズムの両方に多くの興味深い関係を持つことを示す。
論文 参考訳(メタデータ) (2021-07-15T08:19:57Z) - Bridging the Imitation Gap by Adaptive Insubordination [88.35564081175642]
教官が特権情報にアクセスして意思決定を行う場合、この情報は模倣学習中に疎外されることを示す。
本稿では,このギャップに対処するため,適応的不規則化(ADVISOR)を提案する。
ADVISORは、トレーニング中の模倣と報酬に基づく強化学習損失を動的に重み付け、模倣と探索をオンザフライで切り替えることを可能にする。
論文 参考訳(メタデータ) (2020-07-23T17:59:57Z) - oIRL: Robust Adversarial Inverse Reinforcement Learning with Temporally
Extended Actions [37.66289166905027]
与えられた環境に対する報酬関数の明示的エンジニアリングは、強化学習方法の大きな障害となっている。
本稿では,階層的不整合報酬を選択肢に対するポリシーで学習するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-02-20T22:21:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。