論文の概要: Visual processing in context of reinforcement learning
- arxiv url: http://arxiv.org/abs/2208.12525v1
- Date: Fri, 26 Aug 2022 09:30:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-29 13:19:02.169399
- Title: Visual processing in context of reinforcement learning
- Title(参考訳): 強化学習における視覚処理
- Authors: Hlynur Dav\'i{\dh} Hlynsson
- Abstract要約: この論文では、従来のRLアルゴリズムが使用するデータソースの異なるサブセットにアクセス可能な3つの異なる表現学習アルゴリズムを紹介している。
RL問題解決パイプラインに教師なし表現学習を含めれば、学習を高速化できると結論付けている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although deep reinforcement learning (RL) has recently enjoyed many
successes, its methods are still data inefficient, which makes solving numerous
problems prohibitively expensive in terms of data. We aim to remedy this by
taking advantage of the rich supervisory signal in unlabeled data for learning
state representations. This thesis introduces three different representation
learning algorithms that have access to different subsets of the data sources
that traditional RL algorithms use:
(i) GRICA is inspired by independent component analysis (ICA) and trains a
deep neural network to output statistically independent features of the input.
GrICA does so by minimizing the mutual information between each feature and the
other features. Additionally, GrICA only requires an unsorted collection of
environment states.
(ii) Latent Representation Prediction (LARP) requires more context: in
addition to requiring a state as an input, it also needs the previous state and
an action that connects them. This method learns state representations by
predicting the representation of the environment's next state given a current
state and action. The predictor is used with a graph search algorithm.
(iii) RewPred learns a state representation by training a deep neural network
to learn a smoothed version of the reward function. The representation is used
for preprocessing inputs to deep RL, while the reward predictor is used for
reward shaping. This method needs only state-reward pairs from the environment
for learning the representation.
We discover that every method has their strengths and weaknesses, and
conclude from our experiments that including unsupervised representation
learning in RL problem-solving pipelines can speed up learning.
- Abstract(参考訳): 深層強化学習(RL)は近年多くの成功をおさめたが、その手法はまだデータ非効率であり、データの観点からは高額な多くの問題を解くことができる。
我々は,無ラベルデータにリッチ・スーパーバイザリー・シグナルを活用し,状態表現を学習することでこの問題を解決しようとする。
この論文は、従来のrlアルゴリズムが使用するデータソースの異なるサブセットにアクセスする3つの異なる表現学習アルゴリズムを導入している。
(i)GRICAは、独立成分分析(ICA)にインスパイアされ、深層ニューラルネットワークを訓練して、入力の統計的に独立した特徴を出力する。
GrICAは、各特徴と他の特徴との間の相互情報を最小化する。
さらに、gricaは環境状態の無分類コレクションのみを必要とする。
(ii)潜在表現予測(larp)は、入力として状態を要求することに加えて、前の状態とそれらを接続するアクションも必要とします。
この方法は、現在の状態とアクションが与えられた環境の次の状態の表現を予測して状態表現を学習する。
予測子はグラフ探索アルゴリズムで使用される。
3)RewPredは、深いニューラルネットワークを訓練して状態表現を学び、報酬関数のスムーズなバージョンを学ぶ。
この表現は入力を深いRLに前処理するために使用され、報酬予測器は報酬形成に使用される。
この方法は、表現を学ぶための環境からの状態逆対のみを必要とする。
我々は,どの手法にも強みと弱みがあることを発見し,rl問題解決パイプラインにおける教師なし表現学習を含め,学習を高速化できる実験から結論づける。
関連論文リスト
- Towards Principled Representation Learning from Videos for Reinforcement Learning [23.877731515619868]
ビデオデータを用いた意思決定のための事前学習表現について検討する。
我々は,ビデオデータを用いたMDPの潜在状態表現の学習に重点を置いている。
論文 参考訳(メタデータ) (2024-03-20T17:28:17Z) - State Sequences Prediction via Fourier Transform for Representation
Learning [111.82376793413746]
本研究では,表現表現を効率よく学習する新しい方法である,フーリエ変換(SPF)による状態列予測を提案する。
本研究では,状態系列における構造情報の存在を理論的に解析する。
実験により,提案手法はサンプル効率と性能の両面で,最先端のアルゴリズムよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-10-24T14:47:02Z) - A Study of Forward-Forward Algorithm for Self-Supervised Learning [65.268245109828]
本研究では,自己指導型表現学習におけるフォワードとバックプロパゲーションのパフォーマンスについて検討する。
我々の主な発見は、フォワードフォワードアルゴリズムが(自己教師付き)トレーニング中にバックプロパゲーションに相容れないように機能するのに対し、転送性能は研究されたすべての設定において著しく遅れていることである。
論文 参考訳(メタデータ) (2023-09-21T10:14:53Z) - Speech representation learning: Learning bidirectional encoders with
single-view, multi-view, and multi-task methods [7.1345443932276424]
この論文は、時間や空間によるシーケンスデータの表現学習に焦点を当てている。
学習した表現を用いて下流のシーケンス予測タスクを改善することを目的としている。
論文 参考訳(メタデータ) (2023-07-25T20:38:55Z) - Value-Consistent Representation Learning for Data-Efficient
Reinforcement Learning [105.70602423944148]
本稿では,意思決定に直接関連のある表現を学習するための,VCR(Value-Consistent Expression Learning)という新しい手法を提案する。
この想像された状態と環境によって返される実状態とを一致させる代わりに、VCRは両方の状態に$Q$-valueヘッドを適用し、2つのアクション値の分布を得る。
検索不要なRLアルゴリズムに対して,提案手法が新たな最先端性能を実現することが実証された。
論文 参考訳(メタデータ) (2022-06-25T03:02:25Z) - Exploratory State Representation Learning [63.942632088208505]
本稿では,XSRL(eXploratory State Representation Learning)と呼ばれる新しい手法を提案する。
一方、コンパクトな状態表現と、その表現から不可解な情報を除去するために使用される状態遷移推定器を共同で学習する。
一方、逆モデルを継続的に訓練し、このモデルの予測誤差に$k$-stepの学習促進ボーナスを加え、発見ポリシーの目的を形成する。
論文 参考訳(メタデータ) (2021-09-28T10:11:07Z) - Reasoning-Modulated Representations [85.08205744191078]
タスクが純粋に不透明でないような共通的な環境について研究する。
我々のアプローチは、新しいデータ効率表現学習の道を開く。
論文 参考訳(メタデータ) (2021-07-19T13:57:13Z) - Predicting What You Already Know Helps: Provable Self-Supervised
Learning [60.27658820909876]
自己教師付き表現学習は、ラベル付きデータを必要としない補助的な予測タスク(プリテキストタスクと呼ばれる)を解決する。
本研究では,特定のエミュレーションに基づくプレテキストタスク間の統計的関係を利用して,優れた表現を学習することを保証する機構を示す。
複素基底真理関数クラスにおいても線形層は近似誤差が小さいことを証明した。
論文 参考訳(メタデータ) (2020-08-03T17:56:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。